Notebookcheck Logo

OpenAI o1 и o1-mini - это искусственные интеллекты, которые справляются с вопросами STEM лучше, чем предыдущие модели

OpenAI o1 и o1-mini - ИИ, который лучше предыдущих моделей справляется с вопросами STEM. (Источник изображения: сгенерированный ИИ, Dall-E 3)
OpenAI o1 и o1-mini - ИИ, который лучше предыдущих моделей справляется с вопросами STEM. (Источник изображения: сгенерированный ИИ, Dall-E 3)
Появились модели OpenAI o1 и o1-mini, и эти ИИ LLM гораздо лучше справляются с задачами и заданиями по кодированию, математике и науке, чем предыдущие модели, такие как GPT-4o, поскольку им требуется больше времени на обдумывание. Модели OpenAI o1 не могут просматривать веб-страницы или принимать загруженные файлы и изображения, что является их основным ограничением.

OpenAI o1 и o1-mini уже прибыли. Эти ИИ LLM гораздо лучше справляются с задачами по кодированию, математике и естественным наукам, чем предыдущие модели, такие как GPT-4o, благодаря тому, что им требуется больше времени на обдумывание.

Сложные задачи в области STEM, как правило, требуют большего, чем быстрый поиск правильных ответов в Интернете. Давая ИИ o1 больше времени на размышления, ИИ может рассуждать более тщательно и точно. Модель o1-mini была специально настроена на то, чтобы отвечать на вопросы STEM с большей скоростью и меньшей потребностью в ресурсах компьютера, и она заметно лучше справляется с кодированием, чем модель o1.

В ряде стандартизированных экзаменов AP и тестов STEM для LLM модели o1 показывают высокую точность. В частности, на экзаменах AP Calculus, AP Chemistry, AP Physics 2, LSAT, а также на тестах SAT по чтению и письму, основанных на доказательствах, модели o1 показывают результаты на уровне B-класса или выше (~80% или выше). Модели точно отвечают на вопросы по физике на уровне A, на вопросы по математике на уровне B, на сложные вопросы по математике Американского вступительного математического экзамена 2024, а также на задачи по кодированию Codeforces на высоком уровне B. Поскольку o1 был настроен на ответы на вопросы STEM, его результаты на экзаменах AP English Language и AP English Literature находятся на уровне или ниже C-класса.

Интересно, что в то время как GPT-4o был ошеломлен криптографической задачей по расшифровке "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz", когда ему дали подсказку "oyfjdnisdr rtqwainr acxz mynzbhhx", что означает "Думай шаг за шагом", o1 без проблем решил задачу и пришел к правильному ответу "В клубнике есть три "р"". Эта новая сила порадует как домашних криптографов-любителей, так и АНБ.

Скрытым злодеям будет полезно знать, что, хотя модели o1 без цензуры могут давать тревожные ответы, компания OpenAI подвергла эти модели кастрации для выпуска. Модели o1 были протестированы на нежелание отвечать на вопросы о создании биооружия, создании непристойных изображений, взломе тюрьмы, преследовании и угрозах. К сожалению, несмотря на все усилия по настройке, модели OpenAI o1 остаются гендерно и расово предвзятыми при тестировании.

Пользователи ChatGPT Plus и Team, а также разработчики пятого уровня использования API получают доступ к моделям o1 немедленно, а пользователи ChatGPT Edu и Enterprise получат доступ на неделе 16 сентября. Пользователи ChatGPT Free получат доступ к o1-mini в ближайшем будущем. Модели o1 не могут просматривать веб-страницы или принимать загруженные файлы и изображения для ответов на вопросы, поэтому OpenAI рекомендует пользователям продолжать использовать свои модели GPT-4o для общих вопросов.

У пользователей, которые хотят задавать вопросы ИИ, теперь есть широкий спектр способных моделей LLM, с которыми можно взаимодействовать, помимо моделей от OpenAIвключая Anthropic Claude, Microsoft CoPilot, Google Gemini, и X Grok. У каждого ИИ есть свои преимущества, поэтому стоит протестировать несколько моделей ИИ, чтобы найти ту, которая лучше всего подходит для индивидуальных потребностей. Некоторые из этих ИИ встроены в умные очки(как эти на Amazon) и диктофоны(как этот на Amazon), а некоторые грядущие автономные роботы-гуманоиды используют запатентованный ИИ для приготовления пищи и уборки.

OpenAI o1 и o1-mini немного хуже справляются с письменными заданиями по сравнению с GPT-4o, но гораздо лучше с техническими задачами, такими как математика или программирование. (Источник изображения: OpenAI)
OpenAI o1 и o1-mini немного хуже справляются с письменными заданиями по сравнению с GPT-4o, но гораздо лучше с техническими задачами, такими как математика или программирование. (Источник изображения: OpenAI)
Серия OpenAI o1 может правильно ответить на более сложные вопросы, чем GPT-4o, но только за счет того, что на ответ уходит гораздо больше времени. (Источник изображения: OpenAI)
Серия OpenAI o1 может правильно ответить на более сложные вопросы, чем GPT-4o, но только за счет того, что на ответ уходит гораздо больше времени. (Источник изображения: OpenAI)
Запрограммировав OpenAI o1 на более длительное размышление перед ответом, ИИ LLM способен отвечать на сложные вопросы лучше, чем предыдущие модели, включая GPT-4o. (Источник изображения: OpenAI)
Запрограммировав OpenAI o1 на более длительное размышление перед ответом, ИИ LLM способен отвечать на сложные вопросы лучше, чем предыдущие модели, включая GPT-4o. (Источник изображения: OpenAI)
До того, как OpenAI o1-preview-pre-mitigation был кастрирован для выпуска, он любил капризничать. (Источник изображения: OpenAI)
До того, как OpenAI o1-preview-pre-mitigation был кастрирован для выпуска, он любил капризничать. (Источник изображения: OpenAI)
Модели OpenAI o1 остаются гендерно и расово предвзятыми даже после настройки. (Источник изображения: OpenAI)
Модели OpenAI o1 остаются гендерно и расово предвзятыми даже после настройки. (Источник изображения: OpenAI)
Хотя OpenAI серии o1 гораздо лучше справляется с созданием инструкций по биологической опасности, в релизных версиях такие возможности урезаны. (Источник изображения: OpenAI)
Хотя OpenAI серии o1 гораздо лучше справляется с созданием инструкций по биологической опасности, в релизных версиях такие возможности урезаны. (Источник изображения: OpenAI)
OpenAI мешает соискателям, использующим ИИ на собеседованиях с программистами, притупляя способность o1-mini и o1-preview пройти набор вопросов OpenAI для инженеров-исследователей с первой попытки. (Источник изображения: OpenAI)
OpenAI мешает соискателям, использующим ИИ на собеседованиях с программистами, притупляя способность o1-mini и o1-preview пройти набор вопросов OpenAI для инженеров-исследователей с первой попытки. (Источник изображения: OpenAI)

12 сентября 2024 г

Представляем OpenAI o1-preview

Новая серия моделей рассуждений для решения сложных задач. Доступно с 9.12

Мы разработали новую серию моделей ИИ, предназначенных для того, чтобы тратить больше времени на размышления перед тем, как ответить. Они могут решать сложные задачи и решать более трудные проблемы, чем предыдущие модели в науке, кодировании и математике.

Сегодня мы выпускаем первую модель из этой серии в ChatGPT и нашем API. Это предварительная версия, и мы ожидаем регулярных обновлений и улучшений. Вместе с этим выпуском мы также включаем оценки для следующего обновления, которое сейчас находится в разработке.

Как это работает

Мы обучили эти модели тратить больше времени на обдумывание проблем перед тем, как ответить, подобно тому, как это делает человек. В процессе обучения они учатся совершенствовать свой мыслительный процесс, пробовать различные стратегии и признавать свои ошибки.

В наших тестах следующее обновление модели показало результаты, сравнимые с результатами аспирантов при решении сложных эталонных задач по физике, химии и биологии. Мы также обнаружили, что она превосходит студентов в математике и кодировании. На отборочном экзамене к Международной математической олимпиаде (IMO) GPT-4o правильно решил только 13% задач, в то время как модель рассуждений набрала 83%. Их способности к кодированию оценивались в конкурсах и достигли 89-го процентиля в соревнованиях Codeforces. Подробнее об этом Вы можете прочитать в нашем посте о технических исследованиях.

Будучи ранней моделью, она еще не обладает многими функциями, которые делают ChatGPT полезным, например, просмотром веб-страниц в поисках информации и загрузкой файлов и изображений. Для многих обычных случаев GPT-4o станет более способным в ближайшем будущем.

Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.

Безопасность

В рамках разработки этих новых моделей мы разработали новый подход к обучению безопасности, который использует их способность рассуждать, чтобы заставить их придерживаться правил безопасности и выравнивания. Благодаря способности рассуждать о наших правилах безопасности в контексте, они могут применять их более эффективно.

Один из способов измерения безопасности - проверка того, насколько хорошо наша модель продолжает следовать правилам безопасности, если пользователь пытается их обойти (так называемый "джейлбрейк"). В одном из наших самых сложных тестов на джейлбрейк GPT-4o набрал 22 балла (по шкале 0-100), в то время как наша модель o1-preview набрала 84 балла. Подробнее об этом Вы можете прочитать в системной карте и в нашем исследовательском посте.

Чтобы соответствовать новым возможностям этих моделей, мы укрепили нашу работу по обеспечению безопасности, внутреннее управление и сотрудничество с федеральными органами власти. Это включает в себя строгое тестирование и оценку с использованием нашей системы готовности (откроется в новом окне), лучшие в своем классе "красные команды" и процессы проверки на уровне совета директоров, включая наш Комитет по охране и безопасности.

Чтобы укрепить наши обязательства по обеспечению безопасности ИИ, мы недавно заключили официальные соглашения с Институтами безопасности ИИ в США и Великобритании. Мы приступили к реализации этих соглашений, в том числе предоставили институтам ранний доступ к исследовательской версии этой модели. Это был важный первый шаг в нашем партнерстве, который помог установить процесс исследования, оценки и тестирования будущих моделей до и после их публичного выпуска.

Для кого это предназначено

Эти расширенные возможности рассуждений могут быть особенно полезны, если Вы решаете сложные задачи в науке, кодировании, математике и других подобных областях. Например, o1 может использоваться исследователями в области здравоохранения для аннотирования данных секвенирования клеток, физиками для создания сложных математических формул, необходимых для квантовой оптики, а также разработчиками во всех областях для создания и выполнения многоэтапных рабочих процессов.

OpenAI o1-mini

Устройства серии o1 превосходно справляются с точной генерацией и отладкой сложного кода. Чтобы предложить разработчикам более эффективное решение, мы также выпускаем OpenAI o1-mini, более быструю и дешевую модель, которая особенно эффективна при кодировании. Будучи более компактной моделью, o1-mini на 80% дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не широкого знания мира.

Как использовать OpenAI o1

Пользователи ChatGPT Plus и Team смогут получить доступ к моделям o1 в ChatGPT, начиная с сегодняшнего дня. Модели o1-preview и o1-mini могут быть выбраны вручную в панели выбора моделей, и при запуске еженедельные лимиты будут составлять 30 сообщений для o1-preview и 50 для o1-mini. Мы работаем над тем, чтобы увеличить эти показатели и дать ChatGPT возможность автоматически выбирать подходящую модель для конкретного запроса.

Изображение нового выпадающего списка ChatGPT, в котором на ярком желто-голубом абстрактном фоне отображается новая модель "o1-preview"

Пользователи ChatGPT Enterprise и Edu получат доступ к обеим моделям со следующей недели.

Разработчики, которые соответствуют уровню использования API 5 (открывается в новом окне), могут начать создавать прототипы с помощью обеих моделей в API уже сегодня с ограничением скорости в 20 оборотов в минуту. Мы работаем над тем, чтобы увеличить эти ограничения после дополнительного тестирования. В настоящее время API для этих моделей не включает вызов функций, потоковую передачу, поддержку системных сообщений и другие возможности. Чтобы начать работу, ознакомьтесь с документацией по API (открывается в новом окне).

Мы также планируем предоставить доступ к o1-mini всем пользователям ChatGPT Free.

Что дальше

Это раннее предварительное знакомство с моделями рассуждений в ChatGPT и API. Помимо обновления моделей, мы планируем добавить просмотр, загрузку файлов и изображений, а также другие возможности, чтобы сделать их более полезными для всех.

Мы также планируем продолжить разработку и выпуск моделей в нашей серии GPT, в дополнение к новой серии OpenAI o1.

Этот важный материал точно понравится твоим друзьям в социальных сетях!
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2024 год, 09 месяц > OpenAI o1 и o1-mini - это искусственные интеллекты, которые справляются с вопросами STEM лучше, чем предыдущие модели
David Chien, 2024-09-16 (Update: 2024-09-16)