OpenAI o1 и o1-mini - это искусственные интеллекты, которые справляются с вопросами STEM лучше, чем предыдущие модели
OpenAI o1 и o1-mini уже прибыли. Эти ИИ LLM гораздо лучше справляются с задачами по кодированию, математике и естественным наукам, чем предыдущие модели, такие как GPT-4o, благодаря тому, что им требуется больше времени на обдумывание.
Сложные задачи в области STEM, как правило, требуют большего, чем быстрый поиск правильных ответов в Интернете. Давая ИИ o1 больше времени на размышления, ИИ может рассуждать более тщательно и точно. Модель o1-mini была специально настроена на то, чтобы отвечать на вопросы STEM с большей скоростью и меньшей потребностью в ресурсах компьютера, и она заметно лучше справляется с кодированием, чем модель o1.
В ряде стандартизированных экзаменов AP и тестов STEM для LLM модели o1 показывают высокую точность. В частности, на экзаменах AP Calculus, AP Chemistry, AP Physics 2, LSAT, а также на тестах SAT по чтению и письму, основанных на доказательствах, модели o1 показывают результаты на уровне B-класса или выше (~80% или выше). Модели точно отвечают на вопросы по физике на уровне A, на вопросы по математике на уровне B, на сложные вопросы по математике Американского вступительного математического экзамена 2024, а также на задачи по кодированию Codeforces на высоком уровне B. Поскольку o1 был настроен на ответы на вопросы STEM, его результаты на экзаменах AP English Language и AP English Literature находятся на уровне или ниже C-класса.
Интересно, что в то время как GPT-4o был ошеломлен криптографической задачей по расшифровке "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz", когда ему дали подсказку "oyfjdnisdr rtqwainr acxz mynzbhhx", что означает "Думай шаг за шагом", o1 без проблем решил задачу и пришел к правильному ответу "В клубнике есть три "р"". Эта новая сила порадует как домашних криптографов-любителей, так и АНБ.
Скрытым злодеям будет полезно знать, что, хотя модели o1 без цензуры могут давать тревожные ответы, компания OpenAI подвергла эти модели кастрации для выпуска. Модели o1 были протестированы на нежелание отвечать на вопросы о создании биооружия, создании непристойных изображений, взломе тюрьмы, преследовании и угрозах. К сожалению, несмотря на все усилия по настройке, модели OpenAI o1 остаются гендерно и расово предвзятыми при тестировании.
Пользователи ChatGPT Plus и Team, а также разработчики пятого уровня использования API получают доступ к моделям o1 немедленно, а пользователи ChatGPT Edu и Enterprise получат доступ на неделе 16 сентября. Пользователи ChatGPT Free получат доступ к o1-mini в ближайшем будущем. Модели o1 не могут просматривать веб-страницы или принимать загруженные файлы и изображения для ответов на вопросы, поэтому OpenAI рекомендует пользователям продолжать использовать свои модели GPT-4o для общих вопросов.
У пользователей, которые хотят задавать вопросы ИИ, теперь есть широкий спектр способных моделей LLM, с которыми можно взаимодействовать, помимо моделей от OpenAIвключая Anthropic Claude, Microsoft CoPilot, Google Gemini, и X Grok. У каждого ИИ есть свои преимущества, поэтому стоит протестировать несколько моделей ИИ, чтобы найти ту, которая лучше всего подходит для индивидуальных потребностей. Некоторые из этих ИИ встроены в умные очки(как эти на Amazon) и диктофоны(как этот на Amazon), а некоторые грядущие автономные роботы-гуманоиды используют запатентованный ИИ для приготовления пищи и уборки.
Источник(и)
12 сентября 2024 г
Представляем OpenAI o1-preview
Новая серия моделей рассуждений для решения сложных задач. Доступно с 9.12
Мы разработали новую серию моделей ИИ, предназначенных для того, чтобы тратить больше времени на размышления перед тем, как ответить. Они могут решать сложные задачи и решать более трудные проблемы, чем предыдущие модели в науке, кодировании и математике.
Сегодня мы выпускаем первую модель из этой серии в ChatGPT и нашем API. Это предварительная версия, и мы ожидаем регулярных обновлений и улучшений. Вместе с этим выпуском мы также включаем оценки для следующего обновления, которое сейчас находится в разработке.
Как это работает
Мы обучили эти модели тратить больше времени на обдумывание проблем перед тем, как ответить, подобно тому, как это делает человек. В процессе обучения они учатся совершенствовать свой мыслительный процесс, пробовать различные стратегии и признавать свои ошибки.
В наших тестах следующее обновление модели показало результаты, сравнимые с результатами аспирантов при решении сложных эталонных задач по физике, химии и биологии. Мы также обнаружили, что она превосходит студентов в математике и кодировании. На отборочном экзамене к Международной математической олимпиаде (IMO) GPT-4o правильно решил только 13% задач, в то время как модель рассуждений набрала 83%. Их способности к кодированию оценивались в конкурсах и достигли 89-го процентиля в соревнованиях Codeforces. Подробнее об этом Вы можете прочитать в нашем посте о технических исследованиях.
Будучи ранней моделью, она еще не обладает многими функциями, которые делают ChatGPT полезным, например, просмотром веб-страниц в поисках информации и загрузкой файлов и изображений. Для многих обычных случаев GPT-4o станет более способным в ближайшем будущем.
Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.
Безопасность
В рамках разработки этих новых моделей мы разработали новый подход к обучению безопасности, который использует их способность рассуждать, чтобы заставить их придерживаться правил безопасности и выравнивания. Благодаря способности рассуждать о наших правилах безопасности в контексте, они могут применять их более эффективно.
Один из способов измерения безопасности - проверка того, насколько хорошо наша модель продолжает следовать правилам безопасности, если пользователь пытается их обойти (так называемый "джейлбрейк"). В одном из наших самых сложных тестов на джейлбрейк GPT-4o набрал 22 балла (по шкале 0-100), в то время как наша модель o1-preview набрала 84 балла. Подробнее об этом Вы можете прочитать в системной карте и в нашем исследовательском посте.
Чтобы соответствовать новым возможностям этих моделей, мы укрепили нашу работу по обеспечению безопасности, внутреннее управление и сотрудничество с федеральными органами власти. Это включает в себя строгое тестирование и оценку с использованием нашей системы готовности (откроется в новом окне), лучшие в своем классе "красные команды" и процессы проверки на уровне совета директоров, включая наш Комитет по охране и безопасности.
Чтобы укрепить наши обязательства по обеспечению безопасности ИИ, мы недавно заключили официальные соглашения с Институтами безопасности ИИ в США и Великобритании. Мы приступили к реализации этих соглашений, в том числе предоставили институтам ранний доступ к исследовательской версии этой модели. Это был важный первый шаг в нашем партнерстве, который помог установить процесс исследования, оценки и тестирования будущих моделей до и после их публичного выпуска.
Для кого это предназначено
Эти расширенные возможности рассуждений могут быть особенно полезны, если Вы решаете сложные задачи в науке, кодировании, математике и других подобных областях. Например, o1 может использоваться исследователями в области здравоохранения для аннотирования данных секвенирования клеток, физиками для создания сложных математических формул, необходимых для квантовой оптики, а также разработчиками во всех областях для создания и выполнения многоэтапных рабочих процессов.
OpenAI o1-mini
Устройства серии o1 превосходно справляются с точной генерацией и отладкой сложного кода. Чтобы предложить разработчикам более эффективное решение, мы также выпускаем OpenAI o1-mini, более быструю и дешевую модель, которая особенно эффективна при кодировании. Будучи более компактной моделью, o1-mini на 80% дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не широкого знания мира.
Как использовать OpenAI o1
Пользователи ChatGPT Plus и Team смогут получить доступ к моделям o1 в ChatGPT, начиная с сегодняшнего дня. Модели o1-preview и o1-mini могут быть выбраны вручную в панели выбора моделей, и при запуске еженедельные лимиты будут составлять 30 сообщений для o1-preview и 50 для o1-mini. Мы работаем над тем, чтобы увеличить эти показатели и дать ChatGPT возможность автоматически выбирать подходящую модель для конкретного запроса.
Изображение нового выпадающего списка ChatGPT, в котором на ярком желто-голубом абстрактном фоне отображается новая модель "o1-preview"
Пользователи ChatGPT Enterprise и Edu получат доступ к обеим моделям со следующей недели.
Разработчики, которые соответствуют уровню использования API 5 (открывается в новом окне), могут начать создавать прототипы с помощью обеих моделей в API уже сегодня с ограничением скорости в 20 оборотов в минуту. Мы работаем над тем, чтобы увеличить эти ограничения после дополнительного тестирования. В настоящее время API для этих моделей не включает вызов функций, потоковую передачу, поддержку системных сообщений и другие возможности. Чтобы начать работу, ознакомьтесь с документацией по API (открывается в новом окне).
Мы также планируем предоставить доступ к o1-mini всем пользователям ChatGPT Free.
Что дальше
Это раннее предварительное знакомство с моделями рассуждений в ChatGPT и API. Помимо обновления моделей, мы планируем добавить просмотр, загрузку файлов и изображений, а также другие возможности, чтобы сделать их более полезными для всех.
Мы также планируем продолжить разработку и выпуск моделей в нашей серии GPT, в дополнение к новой серии OpenAI o1.