OpenAI o1 и o1-mini - это искусственные интеллекты, которые справляются с вопросами STEM лучше, чем предыдущие модели

OpenAI o1 и o1-mini - ИИ, который лучше предыдущих моделей справляется с вопросами STEM. (Источник изображения: сгенерированный ИИ, Dall-E 3)

Появились модели OpenAI o1 и o1-mini, и эти ИИ LLM гораздо лучше справляются с задачами и заданиями по кодированию, математике и науке, чем предыдущие модели, такие как GPT-4o, поскольку им требуется больше времени на обдумывание. Модели OpenAI o1 не могут просматривать веб-страницы или принимать загруженные файлы и изображения, что является их основным ограничением.

David Chien (перевод Ninh Duy), Опубликовано 16 September 2024 🇺🇸 🇫🇷 ...

AI Софт

OpenAI o1 и o1-mini уже прибыли. Эти ИИ LLM гораздо лучше справляются с задачами по кодированию, математике и естественным наукам, чем предыдущие модели, такие как GPT-4o, благодаря тому, что им требуется больше времени на обдумывание.

Сложные задачи в области STEM, как правило, требуют большего, чем быстрый поиск правильных ответов в Интернете. Давая ИИ o1 больше времени на размышления, ИИ может рассуждать более тщательно и точно. Модель o1-mini была специально настроена на то, чтобы отвечать на вопросы STEM с большей скоростью и меньшей потребностью в ресурсах компьютера, и она заметно лучше справляется с кодированием, чем модель o1.

В ряде стандартизированных экзаменов AP и тестов STEM для LLM модели o1 показывают высокую точность. В частности, на экзаменах AP Calculus, AP Chemistry, AP Physics 2, LSAT, а также на тестах SAT по чтению и письму, основанных на доказательствах, модели o1 показывают результаты на уровне B-класса или выше (~80% или выше). Модели точно отвечают на вопросы по физике на уровне A, на вопросы по математике на уровне B, на сложные вопросы по математике Американского вступительного математического экзамена 2024, а также на задачи по кодированию Codeforces на высоком уровне B. Поскольку o1 был настроен на ответы на вопросы STEM, его результаты на экзаменах AP English Language и AP English Literature находятся на уровне или ниже C-класса.

Интересно, что в то время как GPT-4o был ошеломлен криптографической задачей по расшифровке "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz", когда ему дали подсказку "oyfjdnisdr rtqwainr acxz mynzbhhx", что означает "Думай шаг за шагом", o1 без проблем решил задачу и пришел к правильному ответу "В клубнике есть три "р"". Эта новая сила порадует как домашних криптографов-любителей, так и АНБ.

Скрытым злодеям будет полезно знать, что, хотя модели o1 без цензуры могут давать тревожные ответы, компания OpenAI подвергла эти модели кастрации для выпуска. Модели o1 были протестированы на нежелание отвечать на вопросы о создании биооружия, создании непристойных изображений, взломе тюрьмы, преследовании и угрозах. К сожалению, несмотря на все усилия по настройке, модели OpenAI o1 остаются гендерно и расово предвзятыми при тестировании.

Пользователи ChatGPT Plus и Team, а также разработчики пятого уровня использования API получают доступ к моделям o1 немедленно, а пользователи ChatGPT Edu и Enterprise получат доступ на неделе 16 сентября. Пользователи ChatGPT Free получат доступ к o1-mini в ближайшем будущем. Модели o1 не могут просматривать веб-страницы или принимать загруженные файлы и изображения для ответов на вопросы, поэтому OpenAI рекомендует пользователям продолжать использовать свои модели GPT-4o для общих вопросов.

У пользователей, которые хотят задавать вопросы ИИ, теперь есть широкий спектр способных моделей LLM, с которыми можно взаимодействовать, помимо моделей от OpenAIвключая Anthropic Claude, Microsoft CoPilot, Google Gemini, и X Grok. У каждого ИИ есть свои преимущества, поэтому стоит протестировать несколько моделей ИИ, чтобы найти ту, которая лучше всего подходит для индивидуальных потребностей. Некоторые из этих ИИ встроены в умные очки (как эти на Amazon) и диктофоны (как этот на Amazon), а некоторые грядущие автономные роботы-гуманоиды используют запатентованный ИИ для приготовления пищи и уборки.

OpenAI o1 и o1-mini немного хуже справляются с письменными заданиями по сравнению с GPT-4o, но гораздо лучше с техническими задачами, такими как математика или программирование. (Источник изображения: OpenAI)

Серия OpenAI o1 может правильно ответить на более сложные вопросы, чем GPT-4o, но только за счет того, что на ответ уходит гораздо больше времени. (Источник изображения: OpenAI)

Запрограммировав OpenAI o1 на более длительное размышление перед ответом, ИИ LLM способен отвечать на сложные вопросы лучше, чем предыдущие модели, включая GPT-4o. (Источник изображения: OpenAI)

До того, как OpenAI o1-preview-pre-mitigation был кастрирован для выпуска, он любил капризничать. (Источник изображения: OpenAI)

Модели OpenAI o1 остаются гендерно и расово предвзятыми даже после настройки. (Источник изображения: OpenAI)

Хотя OpenAI серии o1 гораздо лучше справляется с созданием инструкций по биологической опасности, в релизных версиях такие возможности урезаны. (Источник изображения: OpenAI)

OpenAI мешает соискателям, использующим ИИ на собеседованиях с программистами, притупляя способность o1-mini и o1-preview пройти набор вопросов OpenAI для инженеров-исследователей с первой попытки. (Источник изображения: OpenAI)

Источник(и)

Модели OpenAI o1, Пресс-релиз OpenAI o1

▶ ▼ Пресс-релиз

12 сентября 2024 г

Представляем OpenAI o1-preview

Новая серия моделей рассуждений для решения сложных задач. Доступно с 9.12

Мы разработали новую серию моделей ИИ, предназначенных для того, чтобы тратить больше времени на размышления перед тем, как ответить. Они могут решать сложные задачи и решать более трудные проблемы, чем предыдущие модели в науке, кодировании и математике.

Сегодня мы выпускаем первую модель из этой серии в ChatGPT и нашем API. Это предварительная версия, и мы ожидаем регулярных обновлений и улучшений. Вместе с этим выпуском мы также включаем оценки для следующего обновления, которое сейчас находится в разработке.

Как это работает

Мы обучили эти модели тратить больше времени на обдумывание проблем перед тем, как ответить, подобно тому, как это делает человек. В процессе обучения они учатся совершенствовать свой мыслительный процесс, пробовать различные стратегии и признавать свои ошибки.

В наших тестах следующее обновление модели показало результаты, сравнимые с результатами аспирантов при решении сложных эталонных задач по физике, химии и биологии. Мы также обнаружили, что она превосходит студентов в математике и кодировании. На отборочном экзамене к Международной математической олимпиаде (IMO) GPT-4o правильно решил только 13% задач, в то время как модель рассуждений набрала 83%. Их способности к кодированию оценивались в конкурсах и достигли 89-го процентиля в соревнованиях Codeforces. Подробнее об этом Вы можете прочитать в нашем посте о технических исследованиях.

Будучи ранней моделью, она еще не обладает многими функциями, которые делают ChatGPT полезным, например, просмотром веб-страниц в поисках информации и загрузкой файлов и изображений. Для многих обычных случаев GPT-4o станет более способным в ближайшем будущем.

Но для сложных задач, связанных с рассуждениями, это значительное достижение и представляет собой новый уровень возможностей ИИ. Учитывая это, мы возвращаем счетчик на 1 и называем эту серию OpenAI o1.

Безопасность

В рамках разработки этих новых моделей мы разработали новый подход к обучению безопасности, который использует их способность рассуждать, чтобы заставить их придерживаться правил безопасности и выравнивания. Благодаря способности рассуждать о наших правилах безопасности в контексте, они могут применять их более эффективно.

Один из способов измерения безопасности - проверка того, насколько хорошо наша модель продолжает следовать правилам безопасности, если пользователь пытается их обойти (так называемый "джейлбрейк"). В одном из наших самых сложных тестов на джейлбрейк GPT-4o набрал 22 балла (по шкале 0-100), в то время как наша модель o1-preview набрала 84 балла. Подробнее об этом Вы можете прочитать в системной карте и в нашем исследовательском посте.

Чтобы соответствовать новым возможностям этих моделей, мы укрепили нашу работу по обеспечению безопасности, внутреннее управление и сотрудничество с федеральными органами власти. Это включает в себя строгое тестирование и оценку с использованием нашей системы готовности (откроется в новом окне), лучшие в своем классе "красные команды" и процессы проверки на уровне совета директоров, включая наш Комитет по охране и безопасности.

Чтобы укрепить наши обязательства по обеспечению безопасности ИИ, мы недавно заключили официальные соглашения с Институтами безопасности ИИ в США и Великобритании. Мы приступили к реализации этих соглашений, в том числе предоставили институтам ранний доступ к исследовательской версии этой модели. Это был важный первый шаг в нашем партнерстве, который помог установить процесс исследования, оценки и тестирования будущих моделей до и после их публичного выпуска.

Для кого это предназначено

Эти расширенные возможности рассуждений могут быть особенно полезны, если Вы решаете сложные задачи в науке, кодировании, математике и других подобных областях. Например, o1 может использоваться исследователями в области здравоохранения для аннотирования данных секвенирования клеток, физиками для создания сложных математических формул, необходимых для квантовой оптики, а также разработчиками во всех областях для создания и выполнения многоэтапных рабочих процессов.

OpenAI o1-mini

Устройства серии o1 превосходно справляются с точной генерацией и отладкой сложного кода. Чтобы предложить разработчикам более эффективное решение, мы также выпускаем OpenAI o1-mini, более быструю и дешевую модель, которая особенно эффективна при кодировании. Будучи более компактной моделью, o1-mini на 80% дешевле, чем o1-preview, что делает ее мощной и экономичной моделью для приложений, требующих рассуждений, но не широкого знания мира.

Как использовать OpenAI o1

Пользователи ChatGPT Plus и Team смогут получить доступ к моделям o1 в ChatGPT, начиная с сегодняшнего дня. Модели o1-preview и o1-mini могут быть выбраны вручную в панели выбора моделей, и при запуске еженедельные лимиты будут составлять 30 сообщений для o1-preview и 50 для o1-mini. Мы работаем над тем, чтобы увеличить эти показатели и дать ChatGPT возможность автоматически выбирать подходящую модель для конкретного запроса.

Изображение нового выпадающего списка ChatGPT, в котором на ярком желто-голубом абстрактном фоне отображается новая модель "o1-preview"

Пользователи ChatGPT Enterprise и Edu получат доступ к обеим моделям со следующей недели.

Разработчики, которые соответствуют уровню использования API 5 (открывается в новом окне), могут начать создавать прототипы с помощью обеих моделей в API уже сегодня с ограничением скорости в 20 оборотов в минуту. Мы работаем над тем, чтобы увеличить эти ограничения после дополнительного тестирования. В настоящее время API для этих моделей не включает вызов функций, потоковую передачу, поддержку системных сообщений и другие возможности. Чтобы начать работу, ознакомьтесь с документацией по API (открывается в новом окне).

Мы также планируем предоставить доступ к o1-mini всем пользователям ChatGPT Free.

Что дальше

Это раннее предварительное знакомство с моделями рассуждений в ChatGPT и API. Помимо обновления моделей, мы планируем добавить просмотр, загрузку файлов и изображений, а также другие возможности, чтобы сделать их более полезными для всех.

Мы также планируем продолжить разработку и выпуск моделей в нашей серии GPT, в дополнение к новой серии OpenAI o1.

Ещё по теме

Кандийские новостные издания подали в суд на OpenAI за нарушение авторских прав (Источник изображения: Фото Jonathan Kemper на Unsplash)

Канадские новостные издания подают в суд на OpenAI за нарушение авторских прав 30 November 2024

Видеогенератор Sora от OpenAI ненадолго просочился на сайт Hugging Face (Источник изображения: OpenAI)

Видеогенератор Sora от OpenAI ненадолго просочился на Hugging Face 27 November 2024

New York Times утверждает, что OpenAI удалил доказательства в иске о защите авторских прав (Источник изображения: Фото Sara Groblechner на Unsplash)

New York Times утверждает, что OpenAI удалил доказательства в иске о защите авторских прав 22 November 2024

OpenAI предлагает бесплатный курс обучения ИИ для учителей (Источник изображения: Common Sense Media)

OpenAI предлагает бесплатный курс обучения ИИ для учителей 20 November 2024

OpenAI с трудом собирает обучающие данные для новых моделей (Источник изображения: OpenAI)

OpenAI с трудом собирает обучающие данные для новых моделей 11 November 2024

Компания OpenAI разрабатывает чип для анализа ИИ в сотрудничестве с Broadcom (Источник изображения: OpenAI)

OpenAI разрабатывает чип для анализа ИИ в сотрудничестве с Broadcom 30 October 2024

Исследователи утверждают, что инструмент Whisper от OpenAI выдумывает всякую ерунду (Источник изображения: OpenAI)

Исследователи утверждают, что инструмент Whisper от OpenAI выдумывает всякую ерунду 28 October 2024

Генеральный директор OpenAI Сэм Альтман (Источник изображения: Korea Metro)

OpenAI предположительно оценивается в 150 миллиардов долларов, ведутся переговоры о привлечении 6,5 миллиардов долларов 13 September 2024

Безопасная система искусственного интеллекта (Источник изображения: Сгенерировано с помощью DALL-E 3)

Бывший главный ученый OpenAI привлекает $1 млрд. на разработку безопасных систем ИИ 05 September 2024

Ожидается, что в следующем раунде финансирования стоимость компании OpenAI превысит 100 миллиардов долларов. (Источник изображения: WikiMedia)

Apple, Nvidia, как сообщается, рассматривает возможность инвестиций в OpenAI, после того как Microsoft приобрела долю в размере $13 млрд 01 September 2024

Отпечатки пальцев, созданные компанией OpenAI, тоже, как утверждается, имеют точность 99,9% (Источник изображения: OpenAI [отредактировано])

Инсайдер сообщает, что мощный инструмент OpenAI по борьбе с плагиатом для ChatGPT застопорился из-за внутренних дебатов 06 August 2024

Прототип SearchGPT утверждает, что предоставляет релевантные источники для всех результатов поиска. (Источник: OpenAI)

Прототип OpenAI 'SearchGPT' начинает ограниченное тестирование, привнося разговорный ИИ и атрибуцию источника в поиск 26 July 2024

Компания OpenAI выпустила более дешевую версию своего самого мощного GPT-4o LLM - GPT-4o mini. (Источник изображения: AI-generated, Dall-E 3)

OpenAI представляет GPT-4o mini по цене в 25 раз ниже, чем GPT-4o, позволяя большему количеству предприятий и пользователей получить доступ к качественному ИИ 19 July 2024

У ChatGPT на Mac есть проблемы. (Источник: OpenAI)

Приложение OpenAI для macOS обновляется в ответ на фиаско с незашифрованными чатами 07 July 2024

Новый релиз 8BitDo призван улучшить...

Xiaomi подтверждает вероятный выпус...

Автор исходного текста: David Chien - Tech Writer - 530 статей на Notebookcheck c 2023 года

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 522633 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!