OpenAI запускает более умный ИИ o3-mini с бесплатным доступом к ChatGPT
Компания OpenAI представила свою новейшую модель большого языка ИИ, o3-mini, которая быстрее и лучше своей предшественницы o1-mini в предоставлении точных ответов. Эта модель - первая небольшая языковая модель компании, доступная для бесплатного публичного использования всем владельцам аккаунтов ChatGPT уже сегодня.
Модель o3-mini можно запускать, используя три уровня усилий в рассуждениях - низкий, средний и высокий. Любой человек с бесплатным аккаунтом ChatGPT может бесплатно запустить o3-mini на среднем уровне рассуждений, а владельцы платных аккаунтов могут выбрать низкий или высокий уровень рассуждений. Платные пользователи ChatGPT Plus, Team и Pro получают доступ к o3-mini уже сегодня, а пользователям Enterprise придется подождать до февраля. Программисты, которым не терпится создать приложения, занимающие первые места в чартах, на основе API OpenAI o3-mini, могут прочитать, как это сделать, в этой книге на Amazon.
В целом, o3-mini, если установить средний или высокий режим рассуждений, превосходит o1-mini в стандартизированных эталонах ИИ, включая те, которые требуют от ИИ рассуждать над проблемами. В режиме высокой логики o3-mini также превосходит более крупную модель o1 в некоторых тестах, но не обладает способностью o1 видеть изображения и обрабатывать визуальные данные.
Примечательно, что o3-mini дает ответы на 24%, или примерно на 2,46 секунды, быстрее, чем o1-mini. Это помогает сократить время ожидания ответов от ChatGPT и уменьшить выбросы углекислого газа, производимые компьютерами, на которых работает o3-mini. Хотя o3-mini работает быстрее, хакеры будут разочарованы, поскольку его возможности использования для атак на кибербезопасность значительно уменьшились.
Источник(и)
31 января 2025 г
OpenAI o3-mini
Расширяем границы экономичных рассуждений.
Мы выпускаем OpenAI o3-mini, новейшую, самую экономичную модель в нашей серии рассуждений, доступную сегодня как в ChatGPT, так и в API. Эта мощная и быстрая модель, представленная в декабре 2024 года, расширяет границы возможностей небольших моделей, предоставляя исключительные возможности STEM - с особыми преимуществами в науке, математике и кодировании - при сохранении низкой стоимости и уменьшенной задержки OpenAI o1-mini.
OpenAI o3-mini - наша первая небольшая модель рассуждений, которая поддерживает очень востребованные разработчиками функции, включая вызов функций (открывается в новом окне), структурированные выходные данные (открывается в новом окне) и сообщения разработчика (открывается в новом окне), что делает ее готовой к производству с первых минут. Как и OpenAI o1-mini и OpenAI o1-preview, o3-mini будет поддерживать потоковую передачу(открывается в новом окне). Кроме того, разработчики могут выбрать один из трех вариантов усилий по обоснованию (открывается в новом окне) - низкий, средний и высокий - для оптимизации под свои конкретные случаи использования. Такая гибкость позволяет o3-mini "думать больше" при решении сложных задач или отдавать предпочтение скорости, когда задержка вызывает беспокойство. o3-mini не поддерживает возможности зрения, поэтому разработчикам следует продолжать использовать OpenAI o1 для задач визуального рассуждения. o3-mini распространяется в API завершения чата, API помощников и пакетном API с сегодняшнего дня для избранных разработчиков на уровнях использования API 3-5 (открывается в новом окне).
Пользователи ChatGPT Plus, Team и Pro могут получить доступ к OpenAI o3-mini с сегодняшнего дня, а доступ Enterprise появится в феврале. o3-mini заменит OpenAI o1-mini в подборщике моделей, предлагая более высокие ограничения скорости и более низкую задержку, что делает его привлекательным выбором для кодирования, STEM и решения логических задач. В рамках этого обновления мы втрое увеличиваем лимит скорости для пользователей Plus и Team - с 50 сообщений в день с o1-mini до 150 сообщений в день с o3-mini. Кроме того, o3-mini теперь работает с поиском, чтобы находить актуальные ответы со ссылками на соответствующие веб-источники. Это ранний прототип, поскольку мы работаем над интеграцией поиска в наши модели рассуждений.
Начиная с сегодняшнего дня, пользователи бесплатного плана также могут опробовать OpenAI o3-mini, выбрав "Reason" в композиторе сообщений или сгенерировав ответ. Это первый случай, когда модель рассуждений становится доступной для бесплатных пользователей в ChatGPT.
В то время как OpenAI o1 остается нашей более широкой моделью рассуждений для общих знаний, OpenAI o3-mini представляет собой специализированную альтернативу для технических областей, требующих точности и скорости. В ChatGPT o3-mini использует средние усилия для рассуждений, чтобы обеспечить сбалансированный компромисс между скоростью и точностью. У всех платных пользователей также будет возможность выбрать o3-mini-high в подборщике моделей для более высокоинтеллектуальной версии, которая требует немного больше времени для генерации ответов. Пользователи-профи получат неограниченный доступ как к o3-mini-, так и к o3-mini-high.
Быстрый, мощный и оптимизированный для STEM-рассуждений
Как и его предшественник OpenAI o1, OpenAI o3-mini был оптимизирован для STEM-рассуждений. o3-mini со средними усилиями в рассуждениях соответствует производительности o1 в математике, кодировании и науке, но при этом выдает более быстрые ответы. Оценка экспертов-тестеров показала, что o3-mini дает более точные и четкие ответы, обладая более сильными способностями к рассуждению, чем OpenAI o1-mini. Тестеры предпочитали ответы o3-mini ответам o1-mini в 56% случаев и наблюдали 39%-ное сокращение основных ошибок в сложных реальных вопросах. При средних усилиях на рассуждение o3-mini соответствует результатам o1 в некоторых наиболее сложных тестах на рассуждение и интеллект, включая AIME и GPQA.
Соревновательная математика (AIME 2024)
На гистограмме сравнивается точность ответов на конкурсные математические вопросы AIME 2024 для разных моделей ИИ. Более старые модели (серые) показывают более низкие результаты, в то время как новые (желтые) улучшают свои показатели. модель "o3-mini (high)" достигает наивысшей точности в 83,6%, демонстрируя значительный прогресс.
Математика: При небольших усилиях в рассуждениях OpenAI o3-mini достигает сопоставимой производительности с OpenAI o1-mini, а при средних усилиях o3-mini достигает сопоставимой производительности с o1. В то же время, при больших усилиях в рассуждениях o3-mini превосходит и OpenAI o1-mini, и OpenAI o1, где заштрихованные серым цветом области показывают производительность большинства голосов (консенсуса) с 64 образцами.
Научные вопросы уровня доктора философии (GPQA Diamond)
На гистограмме сравнивается точность ответов на научные вопросы уровня доктора философии (GPQA Diamond) различных моделей ИИ. Старые модели (серые) показывают более низкие результаты, в то время как новые (желтые) улучшают их. точность модели "o3-mini (high)" достигает 77,0%, демонстрируя заметный прогресс по сравнению с более ранними версиями.
Наука на уровне кандидата наук: В вопросах по биологии, химии и физике на уровне доктора наук при небольших усилиях OpenAI o3-mini достигает производительности выше, чем OpenAI o1-mini. При больших усилиях o3-mini достигает производительности, сравнимой с o1.
FrontierMath
Черная сетка с множеством строк и столбцов, разделенных тонкими белыми линиями, создающими структурированный и организованный макет.
Математика исследовательского уровня: OpenAI o3-mini с высоким уровнем аргументации показывает лучшие результаты, чем его предшественник на FrontierMath. На FrontierMath, когда ему предлагается использовать инструмент Python, o3-mini с высоким уровнем аргументации решает более 32% задач с первой попытки, включая более 28% сложных задач (T3). Эти цифры являются предварительными, а график выше показывает производительность без инструментов и калькулятора.
Код соревнования (Codeforces)
На гистограмме сравниваются рейтинги Эло в конкурсных заданиях по кодированию Codeforces для разных моделей ИИ. Старые модели (серые) показывают более низкие результаты, а новые (желтые) - более высокие. модель "o3-mini (high)" достигла 2073 баллов Эло, показав значительный прогресс по сравнению с предыдущими версиями.
Соревновательное кодирование: В соревновательном программировании Codeforces модель OpenAI o3-mini достигает все более высоких показателей Эло при увеличении усилий по рассуждению, превосходя o1-mini. При средних усилиях на рассуждения он сравнялся с o1.
Программная инженерия (SWE-bench Verified)
На гистограмме сравнивается точность выполнения задач по программной инженерии, проверенных в SWE-bench, разными моделями ИИ. Более старые модели (серые) показывают более низкие результаты, в то время как "o3-mini (high)" (желтая) достигает наивысшей точности в 48,9%, демонстрируя улучшение по сравнению с предыдущими версиями.
Программная инженерия: o3-mini - наша самая высокопроизводительная выпущенная модель в SWEbench-верификации. Дополнительные данные о результатах SWE-bench Verified с высокими усилиями по обоснованию, в том числе с открытым исходным кодом Agentless scaffold (39%) и внутренним инструментарием scaffold (61%), см. в нашей карточке системы.
Кодирование в LiveBench
В таблице приведено сравнение моделей ИИ в задачах кодирования, показаны метрики производительности и оценочные баллы. Она подчеркивает различия в точности и эффективности, причем некоторые модели превосходят другие в определенных бенчмарках.
Кодирование в LiveBench: OpenAI o3-mini превосходит o1-high даже при средних усилиях рассуждения, что подчеркивает ее эффективность в задачах кодирования. При больших усилиях в рассуждениях o3-mini еще больше увеличивает свое преимущество, достигая значительно более высоких показателей по ключевым метрикам.
Общие знания
В таблице "Оценка по категориям" сравниваются модели ИИ в различных категориях оценки, показывая показатели эффективности. Она подчеркивает различия в точности, эффективности и результативности, причем некоторые модели превосходят другие в определенных задачах.
Общие знания: o3-mini превосходит o1-mini в оценках знаний в общих областях знаний.
Оценка человеческих предпочтений
На диаграмме сравниваются показатели побед в задачах STEM и не-STEM для разных моделей ИИ. "o3_mini_v43_s960_j128" (желтый) превосходит "o1_mini_chatgpt" (красная базовая линия) в обеих категориях, при этом процент побед в STEM-задачах выше.
На диаграмме сравниваются показатели побед при ограничении времени и количество основных ошибок у разных моделей ИИ. модель "o3_mini_v43_s960_j128" (желтая) превосходит модель "o1_mini_chatgpt" (красная базовая линия) по количеству побед и значительно снижает количество серьезных ошибок.
Оценка человеческих предпочтений: Оценки внешних экспертов-тестеров также показывают, что OpenAI o3-mini дает более точные и четкие ответы и обладает более сильными способностями к рассуждению, чем OpenAI o1-mini, особенно в области STEM. Тестировщики предпочитали ответы o3-mini ответам o1-mini в 56% случаев и наблюдали 39%-ное сокращение основных ошибок в сложных реальных вопросах.
Скорость и производительность модели
Обладая интеллектом, сравнимым с OpenAI o1, OpenAI o3-mini обеспечивает более высокую производительность и эффективность. Помимо вышеупомянутых оценок STEM, o3-mini демонстрирует превосходные результаты в дополнительных оценках математики и фактологии при средних затратах на рассуждения. В ходе A/B-тестирования o3-mini давал ответы на 24% быстрее, чем o1-mini, со средним временем ответа 7,7 секунды против 10,16 секунды.
Сравнение времени ожидания между o1-mini и o3-mini (среднее)
На гистограмме сравнивается время ожидания между моделями "o1-mini" и "o3-mini (medium)". модель "o3-mini" (более светло-желтая) имеет меньшую задержку, что указывает на более быстрое время отклика, в то время как модель "o1-mini" (более темно-желтая) в среднем работает дольше.
Латентность: у o3-mini время до первого токена в среднем на 2500 мс быстрее, чем у o1-mini.
Безопасность
Одна из ключевых техник, которую мы использовали, чтобы научить OpenAI o3-mini отвечать безопасно, - это обдуманное согласование, когда мы обучали модель рассуждать о спецификациях безопасности, написанных человеком, прежде чем отвечать на подсказки пользователя. Как и OpenAI o1, мы обнаружили, что o3-mini значительно превосходит GPT-4o в сложных оценках безопасности и джейлбрейка. Перед развертыванием мы тщательно оценили риски безопасности o3-mini, используя тот же подход к готовности, внешнее повторное тестирование и оценку безопасности, что и в o1. Мы благодарим тестеров безопасности, которые подали заявку на тестирование o3-mini в раннем доступе. Подробные сведения о приведенных ниже оценках, а также исчерпывающее объяснение потенциальных рисков и эффективности наших мер по их снижению можно найти в системной карте o3-mini.
Оценки запрещенного контента
В этой таблице сравниваются модели ИИ по показателям безопасности, оценивая эффективность по различным категориям риска. Она подчеркивает различия в соблюдении требований безопасности, причем некоторые модели лучше справляются со снижением потенциальных рисков.
Оценки джейлбрейка
В таблице сравниваются модели ИИ по показателям безопасности в различных категориях риска, показывая различия в производительности. Она подчеркивает различия в снижении рисков, причем некоторые модели демонстрируют более строгое соответствие и более безопасные реакции.
Что дальше
Выпуск OpenAI o3-mini знаменует собой еще один шаг в миссии OpenAI по расширению границ экономически эффективного интеллекта. Оптимизируя рассуждения для областей STEM и сохраняя при этом низкую стоимость, мы делаем высококачественный ИИ еще более доступным. Эта модель продолжает наш послужной список снижения стоимости интеллекта - с момента запуска GPT-4 цена за токен снизилась на 95% - при сохранении первоклассных возможностей рассуждений. По мере распространения ИИ мы по-прежнему стремимся быть лидерами на передовой, создавая модели, которые обеспечивают баланс между интеллектом, эффективностью и безопасностью в масштабе.
Авторы
OpenAI
Обучение
Брайан Чжан, Эрик Митчелл, Хонгю Рен, Кевин Лу, Макс Шварцер, Мишель Покрасс, Шенджия Чжао, Тед Сандерс
Eval
Адам Калай, Алекс Тачард Пассос, Бен Соколовский, Элейн Я Ле, Эрик Риттер, Хао Шенг, Хансон Ванг, Илья Костриков, Джеймс Ли, Йоханнес Ферстад, Майкл Лампе, Прашант Радхакришнан, Шон Фицджеральд, Себастьен Бубек, Янн Дюбуа, Ю Бай
Пограничные события и готовность
Энди Эпплбаум, Элизабет Прол, Эван Мэйс, Джоэл Пэриш, Кевин Лю, Леон Максин, Лейтон Хо, Майлз Ванг, Мишель Ванг, Оливия Уоткинс, Патрик Чао, Сэмюэл Мизерендино, Теджал Патвардхан
Инженерия
Адам Уокер, Акшай Натан, Алисса Хуанг, Энди Ванг, Анкит Гохел, Бен Эггерс, Брайан Ю, Брайан Эшли, Чэнду Хуанг, Кристиан Хоаро, Давин Боган, Эмили Соколова, Эрик Хорачек, Эрик Цзян, Фелипе Петроски Such, Иона Коэн, Джош Гросс, Джастин Беккер, Кан Ву, Кевин Уиннери, Ларри Лв, Ли Байрон, Маноли Лиодакис, Макс Джонсон, Майк Трпчич, Мурат Есильдал, Расмус Райгард, Р.Дж. Марсан, Рохит Рамчандани, Рохан Кширсагар, Роман Хует, Сара Конлон, Шуайци (Тони) Ся, Сиюань Фу, Шринивас Нараянан, Сулман Чоудри, Томер Кафтан, Тревор Крич
Поиск
Адам Фрай, Адам Перельман, Брэндон Ванг, Кристина Шоу, Филип Пронин, Сундеп Тирумаларедди, Уилл Эллсворт, Зевей Чу
Продукт
Антония Вудфорд, Бет Гувер, Джейк Брилл, Келли Стирман, Минния Фенг, Нил Аджарапу, Ник Терли, Никундж Ханда, Оливье Годмент
Безопасность
Андреа Валлоне, Эндрю Дуберштейн, Энис Серт, Эрик Уоллес, Грейс Чжао, Ирина Кофман, Цзеки Ю, Хоакин Кинонеро Кандела, Маделайн Бойд, Мехмет Ятбаз, Майк Макклей, Мингсуан Ванг, Саачи Джайн, Сандхини Агарвал, Сэм Тойзер, Сантьяго Эрнандес, Стив Мостовой, Янг Ча, Тао Ли, Юньюн Ванг
Внешний Редтеминг
Лама Ахмад, Трой Петерсон
Руководители исследовательских программ
Карпус Чанг, Кристен Йинг
Лидерство
Эйдан Кларк, Дэйн Стаки, Джерри Творек, Якуб Пахоцки, Йоханнес Хайдеке, Кевин Вайл, Лиам Федус, Марк Чен, Сэм Альтман, Войцех Заремба
+ всем участникам проекта o1.