OpenAI запускает более умный ИИ o3-mini с бесплатным доступом к ChatGPT

OpenAI представляет более быстрый o3-mini AI LLM, превосходящий предыдущие модели o1-mini. (Источник изображения: AI-generated by Dall-E 3)

Новейшая крупноязычная модель o3-mini от OpenAI быстрее и умнее своей предшественницы o1-mini. Модель доступна для бесплатного использования всем владельцам аккаунтов ChatGPT.

David Chien (перевод Ninh Duy), Опубликовано 01 February 2025 🇺🇸 🇫🇷 ...

AI свежие релизы Софт

Компания OpenAI представила свою новейшую модель большого языка ИИ, o3-mini, которая быстрее и лучше своей предшественницы o1-mini в предоставлении точных ответов. Эта модель - первая небольшая языковая модель компании, доступная для бесплатного публичного использования всем владельцам аккаунтов ChatGPT уже сегодня.

Модель o3-mini можно запускать, используя три уровня усилий в рассуждениях - низкий, средний и высокий. Любой человек с бесплатным аккаунтом ChatGPT может бесплатно запустить o3-mini на среднем уровне рассуждений, а владельцы платных аккаунтов могут выбрать низкий или высокий уровень рассуждений. Платные пользователи ChatGPT Plus, Team и Pro получают доступ к o3-mini уже сегодня, а пользователям Enterprise придется подождать до февраля. Программисты, которым не терпится создать приложения, занимающие первые места в чартах, на основе API OpenAI o3-mini, могут прочитать, как это сделать, в этой книге на Amazon.

В целом, o3-mini, если установить средний или высокий режим рассуждений, превосходит o1-mini в стандартизированных эталонах ИИ, включая те, которые требуют от ИИ рассуждать над проблемами. В режиме высокой логики o3-mini также превосходит более крупную модель o1 в некоторых тестах, но не обладает способностью o1 видеть изображения и обрабатывать визуальные данные.

Примечательно, что o3-mini дает ответы на 24%, или примерно на 2,46 секунды, быстрее, чем o1-mini. Это помогает сократить время ожидания ответов от ChatGPT и уменьшить выбросы углекислого газа, производимые компьютерами, на которых работает o3-mini. Хотя o3-mini работает быстрее, хакеры будут разочарованы, поскольку его возможности использования для атак на кибербезопасность значительно уменьшились.

Источник(и)

Выпуск новостей OpenAI, Системная карта OpenAI o3-mini

▶ ▼ Пресс-релиз

31 января 2025 г

OpenAI o3-mini

Расширяем границы экономичных рассуждений.

Мы выпускаем OpenAI o3-mini, новейшую, самую экономичную модель в нашей серии рассуждений, доступную сегодня как в ChatGPT, так и в API. Эта мощная и быстрая модель, представленная в декабре 2024 года, расширяет границы возможностей небольших моделей, предоставляя исключительные возможности STEM - с особыми преимуществами в науке, математике и кодировании - при сохранении низкой стоимости и уменьшенной задержки OpenAI o1-mini.

OpenAI o3-mini - наша первая небольшая модель рассуждений, которая поддерживает очень востребованные разработчиками функции, включая вызов функций (открывается в новом окне), структурированные выходные данные (открывается в новом окне) и сообщения разработчика (открывается в новом окне), что делает ее готовой к производству с первых минут. Как и OpenAI o1-mini и OpenAI o1-preview, o3-mini будет поддерживать потоковую передачу(открывается в новом окне). Кроме того, разработчики могут выбрать один из трех вариантов усилий по обоснованию (открывается в новом окне) - низкий, средний и высокий - для оптимизации под свои конкретные случаи использования. Такая гибкость позволяет o3-mini "думать больше" при решении сложных задач или отдавать предпочтение скорости, когда задержка вызывает беспокойство. o3-mini не поддерживает возможности зрения, поэтому разработчикам следует продолжать использовать OpenAI o1 для задач визуального рассуждения. o3-mini распространяется в API завершения чата, API помощников и пакетном API с сегодняшнего дня для избранных разработчиков на уровнях использования API 3-5 (открывается в новом окне).

Пользователи ChatGPT Plus, Team и Pro могут получить доступ к OpenAI o3-mini с сегодняшнего дня, а доступ Enterprise появится в феврале. o3-mini заменит OpenAI o1-mini в подборщике моделей, предлагая более высокие ограничения скорости и более низкую задержку, что делает его привлекательным выбором для кодирования, STEM и решения логических задач. В рамках этого обновления мы втрое увеличиваем лимит скорости для пользователей Plus и Team - с 50 сообщений в день с o1-mini до 150 сообщений в день с o3-mini. Кроме того, o3-mini теперь работает с поиском, чтобы находить актуальные ответы со ссылками на соответствующие веб-источники. Это ранний прототип, поскольку мы работаем над интеграцией поиска в наши модели рассуждений.

Начиная с сегодняшнего дня, пользователи бесплатного плана также могут опробовать OpenAI o3-mini, выбрав "Reason" в композиторе сообщений или сгенерировав ответ. Это первый случай, когда модель рассуждений становится доступной для бесплатных пользователей в ChatGPT.

В то время как OpenAI o1 остается нашей более широкой моделью рассуждений для общих знаний, OpenAI o3-mini представляет собой специализированную альтернативу для технических областей, требующих точности и скорости. В ChatGPT o3-mini использует средние усилия для рассуждений, чтобы обеспечить сбалансированный компромисс между скоростью и точностью. У всех платных пользователей также будет возможность выбрать o3-mini-high в подборщике моделей для более высокоинтеллектуальной версии, которая требует немного больше времени для генерации ответов. Пользователи-профи получат неограниченный доступ как к o3-mini-, так и к o3-mini-high.

Быстрый, мощный и оптимизированный для STEM-рассуждений

Как и его предшественник OpenAI o1, OpenAI o3-mini был оптимизирован для STEM-рассуждений. o3-mini со средними усилиями в рассуждениях соответствует производительности o1 в математике, кодировании и науке, но при этом выдает более быстрые ответы. Оценка экспертов-тестеров показала, что o3-mini дает более точные и четкие ответы, обладая более сильными способностями к рассуждению, чем OpenAI o1-mini. Тестеры предпочитали ответы o3-mini ответам o1-mini в 56% случаев и наблюдали 39%-ное сокращение основных ошибок в сложных реальных вопросах. При средних усилиях на рассуждение o3-mini соответствует результатам o1 в некоторых наиболее сложных тестах на рассуждение и интеллект, включая AIME и GPQA.

Соревновательная математика (AIME 2024)

На гистограмме сравнивается точность ответов на конкурсные математические вопросы AIME 2024 для разных моделей ИИ. Более старые модели (серые) показывают более низкие результаты, в то время как новые (желтые) улучшают свои показатели. модель "o3-mini (high)" достигает наивысшей точности в 83,6%, демонстрируя значительный прогресс.

Математика: При небольших усилиях в рассуждениях OpenAI o3-mini достигает сопоставимой производительности с OpenAI o1-mini, а при средних усилиях o3-mini достигает сопоставимой производительности с o1. В то же время, при больших усилиях в рассуждениях o3-mini превосходит и OpenAI o1-mini, и OpenAI o1, где заштрихованные серым цветом области показывают производительность большинства голосов (консенсуса) с 64 образцами.

Научные вопросы уровня доктора философии (GPQA Diamond)

На гистограмме сравнивается точность ответов на научные вопросы уровня доктора философии (GPQA Diamond) различных моделей ИИ. Старые модели (серые) показывают более низкие результаты, в то время как новые (желтые) улучшают их. точность модели "o3-mini (high)" достигает 77,0%, демонстрируя заметный прогресс по сравнению с более ранними версиями.

Наука на уровне кандидата наук: В вопросах по биологии, химии и физике на уровне доктора наук при небольших усилиях OpenAI o3-mini достигает производительности выше, чем OpenAI o1-mini. При больших усилиях o3-mini достигает производительности, сравнимой с o1.

FrontierMath

Черная сетка с множеством строк и столбцов, разделенных тонкими белыми линиями, создающими структурированный и организованный макет.

Математика исследовательского уровня: OpenAI o3-mini с высоким уровнем аргументации показывает лучшие результаты, чем его предшественник на FrontierMath. На FrontierMath, когда ему предлагается использовать инструмент Python, o3-mini с высоким уровнем аргументации решает более 32% задач с первой попытки, включая более 28% сложных задач (T3). Эти цифры являются предварительными, а график выше показывает производительность без инструментов и калькулятора.

Код соревнования (Codeforces)

На гистограмме сравниваются рейтинги Эло в конкурсных заданиях по кодированию Codeforces для разных моделей ИИ. Старые модели (серые) показывают более низкие результаты, а новые (желтые) - более высокие. модель "o3-mini (high)" достигла 2073 баллов Эло, показав значительный прогресс по сравнению с предыдущими версиями.

Соревновательное кодирование: В соревновательном программировании Codeforces модель OpenAI o3-mini достигает все более высоких показателей Эло при увеличении усилий по рассуждению, превосходя o1-mini. При средних усилиях на рассуждения он сравнялся с o1.

Программная инженерия (SWE-bench Verified)

На гистограмме сравнивается точность выполнения задач по программной инженерии, проверенных в SWE-bench, разными моделями ИИ. Более старые модели (серые) показывают более низкие результаты, в то время как "o3-mini (high)" (желтая) достигает наивысшей точности в 48,9%, демонстрируя улучшение по сравнению с предыдущими версиями.

Программная инженерия: o3-mini - наша самая высокопроизводительная выпущенная модель в SWEbench-верификации. Дополнительные данные о результатах SWE-bench Verified с высокими усилиями по обоснованию, в том числе с открытым исходным кодом Agentless scaffold (39%) и внутренним инструментарием scaffold (61%), см. в нашей карточке системы.

Кодирование в LiveBench

В таблице приведено сравнение моделей ИИ в задачах кодирования, показаны метрики производительности и оценочные баллы. Она подчеркивает различия в точности и эффективности, причем некоторые модели превосходят другие в определенных бенчмарках.

Кодирование в LiveBench: OpenAI o3-mini превосходит o1-high даже при средних усилиях рассуждения, что подчеркивает ее эффективность в задачах кодирования. При больших усилиях в рассуждениях o3-mini еще больше увеличивает свое преимущество, достигая значительно более высоких показателей по ключевым метрикам.

Общие знания

В таблице "Оценка по категориям" сравниваются модели ИИ в различных категориях оценки, показывая показатели эффективности. Она подчеркивает различия в точности, эффективности и результативности, причем некоторые модели превосходят другие в определенных задачах.

Общие знания: o3-mini превосходит o1-mini в оценках знаний в общих областях знаний.

Оценка человеческих предпочтений

На диаграмме сравниваются показатели побед в задачах STEM и не-STEM для разных моделей ИИ. "o3_mini_v43_s960_j128" (желтый) превосходит "o1_mini_chatgpt" (красная базовая линия) в обеих категориях, при этом процент побед в STEM-задачах выше.

На диаграмме сравниваются показатели побед при ограничении времени и количество основных ошибок у разных моделей ИИ. модель "o3_mini_v43_s960_j128" (желтая) превосходит модель "o1_mini_chatgpt" (красная базовая линия) по количеству побед и значительно снижает количество серьезных ошибок.

Оценка человеческих предпочтений: Оценки внешних экспертов-тестеров также показывают, что OpenAI o3-mini дает более точные и четкие ответы и обладает более сильными способностями к рассуждению, чем OpenAI o1-mini, особенно в области STEM. Тестировщики предпочитали ответы o3-mini ответам o1-mini в 56% случаев и наблюдали 39%-ное сокращение основных ошибок в сложных реальных вопросах.

Скорость и производительность модели

Обладая интеллектом, сравнимым с OpenAI o1, OpenAI o3-mini обеспечивает более высокую производительность и эффективность. Помимо вышеупомянутых оценок STEM, o3-mini демонстрирует превосходные результаты в дополнительных оценках математики и фактологии при средних затратах на рассуждения. В ходе A/B-тестирования o3-mini давал ответы на 24% быстрее, чем o1-mini, со средним временем ответа 7,7 секунды против 10,16 секунды.

Сравнение времени ожидания между o1-mini и o3-mini (среднее)

На гистограмме сравнивается время ожидания между моделями "o1-mini" и "o3-mini (medium)". модель "o3-mini" (более светло-желтая) имеет меньшую задержку, что указывает на более быстрое время отклика, в то время как модель "o1-mini" (более темно-желтая) в среднем работает дольше.

Латентность: у o3-mini время до первого токена в среднем на 2500 мс быстрее, чем у o1-mini.

Безопасность

Одна из ключевых техник, которую мы использовали, чтобы научить OpenAI o3-mini отвечать безопасно, - это обдуманное согласование, когда мы обучали модель рассуждать о спецификациях безопасности, написанных человеком, прежде чем отвечать на подсказки пользователя. Как и OpenAI o1, мы обнаружили, что o3-mini значительно превосходит GPT-4o в сложных оценках безопасности и джейлбрейка. Перед развертыванием мы тщательно оценили риски безопасности o3-mini, используя тот же подход к готовности, внешнее повторное тестирование и оценку безопасности, что и в o1. Мы благодарим тестеров безопасности, которые подали заявку на тестирование o3-mini в раннем доступе. Подробные сведения о приведенных ниже оценках, а также исчерпывающее объяснение потенциальных рисков и эффективности наших мер по их снижению можно найти в системной карте o3-mini.

Оценки запрещенного контента

В этой таблице сравниваются модели ИИ по показателям безопасности, оценивая эффективность по различным категориям риска. Она подчеркивает различия в соблюдении требований безопасности, причем некоторые модели лучше справляются со снижением потенциальных рисков.

Оценки джейлбрейка

В таблице сравниваются модели ИИ по показателям безопасности в различных категориях риска, показывая различия в производительности. Она подчеркивает различия в снижении рисков, причем некоторые модели демонстрируют более строгое соответствие и более безопасные реакции.

Что дальше

Выпуск OpenAI o3-mini знаменует собой еще один шаг в миссии OpenAI по расширению границ экономически эффективного интеллекта. Оптимизируя рассуждения для областей STEM и сохраняя при этом низкую стоимость, мы делаем высококачественный ИИ еще более доступным. Эта модель продолжает наш послужной список снижения стоимости интеллекта - с момента запуска GPT-4 цена за токен снизилась на 95% - при сохранении первоклассных возможностей рассуждений. По мере распространения ИИ мы по-прежнему стремимся быть лидерами на передовой, создавая модели, которые обеспечивают баланс между интеллектом, эффективностью и безопасностью в масштабе.

Авторы

OpenAI

Обучение

Брайан Чжан, Эрик Митчелл, Хонгю Рен, Кевин Лу, Макс Шварцер, Мишель Покрасс, Шенджия Чжао, Тед Сандерс

Eval

Адам Калай, Алекс Тачард Пассос, Бен Соколовский, Элейн Я Ле, Эрик Риттер, Хао Шенг, Хансон Ванг, Илья Костриков, Джеймс Ли, Йоханнес Ферстад, Майкл Лампе, Прашант Радхакришнан, Шон Фицджеральд, Себастьен Бубек, Янн Дюбуа, Ю Бай

Пограничные события и готовность

Энди Эпплбаум, Элизабет Прол, Эван Мэйс, Джоэл Пэриш, Кевин Лю, Леон Максин, Лейтон Хо, Майлз Ванг, Мишель Ванг, Оливия Уоткинс, Патрик Чао, Сэмюэл Мизерендино, Теджал Патвардхан

Инженерия

Адам Уокер, Акшай Натан, Алисса Хуанг, Энди Ванг, Анкит Гохел, Бен Эггерс, Брайан Ю, Брайан Эшли, Чэнду Хуанг, Кристиан Хоаро, Давин Боган, Эмили Соколова, Эрик Хорачек, Эрик Цзян, Фелипе Петроски Such, Иона Коэн, Джош Гросс, Джастин Беккер, Кан Ву, Кевин Уиннери, Ларри Лв, Ли Байрон, Маноли Лиодакис, Макс Джонсон, Майк Трпчич, Мурат Есильдал, Расмус Райгард, Р.Дж. Марсан, Рохит Рамчандани, Рохан Кширсагар, Роман Хует, Сара Конлон, Шуайци (Тони) Ся, Сиюань Фу, Шринивас Нараянан, Сулман Чоудри, Томер Кафтан, Тревор Крич

Поиск

Адам Фрай, Адам Перельман, Брэндон Ванг, Кристина Шоу, Филип Пронин, Сундеп Тирумаларедди, Уилл Эллсворт, Зевей Чу

Продукт

Антония Вудфорд, Бет Гувер, Джейк Брилл, Келли Стирман, Минния Фенг, Нил Аджарапу, Ник Терли, Никундж Ханда, Оливье Годмент

Безопасность

Андреа Валлоне, Эндрю Дуберштейн, Энис Серт, Эрик Уоллес, Грейс Чжао, Ирина Кофман, Цзеки Ю, Хоакин Кинонеро Кандела, Маделайн Бойд, Мехмет Ятбаз, Майк Макклей, Мингсуан Ванг, Саачи Джайн, Сандхини Агарвал, Сэм Тойзер, Сантьяго Эрнандес, Стив Мостовой, Янг Ча, Тао Ли, Юньюн Ванг

Внешний Редтеминг

Лама Ахмад, Трой Петерсон

Руководители исследовательских программ

Карпус Чанг, Кристен Йинг

Лидерство

Эйдан Кларк, Дэйн Стаки, Джерри Творек, Якуб Пахоцки, Йоханнес Хайдеке, Кевин Вайл, Лиам Федус, Марк Чен, Сэм Альтман, Войцех Заремба

+ всем участникам проекта o1.

Ещё по теме

Сгенерированная искусственным интеллектом иллюстрация в стиле работ Studio Ghibli. На ней изображен молодой человек, безмятежно сидящий на автобусной остановке и слушающий музыку. (Источник изображения: Сгенерировано с помощью ChatGPT)

Вирусный генератор изображений "Гибли" от OpenAI теперь доступен каждому 01 April 2025

ChatGPT ложно обвинил отца в убийстве двух своих сыновей и попытке убить третьего сына. (Источник изображения: OpenAI)

ChatGPT дает странный, клеветнический ответ норвежцу, спрашивающему о себе 21 March 2025

Разработчики могут создавать мощные агенты ИИ с помощью новых инструментов и API от OpenAI. (Источник изображения: AI-generated, Dall-E 3)

OpenAI выпускает инструменты и API для разработчиков, чтобы они могли создавать агентов ИИ для предприятий 12 March 2025

Сэм Альтман подробно описывает дорожную карту OpenAI AI LLM. (Источник изображения: OpenAI)

Сэм Альтман опубликовал в твиттере дорожную карту OpenAI AI LLM, включая GPT-5 13 February 2025

Инициатива Калифорнийского государственного университета в области ИИ делает бесплатное обучение, тренинги и сертификаты ChatGPT Edu доступными для всех студентов, преподавателей и сотрудников. (Источник изображения: ИИ, созданный Dall-E 3)

Университет штата Калифорния предлагает 523 000 студентам, преподавателям и сотрудникам бесплатное обучение искусственному интеллекту и ChatGPT for Education 06 February 2025

В последнем обновлении OpenAI чатGPT приобрел способность к глубоким исследованиям, позволяющую создавать сложные, хорошо изученные ответы. (Источник изображения: ИИ, созданный Dall-E 3)

OpenAI ChatGPT обретает способность создавать сложные, хорошо документированные ответы, используя новые возможности глубокого исследования 06 February 2025

OpenAI устраняет необходимость входа в систему для использования ChatGPT. (Источник изображения: OpenAI)

OpenAI позволяет проводить поиск в ChatGPT без учетных записей 06 February 2025

Китайский ИИ с открытым исходным кодом DeepSeek - конкурент OpenAI (Источник изображения: Imagen3)

Китайский бесплатный ИИ с открытым исходным кодом DeepSeek - серьезная угроза для ChatGPT от OpenAI и других моделей ИИ 28 January 2025

OpenAI выпускает новый проект собственной версии регулирования ИИ (Источник изображения: Dall-E 3)

OpenAI представляет экономический план для обеспечения лидерства США в области ИИ 15 January 2025

OpenAI объявляет о переходе к структуре общественно-полезной корпорации (Источник изображения: OpenAI)

OpenAI переходит на коммерческую структуру на фоне ежегодных убытков в размере $5 млрд 29 December 2024

Эксперимент OpenAI по созданию базового дохода в размере $1,000 в месяц дает положительные результаты (Источник изображения: OpenAI)

Исследование универсального базового дохода, проведенное генеральным директором OpenAI за 60 миллионов долларов, показало положительные результаты 27 December 2024

Разработка OpenAI GPT-5 сталкивается с серьезными препятствиями на фоне стремительно растущих затрат и технических проблем (Источник изображения: Dall E-3)

Разработка GPT-5 столкнулась с серьезными проблемами, так как у OpenAI закончились тренировочные данные 27 December 2024

Microsoft хочет выйти за рамки моделей OpenAI в 365 Copilot (Источник изображения: Microsoft)

Microsoft хочет выйти за рамки моделей OpenAI в 365 Copilot 25 December 2024

OpenAI оштрафован на 15 миллионов евро итальянским Управлением по защите данных (Источник изображения: сгенерировано с помощью DALL-E 3)

OpenAI оштрафован на 15 миллионов евро итальянским Управлением по защите данных 23 December 2024

Canon обещает больше компактных кам...

Закрытое игровое тестирование Battl...

Автор исходного текста: David Chien - Tech Writer - 538 статей на Notebookcheck c 2023 года

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 525467 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!