Notebookcheck Logo

OpenAI выпускает инструменты и API для разработчиков, чтобы они могли создавать агентов ИИ для предприятий

Разработчики могут создавать мощные агенты ИИ с помощью новых инструментов и API от OpenAI. (Источник изображения: AI-generated, Dall-E 3)
Разработчики могут создавать мощные агенты ИИ с помощью новых инструментов и API от OpenAI. (Источник изображения: AI-generated, Dall-E 3)
Новый API Responses и инструменты для создания агентов OpenAI позволяют предприятиям быстро создавать специализированных агентов ИИ для решения сложных задач клиентов, таких как определение наиболее подходящих продуктов для удовлетворения индивидуальных потребностей.

Компания OpenAI представила новые программные инструменты для разработчиков бизнес-приложений, позволяющие создавать агентов искусственного интеллекта, адаптированных к специфическим потребностям клиентов. Инструменты сочетают в себе множество функций из всех предложений OpenAI в области ИИ, упрощая программирование агентов.

ИИ-чатботы, такие как ChatGPT от OpenAI, стали популярны, поскольку они могут отвечать на вопросы, которые задают им люди. Однако эти чат-боты ограничены в основном простыми вопросами, которые не требуют глубокого осмысления и исследования, например, "Какова высота Токийской башни?" Эти чат-боты, как правило, зависят от информации, на которой они обучались, и обладают ограниченной способностью синтезировать ответы.

Агентный ИИ может искать информацию в Интернете и использовать компьютер как человек, исследуя сложный запрос, например, "Составьте план путешествия в Токио, включающий популярные магазины и места, где продаются аниме, при бюджете в 2 000 долларов" Эти ИИ могут проводить глубокие исследования, а затем обдумывать решение сложных задач.

Для создания таких ИИ-агентов OpenAI создал API Research, чтобы программисты могли создавать агентов всего за несколько строк кода. Новый API основан на бета-версии Assistants API, а отзывы использовались для улучшения простоты использования и скорости работы. Исследовательский API - это надстройка над текущим Chat Completions API, который создает текстовые ответы из подсказок, и является новым рекомендуемым API для использования. API Ассистентов будет снят с производства в 2026 году.

OpenAI также выпустил SDK Agents, чтобы помочь разработчикам создавать многоагентные рабочие процессы, в которых один специализированный агент работает с другими для обработки запросов клиентов. Например, один агент может направлять запросы на возврат товара агенту по возврату, а запросы на идеи для покупок - агенту по покупкам.

ИИ-агенты OpenAI в большинстве случаев могут успешно находить информацию, необходимую для ответа на фактические вопросы. (Источник изображения: OpenAI)
ИИ-агенты OpenAI в большинстве случаев могут успешно находить информацию, необходимую для ответа на фактические вопросы. (Источник изображения: OpenAI)
Хотя ИИ OpenAI может работать в Интернете и пользоваться компьютером, его способности не дотягивают до возможностей настоящего человеческого помощника при выполнении заданий. (Источник изображения: OpenAI)
Хотя ИИ OpenAI может работать в Интернете и пользоваться компьютером, его способности не дотягивают до возможностей настоящего человеческого помощника при выполнении заданий. (Источник изображения: OpenAI)

11 марта 2025 г

Продукт

Новые инструменты для создания агентов

Мы развиваем нашу платформу, чтобы помочь разработчикам и предприятиям создавать полезные и надежные агенты.

Попробуйте в Playground (открывается в новом окне)

Гладкий, минимальный интерфейс, отображающий список задач для агента ИИ, включая "triage_agent", "guardrail" и "update_salesforce_record", на текучем голубом абстрактном фоне.

Сегодня мы выпускаем первый набор строительных блоков, которые помогут разработчикам и предприятиям создавать полезных и надежных агентов. Мы рассматриваем агентов как системы, которые самостоятельно выполняют задачи от имени пользователей. За последний год мы представили новые возможности модели, такие как расширенные рассуждения, мультимодальное взаимодействие и новые методы обеспечения безопасности, которые заложили основу для того, чтобы наши модели могли справиться со сложными, многоэтапными задачами, необходимыми для создания агентов. Однако, по словам клиентов, превращение этих возможностей в готовых к производству агентов может оказаться непростой задачей, часто требующей обширных итераций и пользовательской логики оркестровки без достаточной видимости и встроенной поддержки.

Чтобы решить эти проблемы, мы запускаем новый набор API и инструментов, специально предназначенных для упрощения разработки агентских приложений:

Новый API Responses (открывается в новом окне), сочетающий в себе простоту API Chat Completions и возможности API Assistants по использованию инструментов для создания агентов

Встроенные инструменты, включая поиск в Интернете(открывается в новом окне), поиск файлов(открывается в новом окне) и использование компьютера(открывается в новом окне)

Новый SDK Agents (открывается в новом окне) для организации рабочих процессов с одним и несколькими агентами

Интегрированные инструменты наблюдаемости (открывается в новом окне) для отслеживания и проверки выполнения рабочих процессов агентов

Эти новые инструменты упрощают основную логику агентов, оркестровку и взаимодействие, значительно облегчая разработчикам начало создания агентов. В ближайшие недели и месяцы мы планируем выпустить дополнительные инструменты и возможности, чтобы еще больше упростить и ускорить создание агентских приложений на нашей платформе.

Представляем API Responses

Responses API - это наш новый API-примитив для использования встроенных инструментов OpenAI для создания агентов. Он сочетает в себе простоту Завершения чата и возможности использования инструментов API Ассистентов. По мере развития возможностей модели мы считаем, что Responses API обеспечит более гибкую основу для разработчиков, создающих агентские приложения. С помощью одного вызова Responses API разработчики смогут решать все более сложные задачи, используя множество инструментов и поворотов модели.

Для начала Responses API будет поддерживать новые встроенные инструменты, такие как поиск в Интернете, поиск файлов и использование компьютера. Эти инструменты предназначены для совместной работы, чтобы связать модели с реальным миром, делая их более полезными при выполнении задач. Кроме того, API Responses API принесет с собой несколько улучшений в плане удобства использования, включая унифицированный дизайн на основе элементов, более простой полиморфизм, интуитивно понятные потоковые события и такие SDK-помощники, как response.output_text, позволяющие легко получить доступ к текстовому выводу модели.

API Responses предназначен для разработчиков, которые хотят легко объединить модели OpenAI и встроенные инструменты в своих приложениях, без сложностей интеграции нескольких API или внешних поставщиков. API также упрощает хранение данных в OpenAI, чтобы разработчики могли оценить работу агента с помощью таких функций, как трассировка и оценка. Напоминаем, что по умолчанию мы не обучаем наши модели на бизнес-данных, даже если эти данные хранятся в OpenAI. API доступен всем разработчикам с сегодняшнего дня и не оплачивается отдельно - токены и инструменты оплачиваются по стандартным тарифам, указанным на нашей странице цен (открывается в новом окне). Ознакомьтесь с руководством по быстрому запуску API Responses (открывается в новом окне), чтобы узнать больше.

Что это значит для существующих API

API Chat Completions (открывается в новом окне): Chat Completions остается нашим самым распространенным API, и мы полностью готовы поддерживать его новыми моделями и возможностями. Разработчики, которым не нужны встроенные инструменты, могут смело продолжать использовать Chat Completions. Мы будем продолжать выпускать новые модели Chat Completions, когда их возможности не будут зависеть от встроенных инструментов или многочисленных вызовов модели. Однако Responses API - это супернабор (открывается в новом окне) Chat Completions с такой же отличной производительностью, поэтому для новых интеграций мы рекомендуем начинать с Responses API.

Assistants API (открывается в новом окне): Основываясь на отзывах разработчиков из бета-версии Assistants API, мы внесли ключевые улучшения в Responses API, сделав его более гибким, быстрым и простым в использовании. Мы работаем над тем, чтобы добиться полного паритета возможностей между Assistants и Responses API, включая поддержку объектов типа Assistant и Thread, а также инструмента Code Interpreter. Как только это будет завершено, мы планируем официально объявить об отказе от использования API Assistants с целевой датой выхода в середине 2026 года. После выхода из эксплуатации мы предоставим четкое руководство по переходу от API Assistants к API Responses, которое позволит разработчикам сохранить все свои данные и перенести приложения. Пока мы официально не объявим об отказе от использования, мы будем продолжать поставлять новые модели в Assistants API. Responses API представляет собой будущее направление для создания агентов на OpenAI.

Представляем встроенные инструменты в Responses API

Веб-поиск

Теперь разработчики могут получать быстрые и актуальные ответы с четкими и релевантными ссылками из Интернета. В Responses API веб-поиск доступен как инструмент при использовании gpt-4o и gpt-4o-mini, а также может быть использован в паре с другими инструментами или вызовами функций.

JavaScript

1

const response = await openai.responses.create({

2

model: "gpt-4o",

3

инструменты: [ { { type: "web_search_preview" } ],

4

ввод: "Какая позитивная новость произошла сегодня?",

5

});

6


7

console.log(response.output_text);

Во время раннего тестирования мы увидели, что разработчики используют веб-поиск в самых разных сферах, включая помощников по покупкам, агентов по исследованиям и бронированию путешествий - любые приложения, которым требуется своевременная информация из Интернета.

Например, компания Hebbia (открывается в новом окне) использует инструмент веб-поиска, чтобы помочь управляющим активами, частным инвестиционным и кредитным компаниям, а также юридическим фирмам быстро извлекать действенные идеи из обширных государственных и частных наборов данных. Интегрируя возможности поиска в реальном времени в свои исследовательские процессы, Hebbia предоставляет более богатую, контекстно-специфическую информацию о рынке и постоянно повышает точность и релевантность своих анализов, превосходя текущие эталоны.

Веб-поиск в API работает на основе той же модели, которая используется для поиска в ChatGPT. В SimpleQA, эталоне, который оценивает точность LLM в ответах на короткие фактические вопросы, GPT-4o search preview и GPT-4o mini search preview набрали 90% и 88% соответственно.

Точность SimpleQA (выше - лучше)

63%

38%

47%

15%

90%

88%

0

20

40

60

80

100

Точность

GPT-4.5

GPT-4o

OpenAI o1

OpenAI o3-mini

GPT-4o

предварительный просмотр поиска

GPT-4o mini

предварительный просмотр поиска

Ответы, созданные с помощью веб-поиска в API, содержат ссылки на источники, такие как новостные статьи и записи в блогах, что дает пользователям возможность узнать больше. Благодаря этим четким, встроенным ссылкам пользователи могут по-новому воспринимать информацию, а владельцы контента получают новые возможности для охвата более широкой аудитории.

Любой сайт или издатель может выбрать отображение (открывается в новом окне) в веб-поиске в API.

Инструмент веб-поиска доступен всем разработчикам в предварительном просмотре в API Responses. Мы также предоставляем разработчикам прямой доступ к нашим точно настроенным моделям поиска в API Завершения чата через gpt-4o-search-preview и gpt-4o-mini-search-preview. Цена (открывается в новом окне) начинается соответственно с $30 и $25 за тысячу запросов для GPT-4o search и 4o-mini search соответственно. Проверьте веб-поиск в Playground (открывается в новом окне) и узнайте больше в наших документах (открывается в новом окне).

Поиск по файлам

Разработчики теперь могут легко извлекать нужную информацию из больших объемов документов с помощью улучшенного инструмента поиска по файлам. Благодаря поддержке множества типов файлов, оптимизации запросов, фильтрации метаданных и пользовательскому ранжированию, он обеспечивает быстрые и точные результаты поиска. И опять же, благодаря API Responses, для интеграции потребуется всего несколько строк кода.

JavaScript

1 const productDocs = await openai.vectorStores.create({

2 name: "Документация по продукту",

3 file_ids: [file1.id, file2.id, file3.id],

4 });

5

6 const response = await openai.responses.create({

7 model: "gpt-4o-mini",

8 инструменты: [{

9 тип: "file_search",

10 vector_store_ids: [productDocs.id],

11 }],

12 input: "Что такое глубокие исследования OpenAI?",

13 });

14

15 console.log(response.output_text);

Инструмент поиска файлов может использоваться в различных реальных ситуациях, включая предоставление агенту службы поддержки легкого доступа к часто задаваемым вопросам, помощь помощнику юриста быстро найти ссылки на прошлые дела для квалифицированного специалиста, а также помощь агенту по кодированию в запросе технической документации. Например, компания Navan(открывается в новом окне) использует поиск по файлам в своем туристическом агенте на базе искусственного интеллекта, чтобы быстро предоставлять пользователям точные ответы из статей базы знаний (например, о правилах путешествий компании). Благодаря встроенной оптимизации запросов и повторному ранжированию, они могут настроить мощный конвейер RAG (retrieval-augmented generation) без дополнительных настроек и конфигураций. Благодаря выделенным хранилищам векторов для каждой группы пользователей, Navan может адаптировать ответы к индивидуальным настройкам учетной записи и ролям пользователей, экономя время клиентов и их сотрудников и помогая обеспечить точную, персонализированную поддержку.


Этот инструмент доступен в API Responses для всех разработчиков. Стоимость использования (открывается в новом окне) составляет $2,50 за тысячу запросов, а хранения файлов - $0,10/ГБ/день, причем первый ГБ предоставляется бесплатно. Инструмент по-прежнему доступен в API Assistants. Наконец, мы также добавили новую конечную точку поиска в объекты Vector Store API, чтобы напрямую запрашивать Ваши данные для использования в других приложениях и API. Узнайте больше в нашей документации (открывается в новом окне) и начните тестировать в Playground (открывается в новом окне).


Использование компьютера

Для создания агентов, способных выполнять задачи на компьютере, разработчики теперь могут использовать инструмент использования компьютера в API Responses, основанный на той же модели Computer-Using Agent (CUA), что и Operator. Эта предварительная исследовательская модель установила новый современный рекорд, достигнув 38,1% успеха в OSWorld (открывается в новом окне) для выполнения задач, связанных с использованием компьютера, 58,1% в WebArena (открывается в новом окне) и 87% в WebVoyager (открывается в новом окне) для веб-взаимодействия.


Встроенный инструмент использования компьютера фиксирует действия мыши и клавиатуры, генерируемые моделью, что позволяет разработчикам автоматизировать задачи использования компьютера путем прямого преобразования этих действий в исполняемые команды в своих средах.

JavaScript

1 const response = await openai.responses.create({

2 model: "computer-use-preview",

3 tools: [{

4 тип: "computer_use_preview",

5 display_width: 1024,

6 display_height: 768,

7 окружение: "browser",

8 }],

9 усечение: "auto",

10 ввод: "Я ищу новую камеру. Помогите мне найти лучший",

11 });

12

13 console.log(response.output);

Разработчики могут использовать инструмент для автоматизации рабочих процессов в браузере, таких как проверка качества веб-приложений или выполнение задач по вводу данных в унаследованных системах. Например, Unify(открывается в новом окне) - это система действий для роста доходов, которая использует агентов для определения намерений, изучения счетов и взаимодействия с покупателями. Используя инструмент компьютерного использования OpenAI, агенты Unify могут получить доступ к информации, которая раньше была недоступна через API - например, компания по управлению недвижимостью может проверить через онлайн-карты, расширило ли предприятие свою зону недвижимости. Эти данные служат индивидуальным сигналом для запуска персонализированной работы с покупателями, позволяя командам, работающим на рынке, привлекать покупателей с точностью и масштабом.

В качестве другого примера можно привести компанию Luminai (открывается в новом окне), которая интегрировала инструмент использования компьютера для автоматизации сложных рабочих процессов для крупных предприятий с унаследованными системами, не имеющими доступных API и стандартизированных данных. В ходе недавнего эксперимента с крупной общественной организацией Luminai автоматизировала процесс обработки заявок и регистрации пользователей всего за несколько дней - то, чего традиционная роботизированная автоматизация процессов (RPA) не смогла достичь после нескольких месяцев усилий.

Прежде чем запустить CUA в Operator в прошлом году, мы провели обширное тестирование безопасности и "красную команду", рассмотрев три ключевые области риска: неправильное использование, ошибки модели и пограничные риски. Чтобы устранить риски, связанные с расширением возможностей Operator на локальные операционные системы с помощью CUA в API, мы провели дополнительную оценку безопасности и "красную команду". Мы также добавили меры по снижению рисков для разработчиков, включая проверки безопасности для защиты от инъекций, подтверждающие подсказки для выполнения важных задач, инструменты, помогающие разработчикам изолировать свои среды, и улучшенное обнаружение потенциальных нарушений политики. Хотя эти меры помогают снизить риск, модель все равно подвержена непреднамеренным ошибкам, особенно в небраузерных средах. Например, производительность CUA в OSWorld, эталоне, разработанном для измерения производительности агентов ИИ при выполнении реальных задач, в настоящее время составляет 38,1%, что указывает на то, что модель еще не очень надежна для автоматизации задач в операционных системах. В таких сценариях рекомендуется человеческий надзор. Более подробную информацию о нашей работе по обеспечению безопасности API можно найти в нашей обновленной карточке системы.

Тип бенчмарка Бенчмарк Использование компьютера (универсальный интерфейс) Агенты веб-браузинга Человек

OpenAI CUA Предыдущая SOTA Предыдущая SOTA

Использование компьютера OSWorld 38,1% 22,0% - 72,4%

Использование браузеров WebArena 58,1% 36,2% 57,1% 78,2%

WebVoyager 87,0% 56,0% 87,0% -..

Подробности оценки описаны здесь

Начиная с сегодняшнего дня, инструмент использования компьютеров доступен в качестве предварительной исследовательской версии в Responses API для избранных разработчиков на уровнях использования 3-5 (открывается в новом окне). Стоимость использования составляет $3/1M входных токенов и $12/1M выходных токенов (открывается в новом окне). Узнайте больше в нашей документации (открывается в новом окне) и посмотрите пример приложения (открывается в новом окне), иллюстрирующий, как создавать с помощью этого инструмента.

SDK для агентов

Помимо создания основной логики агентов и предоставления им доступа к инструментам, чтобы они были полезны, разработчикам также необходимо оркестровать агентские рабочие процессы. Наш новый SDK Agents с открытым исходным кодом упрощает организацию мультиагентных рабочих процессов и предлагает значительные улучшения по сравнению с Swarm (открывается в новом окне), экспериментальным SDK, который мы выпустили в прошлом году и который был широко принят сообществом разработчиков и успешно внедрен у многих клиентов.

Улучшения включают в себя:

Агенты: Легко настраиваемые LLM с четкими инструкциями и встроенными инструментами.

Передачи: Интеллектуальная передача управления между агентами.

Защитные ограждения: Настраиваемые проверки безопасности для входной и выходной валидации.

Трассировка и наблюдаемость: Визуализация трасс выполнения агентов для отладки и оптимизации производительности.

Python

1 from agents import Agent, Runner, WebSearchTool, function_tool, guardrail

2

3 @function_tool

4 def submit_refund_request(item_id: str, reason: str):

5 # Ваша логика возврата средств находится здесь

6 return "success"

7

8 support_agent = Agent(

9 name="Поддержка и возврат",

10 instructions="Вы - агент поддержки, который может подавать заявки на возврат [...]",

11 tools=[submit_refund_request],

12 )

13

14 shopping_agent = Agent(

15 name="Помощник по покупкам",

16 instructions="Вы - помощник в покупках, который может искать информацию в Интернете [...]",

17 инструменты=[WebSearchTool()],

18 )

19

20 triage_agent = Agent(

21 name="Triage Agent",

22 инструкции="Направьте пользователя к нужному агенту",

23 handoffs=[shopping_agent, support_agent],

24 )

25

26 output = Runner.run_sync(

27 start_agent=triage_agent,

28 input="Какие туфли лучше всего подойдут к моему наряду?",

29 )

SDK Agents подходит для различных реальных приложений, включая автоматизацию поддержки клиентов, многоэтапные исследования, генерацию контента, проверку кода и поиск продавцов. Например, компания Coinbase (открывается в новом окне) использовала Agents SDK для быстрого создания прототипа и развертывания AgentKit - набора инструментов, позволяющего агентам искусственного интеллекта беспрепятственно взаимодействовать с криптовалютными кошельками и различными действиями на цепи. Всего за несколько часов Coinbase интегрировала пользовательские действия из своего SDK для платформы разработчиков в полностью функционального агента. Оптимизированная архитектура AgentKit упростила процесс добавления новых действий агента, позволив разработчикам больше сосредоточиться на значимых интеграциях и меньше - на навигации по сложным настройкам агента.

Всего за пару дней компания Box(открывается в новом окне) смогла быстро создать агентов, использующих веб-поиск и Agents SDK, чтобы позволить предприятиям искать, запрашивать и извлекать информацию из неструктурированных данных, хранящихся в Box и открытых интернет-источниках. Такой подход позволяет клиентам не только получать доступ к самой свежей информации, но и осуществлять поиск по своим внутренним, собственным данным безопасным и надежным способом, соблюдая свои внутренние разрешения и политики безопасности. Например, финансовая компания может создать собственный агент, который будет обращаться к агенту Box AI для интеграции внутреннего анализа рынка, хранящегося в Box, с новостями и экономическими данными из Интернета в режиме реального времени, предоставляя аналитикам комплексную картину для принятия инвестиционных решений.

SDK Agents работает с API Responses и API Chat Completions. SDK также может работать с моделями других поставщиков, если они предоставляют конечную точку API в стиле Chat Completions. Разработчики могут сразу же интегрировать его в свои кодовые базы на Python, а поддержка Node.js появится в ближайшее время. Узнайте больше в нашей документации (открывается в новом окне).

При разработке SDK Agents наша команда вдохновлялась прекрасной работой других членов сообщества, включая Pydantic (открывается в новом окне), Griffe (открывается в новом окне) и MkDocs (открывается в новом окне). Мы намерены продолжать создавать SDK для Агентов в виде открытого исходного кода, чтобы другие члены сообщества могли развивать наш подход.

Что дальше: создание платформы для агентов

Мы считаем, что агенты скоро станут неотъемлемой частью рабочей силы, значительно повышая производительность труда во всех отраслях. Поскольку компании все больше стремятся использовать ИИ для решения сложных задач, мы стремимся предоставить строительные блоки, которые позволят разработчикам и предприятиям эффективно создавать автономные системы, приносящие реальную пользу.

В сегодняшнем выпуске мы представляем первые строительные блоки, которые позволят разработчикам и предприятиям легче создавать, развертывать и масштабировать надежные, высокопроизводительные агенты ИИ. По мере того, как возможности моделей становятся все более агентными, мы будем продолжать инвестировать в более глубокую интеграцию наших API и новые инструменты, помогающие развертывать, оценивать и оптимизировать агентов в производстве. Наша цель - предоставить разработчикам бесшовную платформу для создания агентов, которые могут помочь в решении различных задач в любой отрасли. Мы с нетерпением ждем, что же нового создадут разработчики. Чтобы начать, изучите нашу документацию (открывается в новом окне) и следите за обновлениями в ближайшее время.

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 03 месяц > OpenAI выпускает инструменты и API для разработчиков, чтобы они могли создавать агентов ИИ для предприятий
David Chien, 2025-03-12 (Update: 2025-03-12)