Anthropic выпускает более умный ИИ Claude 3.7 Sonnet, который может играть в Pokémon Red как многообещающий профессионал

Anthropic представляет еще более совершенного чатбота Claude Sonnet с новыми возможностями кодирования и исследования. (Источник изображения: Anthropic)

Новейший чатбот компании Anthropic получил новые навыки кодирования и расширенного мышления, что еще больше расширяет его возможности программировать код, отвечать на сложные вопросы и играть в видеоигры.

David Chien (перевод Ninh Duy), Опубликовано 25 February 2025 🇺🇸 🇮🇹 ...

AI Софт свежие релизы игры и всё, что связано с ними

Компания Anthropic выпустила Claude 3.7 Sonnet, свой новейший чатбот с искусственным интеллектом, обладающий развитыми навыками кодирования и глубокого мышления, позволяющими решать сложные подсказки и задачи программирования, используя более широкое окно токенов 128K.

Подобно другим недавним выпускам больших языковых моделей ИИ от OpenAI и xAI, добавление расширенного мышления позволяет новейшему ИИ Anthropic потратить дополнительное время на решение сложных задач перед ответом.

Это позволило повысить производительность Claude с отстающих до одного из самых высокопроизводительных ИИ во многих сложных тестах, таких как тест уровня доктора наук GPQA. Тем не менее, обновление не означает, что версия 3.7 является самым лучшим ИИ в мире, поскольку в некоторых тестах он уступает первое место другим высокопроизводительным моделям.

Тем не менее, Клод может продвинуться гораздо дальше в таких играх, как Pokémon Red, чем это было возможно с более ранними моделями компании. Программисты также выигрывают от его улучшенной способности устранять проблемы с реальным программным обеспечением и создавать код. Ограниченная предварительная версия Claude Code открывает доступ к агенту, который сотрудничает с программистом для редактирования, тестирования и обновления сложных кодовых баз на GitHub, что значительно экономит время программистов.

Более умный ИИ потенциально означает более опасный. Claude 3.7 Sonnet давал ответы на подсказки, нарушающие политику Anthropic, в три раза чаще, чем Claude 3.5, во время внутренних оценок безопасности, хотя в целом этот показатель был небольшим (0,6% времени). ИИ также смог заразить тестовую сеть компьютеров и вывести данные с помощью методов кибератаки, включающих переписывание кода. В публичной версии Claude предусмотрены меры предосторожности для предотвращения такого использования.

Читатели могут пользоваться базовыми функциями Claude 3.7 Sonnet бесплатно уже сегодня, в то время как расширенные возможности, такие как расширенное мышление, требуют платной подписки.

В отличие от предыдущих моделей ИИ, Anthropic Claude 3.7 Sonnet без проблем сражается с лидерами тренажерных залов в игре Pokémon Red. (Источник изображения: Anthropic)

▶ load Youtube video

Источник(и)

Anthropic Claude, Антропный пресс-релиз 1, Антропик пресс-релиз 2, Anthropic на YouTube, Системная карта Anthropic Claude

▶ ▼ Пресс-релиз

Клод 3.7 Сонет и код Клода

24 февраля 2025 г

5 мин. чтения

Иллюстрация пошагового мышления Клода

Сегодня мы анонсируем Claude 3.7 Sonnet1, нашу самую интеллектуальную модель на сегодняшний день и первую гибридную модель мышления на рынке. Claude 3.7 Sonnet может выдавать практически мгновенные ответы или развёрнутые, пошаговые рассуждения, которые видны пользователю. Пользователи API также могут контролировать, как долго модель может думать.

Claude 3.7 Sonnet демонстрирует особенно сильные улучшения в кодировании и фронтальной веб-разработке. Вместе с моделью мы также представляем инструмент командной строки для агентного кодирования, Claude Code. Claude Code доступен в виде ограниченного исследовательского предварительного просмотра и позволяет разработчикам делегировать Клоду существенные инженерные задачи прямо из своего терминала.

Экран, демонстрирующий включение Claude Code

Claude 3.7 Sonnet теперь доступен на всех тарифных планах Claude, включая Free, Pro, Team и Enterprise, а также Anthropic API, Amazon Bedrock и Google Cloud's Vertex AI. Расширенный режим мышления доступен на всех поверхностях, кроме бесплатного уровня Claude.

В стандартном и расширенном режимах мышления Claude 3.7 Sonnet имеет ту же цену, что и его предшественники: 3 доллара за миллион входных жетонов и 15 долларов за миллион выходных жетонов, включая жетоны мышления.

Клод 3.7 Сонет: Пограничные рассуждения на практике

Мы разработали Claude 3.7 Sonnet с философией, отличной от других моделей рассуждений, представленных на рынке. Подобно тому, как люди используют один мозг как для быстрых реакций, так и для глубоких размышлений, мы считаем, что рассуждения должны быть интегрированной способностью пограничных моделей, а не отдельной моделью. Такой унифицированный подход также создает более беспроблемный опыт для пользователей.

Claude 3.7 Sonnet воплощает эту философию несколькими способами. Во-первых, Claude 3.7 Sonnet - это и обычная LLM, и модель рассуждений в одном лице: Вы можете выбрать, когда Вы хотите, чтобы модель отвечала нормально, а когда - чтобы она подольше подумала перед ответом. В стандартном режиме Claude 3.7 Sonnet представляет собой усовершенствованную версию Claude 3.5 Sonnet. В режиме расширенного мышления он самостоятельно размышляет перед ответом, что улучшает его производительность в математике, физике, выполнении инструкций, кодировании и многих других заданиях. Как правило, мы обнаруживаем, что подсказки для модели работают одинаково в обоих режимах.

Во-вторых, при использовании Claude 3.7 Sonnet через API пользователи также могут контролировать бюджет на размышления: Вы можете сказать Claude думать не более N лексем, при любом значении N, вплоть до предела вывода в 128K лексем. Это позволяет Вам компенсировать скорость (и стоимость) за качество ответа.

В-третьих, при разработке наших моделей рассуждений мы в меньшей степени оптимизировали их для решения конкурсных задач по математике и информатике, а вместо этого сместили акцент на реальные задачи, которые лучше отражают то, как бизнес на самом деле использует LLM.

Раннее тестирование продемонстрировало лидерство Клода в возможностях кодирования по всем параметрам: Компания Cursor отметила, что Клод снова стал лучшим в своем классе при решении реальных задач по кодированию, продемонстрировав значительные улучшения в самых разных областях - от работы со сложными кодовыми базами до использования продвинутых инструментов. Компания Cognition обнаружила, что он гораздо лучше других моделей планирует изменения кода и справляется с обновлениями всего стека. Компания Vercel отметила исключительную точность Claude при работе со сложными рабочими процессами агентов, а компания Replit успешно применила Claude для создания сложных веб-приложений и информационных панелей с нуля, где другие модели не справляются. По результатам оценки Canva, Claude постоянно создавал готовый к производству код с превосходным вкусом к дизайну и значительно меньшим количеством ошибок.

Гистограмма, показывающая, что Claude 3.7 Sonnet является передовым для SWE-bench Verified

Claude 3.7 Sonnet достигает передовой производительности в SWE-bench Verified, который оценивает способность моделей искусственного интеллекта решать реальные проблемы программного обеспечения. Более подробную информацию о строительных лесах см. в приложении.

Гистограмма, показывающая, что Claude 3.7 Sonnet является передовым в TAU-bench

Claude 3.7 Sonnet достигает наивысшей производительности в TAU-bench - системе, которая тестирует агентов ИИ на сложных реальных задачах с взаимодействием с пользователем и инструментами. Более подробную информацию о скаффолдинге см. в приложении.

Таблица бенчмарков, в которой сравниваются пограничные модели рассуждений

Клод 3.7 Sonnet превосходит все остальные модели в таких областях, как следование инструкциям, общие рассуждения, мультимодальные возможности и агентное кодирование, а расширенное мышление дает заметный прирост в математике и естественных науках. Помимо традиционных эталонов, он даже превзошел все предыдущие модели в наших тестах игры в покемонов.

Код Клода

С июня 2024 года Sonnet является предпочтительной моделью для разработчиков по всему миру. Сегодня мы расширяем возможности разработчиков, представляя Claude Code - наш первый агентный инструмент для кодирования - в виде ограниченной предварительной исследовательской версии.

Claude Code - это активный сотрудник, который может искать и читать код, редактировать файлы, писать и запускать тесты, комментировать и отправлять код на GitHub, а также использовать инструменты командной строки, держа Вас в курсе событий на каждом шагу.

Claude Code - это ранний продукт, но он уже стал незаменимым для нашей команды, особенно при разработке, управляемой тестами, отладке сложных проблем и масштабном рефакторинге. В ходе раннего тестирования Claude Code за один проход выполнил задачи, на которые обычно уходило 45 с лишним минут ручной работы, что сократило время разработки и накладные расходы.

В ближайшие недели мы планируем постоянно совершенствовать его на основе результатов использования: повышать надежность вызовов инструментов, добавлять поддержку долго выполняющихся команд, улучшать рендеринг в приложении и расширять понимание возможностей Claude.

Наша цель при создании Claude Code - лучше понять, как разработчики используют Claude для кодирования, чтобы в дальнейшем усовершенствовать модель. Присоединившись к этому предварительному просмотру, Вы получите доступ к тем же мощным инструментам, которые мы используем для создания и улучшения Claude, а Ваши отзывы будут напрямую влиять на его будущее.

Работа с Claude на Вашей кодовой базе

Мы также улучшили работу с кодом на Claude.ai. Интеграция с GitHub теперь доступна на всех тарифных планах Claude, что позволяет разработчикам подключать свои репозитории с кодом непосредственно к Claude.

Claude 3.7 Sonnet - это наша лучшая модель кодирования на сегодняшний день. Благодаря более глубокому пониманию Ваших личных, рабочих проектов и проектов с открытым исходным кодом, она становится более мощным партнером для исправления ошибок, разработки функций и создания документации по Вашим самым важным проектам на GitHub.

Создание ответственно

Мы провели обширное тестирование и оценку Claude 3.7 Sonnet, работая с внешними экспертами, чтобы убедиться, что он соответствует нашим стандартам безопасности, надежности и безопасности. Claude 3.7 Sonnet также более тонко различает вредные и доброкачественные запросы, сократив количество ненужных отказов на 45% по сравнению со своим предшественником.

Системная карточка этого выпуска охватывает новые результаты по безопасности в нескольких категориях, предоставляя подробное описание наших оценок политики ответственного масштабирования, которые другие лаборатории ИИ и исследователи могут применить в своей работе. В карточке также рассматриваются новые риски, возникающие при использовании компьютеров, в частности, атаки быстрого внедрения, и объясняется, как мы оцениваем эти уязвимости и обучаем Клода противостоять им и смягчать их последствия. Кроме того, в ней рассматриваются потенциальные преимущества моделей рассуждений для безопасности: возможность понять, как модели принимают решения, и являются ли рассуждения моделей действительно надежными и заслуживающими доверия. Прочитайте полную карточку системы, чтобы узнать больше.

Заглядывая в будущее

Claude 3.7 Sonnet и Claude Code знаменуют собой важный шаг на пути к системам ИИ, способным по-настоящему дополнить человеческие способности. Благодаря своей способности глубоко рассуждать, работать автономно и эффективно сотрудничать они приближают нас к будущему, в котором ИИ обогатит и расширит возможности человека.

Временная шкала этапов, показывающая, как Клод прошел путь от помощника до первопроходца

Нам не терпится познакомить Вас с этими новыми возможностями и увидеть, что Вы создадите с их помощью. Как всегда, мы рады Вашим отзывам, поскольку мы продолжаем совершенствовать и развивать наши модели.

Приложение

1 Урок по именованию.

Источники данных Eval

Grok

Gemini 2 Pro

o1 и o3-mini

Дополнительный o1

o1 TAU-bench

Дополнительный o3-mini

Deepseek R1

TAU-bench

Информация о строительных лесах

Результаты были достигнуты с помощью подсказки, добавленной в Правила авиационного агента, которая инструктировала Клода лучше использовать инструмент "планирования", где модель поощряется записывать свои мысли по мере решения задачи, в отличие от нашего обычного режима мышления, во время многооборотных траекторий, чтобы лучше использовать свои способности к рассуждениям. Чтобы учесть дополнительные шаги, которые Клод совершает, используя больше мышления, максимальное количество шагов (подсчитываемое по завершению модели) было увеличено с 30 до 100 (большинство траекторий завершилось менее чем за 30 шагов, и только одна траектория превысила 50 шагов).

Кроме того, результат TAU-bench для Claude 3.5 Sonnet (новый) отличается от того, что мы первоначально сообщили при выпуске, поскольку с тех пор были внесены небольшие улучшения в набор данных. Мы провели повторный запуск на обновленном наборе данных для более точного сравнения с Claude 3.7 Sonnet.

SWE-bench Verified

Информация о строительных лесах

Существует множество подходов к решению открытых агентных задач, таких как SWE-bench. Некоторые подходы перекладывают большую часть сложности принятия решений о том, какие файлы исследовать или редактировать и какие тесты запускать, на более традиционное программное обеспечение, оставляя основной языковой модели генерировать код в заранее определенных местах или выбирать из более ограниченного набора действий. Agentless (Xia et al., 2024) - это популярный фреймворк, использовавшийся при оценке R1 и других моделей Deepseek, который дополняет агента механизмами поиска файлов с подсказками и встраиванием, локализацией патчей и выборкой лучших из 40 отказов в регрессионных тестах. Другие платформы (например, Aide) дополняют модели дополнительными вычислениями в тестовое время в виде повторных попыток, best-of-N или Monte Carlo Tree Search (MCTS).

Для Claude 3.7 Sonnet и Claude 3.5 Sonnet (новинка) мы используем гораздо более простой подход с минимальным набором лесов, когда модель сама решает, какие команды выполнять и какие файлы редактировать в течение одной сессии. Наш основной результат pass@1 "без расширенного мышления" просто оснащает модель двумя инструментами, описанными здесь - инструментом bash и инструментом редактирования файлов, который работает через замену строк - а также "инструментом планирования", упомянутым выше в результатах TAU-bench. Из-за ограничений инфраструктуры только 489/500 задач действительно решаемы на нашей внутренней инфраструктуре (т.е. золотое решение проходит тесты). Для нашего ванильного результата pass@1 мы учитываем 11 неразрешимых задач как неудачи, чтобы сохранить паритет с официальной таблицей лидеров. Для прозрачности мы отдельно публикуем тестовые примеры, которые не сработали на нашей инфраструктуре.

Для нашего "высоковычислительного" числа мы используем дополнительную сложность и параллельные вычисления во время тестирования следующим образом:

Мы делаем выборку из нескольких параллельных попыток с помощью вышеупомянутого скаффолда

Мы отбрасываем исправления, которые нарушают видимые регрессионные тесты в репозитории, аналогично подходу к выборке отказов, принятому в Agentless; обратите внимание, что информация о скрытых тестах не используется.

Затем мы ранжируем оставшиеся попытки с помощью модели подсчета баллов, аналогичной нашим результатам по GPQA и AIME, описанным в нашем исследовательском посте, и выбираем лучшую из них для отправки.

В результате мы получаем оценку 70,3% на подмножестве из n=489 проверенных задач, которые работают в нашей инфраструктуре. Без этого эшафота Claude 3.7 Sonnet достигает 63,7% на SWE-bench Verified, используя это же подмножество. Исключены 11 тестовых примеров, которые были несовместимы с нашей внутренней инфраструктурой:

scikit-learn__scikit-learn-14710

django__django-10097

psf__requests-2317

sphinx-doc__sphinx-10435

sphinx-doc__sphinx-7985

sphinx-doc__sphinx-8475

matplotlib__matplotlib-20488

astropy__astropy-8707

astropy__astropy-8872

sphinx-doc__sphinx-8595

sphinx-doc__sphinx-9711

Ещё по теме

Релиз Tomo: Endless Blue в настоящее время запланирован на конец 2026 года. (Источник изображения: Steam)

Pokémon встречает Minecraft - новая MMORPG сочетает в себе коллекционирование существ и игровой процесс в песочнице 11 April 2025

Pokemon Legends: Логотип Z-A (Источник изображения: Nintendo of America)

Pokémon Legends: Z-A получает многообещающее обновление, а геймеры ждут точной даты выхода 18 March 2025

Логотип GamersNexus Consumer Advocacy (Источник изображения: GNCA)

GNCA - YouTube-канал GamersNexus Consumer Advocacy запущен и работает 25 February 2025

Watch Dogs: Legion можно будет играть в Xbox Game Pass с 25 февраля. (Источник изображения: Xbox Wire)

Xbox Game Pass: На этой неделе к подписке присоединится ААА-тайтл за $60 24 February 2025

Логотип Xbox Game Pass Ultimate (Источник изображения: Microsoft)

Цены на Xbox Game Pass растут для владельцев Microsoft Rewards 23 February 2025

G350 выпускается в трех цветовых вариантах и имеет знакомый дизайн. (Источник изображения: BatleXP)

G350: новый бюджетный игровой ретро-приставку, претендующий на Anbernic RG353V и Game Console R36S 22 February 2025

Магазин Epic Games Store теперь раздает две новые бесплатные игры с сюрпризом 21 February 2025

Следующая бесплатная игра в Epic Games Store - Mages of Mystralia (Источник изображения: Epic Games Store - отредактировано)

Epic Games Store: Последняя бесплатная игра февраля - приключенческий экшен с хорошим рейтингом 21 February 2025

Компания Epic Games придумала несколько новых методов борьбы с читерами в Fortnite (источник изображения: Epic Games)

Epic Games жестко пресекла действия мошенника в Fortnite, наложив на него пожизненный бан и принеся публичные извинения 20 February 2025

Xiaomi 15 Ultra с оптикой Leica Ult...

Новые наушники Realme Buds Air7 осн...

Автор исходного текста: David Chien - Tech Writer - 530 статей на Notebookcheck c 2023 года

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 522633 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!