xAI выпускает бета-версии ИИ LLM-систем Grok-2 и Grok-2 mini на ????, а корпоративный API появится позже в этом месяце
компания xAI выпустила бета-версии ИИ-моделей Grok-2 и Grok-2 mini на платформе X, а корпоративный API появится позднее в этом месяце. Возможности Grok-2 по созданию генеративных изображений также были расширены за счет интеграции ИИ FLUX.1 от Black Forest Labs. Вторая версия выходит спустя почти девять месяцев после первого релиза, в ноябре 2023 года, и сразу же доступна для подписчиков Premium и Premium+ X в качестве бета-теста. API-доступ к ИИ Grok-2 появится позже в этом месяце.
xAI - это компания-стартап, занимающаяся разработкой искусственного интеллекта, которую основал Элон Маск, владелец X (бывший Twitter). Компания выпустила свой первый LLM в 2023 году, который был интегрирован в сервис X для обеспечения возможностей ИИ. Grok-1 был спроектирован так, чтобы не быть таким же "разбуженным", цензурированным или скучным, как конкурирующие LLM, такие как GPT-4o от OpenAI. Подобные предубеждения влияют на ответы всех ИИ LLM, используемых сегодня в сервисах чатботов, что приводит к расовым предубеждениям или даже абсурдным ответам. Примечательно, что Grok-1 был выпущен в качестве бесплатной загрузки 296 ГБодин из немногих высокопроизводительных LLM, выпущенных в виде программного обеспечения с открытым исходным кодом.
За последний год произошел значительный прогресс в производительности LLM. Последние версии, такие как OpenAI GPT-4o и Anthropic Claude 3.5 Sonnet, обладают расширенными знаниями, а также более высокой производительностью. Читатели, которым нравится использовать ИИ, могут надеть Очки искусственного интеллекта(как эти на Amazon), планируя день Гуманоидные роботы с искусственным интеллектом возьмут на себя работу по дому.
Согласно внутренним тестам xAI, Grok-2 и Grok-2 mini beta занимают высокие позиции среди всех LLM по всему миру. xAI не предоставил сравнительных тестов последней версии Grok с последними конкурирующими LLM. Тем не менее, Grok-2 вошел в четверку самых мощных LLM в таблице лидеров чатботов LMSYS и в шестерку лучших по ряду стандартизированных эталонов ИИ.
В частности, августовская версия OpenAI GPT-4o превосходит раннюю версию Grok-2 в таблице лидеров, в то время как Anthropic Claude 3.5 Sonnet неизвестной даты отстает от Grok-2. В восьми стандартизированных тестах ИИ более старая майская версия GPT-4o выигрывает у Grok-2 четыре раза из восьми, а Claude 3.5 Sonnet выигрывает у Grok-2 шесть раз из восьми.
Источник(и)
13 августа 2024 г.
Grok-2 Beta Release
Grok-2 - это наша передовая языковая модель с самыми современными возможностями рассуждений. Этот выпуск включает в себя двух представителей семейства Grok: Grok-2 и Grok-2 mini. Обе модели теперь доступны пользователям Grok на платформе X.
Мы рады выпустить раннюю предварительную версию Grok-2, которая является значительным шагом вперед по сравнению с нашей предыдущей моделью Grok-1.5 и обладает передовыми возможностями в чате, кодировании и рассуждениях. В то же время мы представляем Grok-2 mini, маленького, но способного брата Grok-2. Ранняя версия Grok-2 была протестирована на доске лидеров LMSYS под именем "sus-column-r" На момент написания этой записи в блоге она превосходит по производительности Claude 3.5 Sonnet и GPT-4-Turbo.
Grok-2 и Grok-2 mini в настоящее время находятся в бета-версии на X, а в конце этого месяца мы также сделаем обе модели доступными через наш корпоративный API.
Языковая модель Grok-2 и возможности чата
Мы представили раннюю версию Grok-2 под именем "sus-column-r" на арене чатботов LMSYS, популярном соревновательном бенчмарке языковых моделей. Она превзошла и Claude, и GPT-4 в таблице лидеров LMSYS по общему баллу Эло.
Внутри компании мы используем аналогичный процесс для оценки наших моделей. Наши ИИ-тьюторы взаимодействуют с нашими моделями, выполняя различные задания, которые отражают реальное взаимодействие с Grok. Во время каждого взаимодействия ИИ-репетиторам предлагаются два ответа, сгенерированные Grok. Они выбирают лучший ответ, основываясь на определенных критериях, изложенных в наших рекомендациях. Мы сосредоточились на оценке возможностей модели в двух ключевых областях: следование инструкциям и предоставление точной, фактической информации. Grok-2 продемонстрировал значительные улучшения в рассуждениях на основе найденного контента и в возможностях использования инструментов, таких как правильное определение недостающей информации, рассуждения о последовательности событий и отбрасывание нерелевантных сообщений.
Контрольные показатели
Мы оценивали модели Grok-2 по ряду академических контрольных показателей, включающих рассуждения, понимание прочитанного, математику, науку и кодирование. И Grok-2, и Grok-2 mini продемонстрировали значительные улучшения по сравнению с нашей предыдущей моделью Grok-1.5. Они достигли уровня производительности, сравнимого с другими передовыми моделями, в таких областях, как научные знания выпускников (GPQA), общие знания (MMLU, MMLU-Pro) и конкурсные задачи по математике (MATH). Кроме того, Grok-2 отлично справляется с задачами на основе зрения, демонстрируя передовые результаты в визуальных математических рассуждениях (MathVista) и в ответах на вопросы на основе документов (DocVQA).
Эталон Grok-1.5 Grok-2 mini‡ Grok-2‡ GPT-4 Turbo* Claude 3 Opus† Gemini Pro 1.5 Llama 3 405B GPT-4o* Claude 3.5 Sonnet†
GPQA
35.9% 51.0% 56.0% 48.0% 50.4% 46.2% 51.1% 53.6% 59.6%
MMLU
81.3% 86.2% 87.5% 86.5% 85.7% 85.9% 88.6% 88.7% 88.3%
MMLU-Pro
51.0% 72.0% 75.5% 63.7% 68.5% 69.0% 73.3% 72.6% 76.1%
MATH§
50.6% 73.0% 76.1% 72.6% 60.1% 67.7% 73.8% 76.6% 71.1%
HumanEval¶
74.1% 85.7% 88.4% 87.1% 84.9% 71.9% 89.0% 90.2% 92.0%
MMMU
53.6% 63.2% 66.1% 63.1% 59.4% 62.2% 64.5% 69.1% 68.3%
MathVista
52.8% 68.1% 69.0% 58.1% 50.5% 63,9% - 63,8% 67,7%
DocVQA
85,6% 93,2% 93,6% 87,2% 89,3% 93,1% 92,2% 92,8% 95,2%
* Оценки GPT-4-Turbo и GPT-4o взяты из релиза мая 2024 года.
† Оценки Claude 3 Opus и Claude 3.5 Sonnet получены в июне 2024 года.
‡ Grok-2 MMLU, MMLU-Pro, MMMU и MathVista оценивались с использованием 0-shot CoT.
§ Для MATH мы представляем результаты maj@1.
¶ Для HumanEval мы приводим результаты бенчмарка pass@1.
Испытайте Grok с информацией в реальном времени на X
В течение последних нескольких месяцев мы постоянно совершенствовали Grok на платформе X. Сегодня мы представляем следующую эволюцию Grok, включающую переработанный интерфейс и новые функции.
Логотип Black Forest Labs.
Пользователи X Premium и Premium+ получат доступ к двум новым моделям: Grok-2 и Grok-2 mini. Grok-2 - это наш современный ИИ-помощник с расширенными возможностями понимания текста и зрения, интегрирующий информацию с платформы X в режиме реального времени и доступный через вкладку Grok в приложении X. Grok-2 mini - это наша маленькая, но способная модель, которая предлагает баланс между скоростью и качеством ответов. По сравнению со своим предшественником, Grok-2 более интуитивен, управляем и универсален для решения широкого круга задач, будь то поиск ответов, совместная работа над текстом или решение задач по кодированию. В сотрудничестве с Black Forest Labs мы экспериментируем с их моделью FLUX.1, чтобы расширить возможности Grok на X. Если Вы являетесь подписчиком Premium или Premium+, обязательно обновите приложение X; до последней версии, чтобы провести бета-тестирование Grok-2.
Создавайте с Grok с помощью корпоративного API
В конце этого месяца мы также выпустим Grok-2 и Grok-2 mini для разработчиков с помощью нашей новой корпоративной платформы API. Наш новый API построен на новом технологическом стеке, который позволяет развертывать мультирегиональные системы выводов для доступа с низкой задержкой по всему миру. Мы предлагаем расширенные функции безопасности, такие как обязательная многофакторная аутентификация (например, с помощью Yubikey, Apple TouchID или TOTP), богатая статистика трафика и расширенная аналитика биллинга (включая подробный экспорт данных). Кроме того, мы предлагаем API для управления, который позволит Вам интегрировать управление командами, пользователями и биллингом в Ваши существующие внутренние инструменты и сервисы. Присоединяйтесь к нашей рассылке, чтобы получить уведомление о нашем запуске в конце этого месяца.
Что дальше?
Grok-2 и Grok-2 mini уже внедряются на X. Мы очень рады их применению для ряда функций, основанных на искусственном интеллекте, таких как расширенные возможности поиска, более глубокое понимание постов на X и улучшенные функции ответов, все на базе Grok. Вскоре мы выпустим предварительную версию мультимодального понимания как основной части опыта Grok на X и API.
С момента анонса Grok-1 в ноябре 2023 года xAI развивался необычайно быстро, управляемый небольшой командой с высочайшей плотностью талантов. Мы представили Grok-2, что вывело нас на передовые позиции в области разработки ИИ. Мы сосредоточились на развитии основных возможностей рассуждений с помощью нашего нового вычислительного кластера. В ближайшие месяцы мы расскажем о многих других разработках. Мы ищем людей, которые могли бы присоединиться к нашей небольшой команде, нацеленной на создание наиболее значимых инноваций для будущего человечества. Подайте заявку на наши вакансии здесь.