Google анонсирует модели Gemini 2.0 для "эры агентов"
Спустя девять месяцев после выхода Gemini 1.5 компания Google объявила следующее крупное обновление Большой языковой модели (LLM), Gemini 2.0. Первую модель из этого семейства, Gemini 2.0 Flash, можно выбрать в качестве экспериментальной модели в Google AI Studio и Vertex AI.
Gemini 2.0 Flash обладает "повышенной производительностью при таком же быстром времени отклика" и превосходит 1.5 Flash "вдвое быстрее" В дополнение к мультимодальному вводу, такому как изображения, текст, видео и аудио, новый LLM поддерживает изображения, смешанные с текстом, и многоязычное аудио "текст в речь".
2.0 Flash также может нативный доступ к Google Search и поддерживает выполнение стороннего кода и предопределенных функций. Google также выпускает свой API Multimodal Live для разработчиков. Версия 2.0 Flash, оптимизированная для чата, будет доступна для настольных и мобильных браузеров. Google говорит, что скоро будет доступна версия для мобильного приложения Gemini.
Исследовательский прототип Google Project Astra также был обновлен с помощью Gemini 2.0 и теперь имеет более качественные диалоги, рассуждения и встроенную поддержку таких инструментов, как Google Search, Lens и Maps. Он имеет до 10 минут памяти в сессии.
Project Mariner, еще один исследовательский прототип, созданный на базе 2.0, может понимать сложные инструкции и получать доступ к информации с экрана браузера, включая "пиксели и веб-элементы, такие как текст, код, изображения и формы, а затем использовать эту информацию с помощью экспериментального расширения Chrome для выполнения заданий за Вас"
Третий прототип, экспериментальный ИИ-помощник по работе с кодом, Jules, может быть интегрирован непосредственно в рабочие процессы GitHub. Он обладает способностью рассуждать и логически мыслить, чтобы решать проблемы с кодом и разрабатывать план их решения под руководством разработчика.
Google говорит, что также создал агентов ИИ "с помощью Gemini 2.0, которые могут помочь Вам ориентироваться в виртуальном мире видеоигр. Он может рассуждать об игре, основываясь исключительно на действиях на экране, и предлагать предложения о том, что делать дальше, в режиме реального времени"