Спустя девять месяцев после выхода Gemini 1.5 компания Google объявила следующее крупное обновление Большой языковой модели (LLM), Gemini 2.0. Первую модель из этого семейства, Gemini 2.0 Flash, можно выбрать в качестве экспериментальной модели в Google AI Studio и Vertex AI.
Gemini 2.0 Flash обладает "повышенной производительностью при таком же быстром времени отклика" и превосходит 1.5 Flash "вдвое быстрее" В дополнение к мультимодальному вводу, такому как изображения, текст, видео и аудио, новый LLM поддерживает изображения, смешанные с текстом, и многоязычное аудио "текст в речь".
2.0 Flash также может нативный доступ к Google Search и поддерживает выполнение стороннего кода и предопределенных функций. Google также выпускает свой API Multimodal Live для разработчиков. Версия 2.0 Flash, оптимизированная для чата, будет доступна для настольных и мобильных браузеров. Google говорит, что скоро будет доступна версия для мобильного приложения Gemini.
Исследовательский прототип Google Project Astra также был обновлен с помощью Gemini 2.0 и теперь имеет более качественные диалоги, рассуждения и встроенную поддержку таких инструментов, как Google Search, Lens и Maps. Он имеет до 10 минут памяти в сессии.
Project Mariner, еще один исследовательский прототип, созданный на базе 2.0, может понимать сложные инструкции и получать доступ к информации с экрана браузера, включая "пиксели и веб-элементы, такие как текст, код, изображения и формы, а затем использовать эту информацию с помощью экспериментального расширения Chrome для выполнения заданий за Вас"
Третий прототип, экспериментальный ИИ-помощник по работе с кодом, Jules, может быть интегрирован непосредственно в рабочие процессы GitHub. Он обладает способностью рассуждать и логически мыслить, чтобы решать проблемы с кодом и разрабатывать план их решения под руководством разработчика.
Google говорит, что также создал агентов ИИ "с помощью Gemini 2.0, которые могут помочь Вам ориентироваться в виртуальном мире видеоигр. Он может рассуждать об игре, основываясь исключительно на действиях на экране, и предлагать предложения о том, что делать дальше, в режиме реального времени"