Notebookcheck Logo

Google анонсирует новые модели языка зрения PaliGemma 2

Google анонсирует новые модели языка зрения PaliGemma 2 (Источник изображения: Google)
Google анонсирует новые модели языка зрения PaliGemma 2 (Источник изображения: Google)
Модели Google PaliGemma 2 доступны в различных размерах и разрешениях, они могут понимать текст, изображения и видео. Google также заявляет о возможности создавать подробные, контекстуально релевантные подписи.

Компания Google анонсировала продолжение визуальной языковой модели PaliGemma, выпущенной в мае 2024 года. PaliGemma 2 доступна в нескольких размерах от 3 миллиардов параметров до 28 миллиардов и в различных разрешениях до 896px.

Компания утверждает, что модель демонстрирует "лучшие показатели в распознавании химических формул, распознавании музыкальных партитур, пространственном мышлении и создании рентгеновских снимков грудной клетки"

Она также обладает возможностями длинных субтитров: "подробные, контекстуально значимые подписи к изображениям, выходящие за рамки простой идентификации объектов и описывающие действия, эмоции и общий сюжет сцены"

Новые модели будут предлагаться в качестве "заменяемой замены" в различных размерах без "существенных изменений кода" Предварительно обученные модели доступны на сайтах Hugging Face и Kaggle и могут быть бесплатно загружены и опробованы всеми желающими. Она также поддерживает множество фреймворков, включая Hugging Face Transformers, Keras, PyTorch, JAX и Gemma.cpp.

По словам Google, "гибкость PaliGemma 2 позволяет легко настраивать его под конкретные задачи и наборы данных, что дает Вам возможность адаптировать его возможности к Вашим конкретным потребностям"

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
Rohith Bhaskar, 2024-12- 6 (Update: 2024-12- 6)