Google анонсирует новые модели языка зрения PaliGemma 2
Компания Google анонсировала продолжение визуальной языковой модели PaliGemma, выпущенной в мае 2024 года. PaliGemma 2 доступна в нескольких размерах от 3 миллиардов параметров до 28 миллиардов и в различных разрешениях до 896px.
Компания утверждает, что модель демонстрирует "лучшие показатели в распознавании химических формул, распознавании музыкальных партитур, пространственном мышлении и создании рентгеновских снимков грудной клетки"
Она также обладает возможностями длинных субтитров: "подробные, контекстуально значимые подписи к изображениям, выходящие за рамки простой идентификации объектов и описывающие действия, эмоции и общий сюжет сцены"
Новые модели будут предлагаться в качестве "заменяемой замены" в различных размерах без "существенных изменений кода" Предварительно обученные модели доступны на сайтах Hugging Face и Kaggle и могут быть бесплатно загружены и опробованы всеми желающими. Она также поддерживает множество фреймворков, включая Hugging Face Transformers, Keras, PyTorch, JAX и Gemma.cpp.
По словам Google, "гибкость PaliGemma 2 позволяет легко настраивать его под конкретные задачи и наборы данных, что дает Вам возможность адаптировать его возможности к Вашим конкретным потребностям"