Notebookcheck Logo

Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом

Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом (Источник изображения: Hugging Face)
Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом (Источник изображения: Hugging Face)
Компания Hugging Face представила легкую модель языка зрения с открытым исходным кодом, SmolVLM, которая, по словам компании, создана для эффективности и скорости.

Компания Hugging Face, хранилище машинного обучения, наборов данных и инструментов искусственного интеллекта, выпустила на сайте https://huggingface.co/blog/smolvlm модель языка зрения с открытым исходным кодом, которая отличается малым весом и создана для эффективности и скорости. Vision Language Models (VLM) может понимать как текстовый, так и визуальный ввод.

Модель доступна для коммерческого использования с открытыми обучающими конвейерами, что означает, что наборы данных, код и методы, использованные для обучения модели, находятся в открытом доступе. У Hugging Face есть три варианта модели - SmolVM-Base, SmolVM-Synthetic и SmolVM Instruct.

SmolVM-Base предназначена для последующей тонкой настройки, то есть ее можно перенимать и обучать для решения конкретных задач. Synthetic обучается на искусственных данных и не использует наборы данных реального мира, а Instruct можно "использовать "из коробки" для интерактивных приложений для конечных пользователей"

Hugging Face утверждает, что SmolVM требуется всего 5,7 Гб оперативной памяти GPU, что делает его меньше и эффективнее таких конкурентов, как PaliGemma 3B, InternVL2 2B и Qwen2-VL-2B. Это позволяет использовать его на ноутбуках с ограниченным объемом VRAM.

Кроме того, по сравнению с другими моделями, он более эффективен в отношении токенов. Токены измеряют скорость и эффективность модели, и SmolVM может закодировать изображение 384x384 за 81 токен, по сравнению с Qwen2-VL, которая использует 16k токенов. Для работы модели также требуется меньше вычислительной мощности и оперативной памяти.

На сайте Hugging Face размещена демонстрационная версия построенная на SmolVM-Instruct со сценарием обучения под наблюдением, который может опробовать любой желающий.

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2024 год, 12 месяц > Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом
Rohith Bhaskar, 2024-12- 3 (Update: 2024-12- 3)