Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом
Компания Hugging Face, хранилище машинного обучения, наборов данных и инструментов искусственного интеллекта, выпустила на сайте https://huggingface.co/blog/smolvlm модель языка зрения с открытым исходным кодом, которая отличается малым весом и создана для эффективности и скорости. Vision Language Models (VLM) может понимать как текстовый, так и визуальный ввод.
Модель доступна для коммерческого использования с открытыми обучающими конвейерами, что означает, что наборы данных, код и методы, использованные для обучения модели, находятся в открытом доступе. У Hugging Face есть три варианта модели - SmolVM-Base, SmolVM-Synthetic и SmolVM Instruct.
SmolVM-Base предназначена для последующей тонкой настройки, то есть ее можно перенимать и обучать для решения конкретных задач. Synthetic обучается на искусственных данных и не использует наборы данных реального мира, а Instruct можно "использовать "из коробки" для интерактивных приложений для конечных пользователей"
Hugging Face утверждает, что SmolVM требуется всего 5,7 Гб оперативной памяти GPU, что делает его меньше и эффективнее таких конкурентов, как PaliGemma 3B, InternVL2 2B и Qwen2-VL-2B. Это позволяет использовать его на ноутбуках с ограниченным объемом VRAM.
Кроме того, по сравнению с другими моделями, он более эффективен в отношении токенов. Токены измеряют скорость и эффективность модели, и SmolVM может закодировать изображение 384x384 за 81 токен, по сравнению с Qwen2-VL, которая использует 16k токенов. Для работы модели также требуется меньше вычислительной мощности и оперативной памяти.
На сайте Hugging Face размещена демонстрационная версия построенная на SmolVM-Instruct со сценарием обучения под наблюдением, который может опробовать любой желающий.