Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом

Hugging Face анонсирует новую модель языка зрения SmolVLM с открытым исходным кодом (Источник изображения: Hugging Face)

Компания Hugging Face представила легкую модель языка зрения с открытым исходным кодом, SmolVLM, которая, по словам компании, создана для эффективности и скорости.

Rohith Bhaskar (перевод Ninh Duy), Опубликовано 03 December 2024 🇺🇸 🇮🇹 ...

Компания Hugging Face, хранилище машинного обучения, наборов данных и инструментов искусственного интеллекта, выпустила на сайте https://huggingface.co/blog/smolvlm модель языка зрения с открытым исходным кодом, которая отличается малым весом и создана для эффективности и скорости. Vision Language Models (VLM) может понимать как текстовый, так и визуальный ввод.

Модель доступна для коммерческого использования с открытыми обучающими конвейерами, что означает, что наборы данных, код и методы, использованные для обучения модели, находятся в открытом доступе. У Hugging Face есть три варианта модели - SmolVM-Base, SmolVM-Synthetic и SmolVM Instruct.

SmolVM-Base предназначена для последующей тонкой настройки, то есть ее можно перенимать и обучать для решения конкретных задач. Synthetic обучается на искусственных данных и не использует наборы данных реального мира, а Instruct можно "использовать "из коробки" для интерактивных приложений для конечных пользователей"

Hugging Face утверждает, что SmolVM требуется всего 5,7 Гб оперативной памяти GPU, что делает его меньше и эффективнее таких конкурентов, как PaliGemma 3B, InternVL2 2B и Qwen2-VL-2B. Это позволяет использовать его на ноутбуках с ограниченным объемом VRAM.

Кроме того, по сравнению с другими моделями, он более эффективен в отношении токенов. Токены измеряют скорость и эффективность модели, и SmolVM может закодировать изображение 384x384 за 81 токен, по сравнению с Qwen2-VL, которая использует 16k токенов. Для работы модели также требуется меньше вычислительной мощности и оперативной памяти.

На сайте Hugging Face размещена демонстрационная версия построенная на SmolVM-Instruct со сценарием обучения под наблюдением, который может опробовать любой желающий.

Источник(и)

Обнимающее лицо

OnePlus дразнит предстоящий запуск ...

Intel Arc B580 и Arc B570: Анонсиро...

Автор исходного текста: Rohith Bhaskar - Tech Writer - 226 статей на Notebookcheck c 2024 года

contact me via: LinkedIn

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 521685 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!