Notebookcheck Logo

Mistral OCR точно преобразует сложные документы в редактируемые файлы с помощью искусственного интеллекта

Mistral OCR использует искусственный интеллект для точного преобразования печатных и PDF-документов в редактируемые файлы. (Источник изображения: Mistral)
Mistral OCR использует искусственный интеллект для точного преобразования печатных и PDF-документов в редактируемые файлы. (Источник изображени
Компания Mistral представила API для оптического распознавания символов, который может использоваться предприятиями для быстрого и точного преобразования большого количества документов в редактируемые цифровые файлы.

Компания Mistral выпустила новый продукт под названием Mistral OCR - API для оптического распознавания символов на основе искусственного интеллекта, предназначенный для преобразования печатных документов в цифровые файлы.

Существуют миллионы печатных документов и нередактируемых PDF-файлов, включая старые записи о рождении и книги. Программа оптического распознавания символов преобразует текст и макет этих исходных материалов в редактируемые цифровые файлы. Хотя программы OCR легко и точно преобразуют обычные текстовые документы, у них часто возникают проблемы со сложными таблицами и графиками, а также с иностранными языками.

Mistral OCR был создан специально для многоязычного преобразования сложных документов. Точность Mistral при преобразовании текста на 11 языках варьируется от 97,00% до 99,54%, что выше, чем у предложений Microsoft и Google AI OCR. Его точность также выше, чем у конкурентов, при преобразовании сложных документов, например, содержащих математику или таблицы.

В настоящее время API Mistral OCR ограничен загружаемыми документами размером менее 50 МБ и объемом менее 1 000 страниц. Печатные документы должны быть сначала оцифрованы с помощью сканеров , таких как этот на Amazon, в то время как PDF-файлы, изображения и веб-сайты могут быть обработаны напрямую.

Mistral OCR лучше конкурентов справляется со сложными документами. (Источник изображения: Mistral)
Mistral OCR лучше конкурентов справляется со сложными документами. (Источник изображения: Mistral)
Mistral OCR справляется с преобразованием текста на десятках языков лучше, чем конкуренты. (Источник изображения: Mistral)
Mistral OCR справляется с преобразованием текста на десятках языков лучше, чем конкуренты. (Источник изображения: Mistral)
Для использования API Mistral OCR требуется всего несколько строк кода на языке Python. (Источник изображения: Mistral)
Для использования API Mistral OCR требуется всего несколько строк кода на языке Python. (Источник изображения: Mistral)
 

Mistral OCR

Представляем лучший в мире API для понимания документов.

Исследование

Март 6, 2025

Команда Mistral AI

На протяжении всей истории человечества прогресс в области абстрагирования и поиска информации двигал его вперед. От иероглифов до папирусов, от печатного станка до оцифровки - каждый скачок делал человеческие знания более доступными и действенными, стимулируя дальнейшие инновации.

Сегодня мы находимся на пороге следующего большого скачка - раскрытия коллективного интеллекта всей оцифрованной информации. Приблизительно 90% всех организационных данных в мире хранится в виде документов, и чтобы использовать этот потенциал, мы представляем Mistral OCR.

Mistral OCR - это API оптического распознавания символов, который устанавливает новый стандарт в понимании документов. В отличие от других моделей, Mistral OCR понимает каждый элемент документов - медиа, текст, таблицы, уравнения - с беспрецедентной точностью и познавательностью. Он принимает на вход изображения и PDF-файлы и извлекает содержимое в виде упорядоченного чередования текста и изображений.

Таким образом, Mistral OCR - идеальная модель для использования в сочетании с системой RAG, принимающей на вход мультимодальные документы (например, слайды или сложные PDF-файлы).

Мы сделали Mistral OCR моделью по умолчанию для понимания документов миллионами пользователей Le Chat и выпускаем API mistral-ocr-latest по цене 1000 страниц на доллар (и примерно вдвое больше страниц на доллар при пакетном анализе). API доступен уже сегодня в нашем пакете для разработчиков la Plateforme, а в скором времени он появится у наших партнеров по облачным технологиям и аналитике, а также в локальных сетях.

Основные моменты

Современное понимание сложных документов

Естественно многоязычный и мультимодальный

Лучшие эталоны

Самый быстрый в своей категории

Структурированный вывод в режиме "Doc-as-prompt"

Выборочная возможность самостоятельного хостинга для организаций, работающих с особо важной или секретной информацией

Давайте разберемся в каждом из них.

Современное понимание сложных документов

Mistral OCR превосходит всех в понимании сложных элементов документов, включая чередующиеся изображения, математические выражения, таблицы и продвинутые макеты, такие как форматирование LaTeX. Модель позволяет глубже понимать такие насыщенные документы, как научные статьи с диаграммами, графиками, уравнениями и рисунками.

Ниже приведен пример того, как модель извлекает текст, а также изображения из данного PDF-файла в файл формата markdown. Вы можете получить доступ к блокноту здесь.

Ниже мы приводим боковое сравнение PDF-файлов и соответствующих результатов OCR. Наведите курсор на ползунок, чтобы переключиться между входными и выходными данными.

Таблицы + рисунки

3 Пример

Результат OCR

3 Ocr

Математика

4 Пример

Результат OCR

4 Ocr

Хинди

5 Пример

Результат OCR

Ocr на хинди

Документ

6 Пример

Результат OCR

6 Ocr

Арабский

7 Экземпляр

Результат OCR

Арабский OCR

Лучшие эталоны

Mistral OCR постоянно превосходит другие ведущие модели OCR в строгих эталонных тестах. Его превосходная точность в различных аспектах анализа документов показана ниже. Мы извлекаем из документов встроенные изображения вместе с текстом. Другие модели LLM, сравниваемые ниже, не имеют такой возможности. Чтобы сравнение было корректным, мы оцениваем их на нашем внутреннем тестовом наборе "только текст", содержащем различные публикации и PDF-файлы из Интернета; см. ниже:

Модель Общий Математический Многоязычный Отсканированный Таблицы

Google Document AI 83,42 80,29 86,42 92,77 78,16

Azure OCR 89,52 85,72 87,52 94,65 89,52

Gemini-1.5-Flash-002 90.23 89.11 86.76 94.87 90.48

Gemini-1.5-Pro-002 89.92 88.48 86.33 96.15 89.71

Gemini-2.0-Flash-001 88.69 84.18 85.80 95.11 91.46

GPT-4o-2024-11-20 89.77 87.55 86.00 94.58 91.70

Mistral OCR 2503 94.89 94.29 89.55 98.96 96.12

Естественно многоязычный

С момента основания компании Mistral мы стремились служить всему миру с помощью наших моделей и, следовательно, стремились к многоязычным возможностям во всех наших предложениях. Mistral OCR выводит это на новый уровень, способный анализировать, понимать и транскрибировать тысячи шрифтов, шрифтов и языков на всех континентах. Такая универсальность крайне важна как для глобальных организаций, работающих с документами на разных языках, так и для гиперлокальных компаний, обслуживающих нишевые рынки.

Модель Нечеткое соответствие при генерации

Google-Document-AI 95.88

Gemini-2.0-Flash-001 96.53

Azure OCR 97,31

Mistral OCR 2503 99.02

Бенчмарки по языкам:

Язык Azure OCR Google Doc AI Gemini-2.0-Flash-001 Mistral OCR 2503

ru 97.35 95.56 96.58 99.09

fr 97.50 96.36 97.06 99.20

hi 96.45 95.65 94.99 97.55

zh 91.40 90.89 91.85 97.11

pt 97.96 96.24 97.25 99.42

de 98.39 97.09 97.19 99.51

es 98.54 97.52 97.75 99.54

tr 95.91 93.85 94.66 97.00

великобритания 97.81 96.24 96.70 99.29

it 98.31 97.69 97.68 99.42

ro 96,45 95,14 95,88 98,79

Самый быстрый в своей категории

Имея меньший вес, чем большинство моделей в данной категории, Mistral OCR работает значительно быстрее своих аналогов, обрабатывая до 2000 страниц в минуту на одном узле. Способность быстро обрабатывать документы обеспечивает непрерывное обучение и совершенствование даже в условиях высокой производительности.

Doc-as-prompt, структурированный вывод

Mistral OCR также предлагает использовать документы в качестве подсказок, обеспечивая более мощные и точные инструкции. Эта возможность позволяет пользователям извлекать конкретную информацию из документов и оформлять ее в структурированные выходные данные, такие как JSON. Пользователи могут подключать извлеченные выходные данные к последующим вызовам функций и агентам сборки. Посмотрите этот пример блокнота.

Доступно для самостоятельного размещения на выборочной основе

Для организаций с жесткими требованиями к конфиденциальности данных Mistral OCR предлагает возможность самостоятельного хостинга. Это гарантирует, что конфиденциальная или секретная информация останется в безопасности в Вашей собственной инфраструктуре, обеспечивая соответствие нормативным требованиям и стандартам безопасности. Если Вы хотите изучить возможность самостоятельного развертывания, пожалуйста, сообщите нам об этом.

Примеры использования

Мы даем возможность нашим бета-клиентам повысить уровень знаний в организации, преобразуя их обширные хранилища документов в действия и решения. Вот некоторые из ключевых примеров использования, в которых наша технология оказывает значительное влияние:

Оцифровка научных исследований: Ведущие исследовательские институты экспериментируют с Mistral OCR для преобразования научных работ и журналов в форматы, пригодные для искусственного интеллекта, что делает их доступными для последующих интеллектуальных систем. Это позволило заметно ускорить совместную работу и ускорить научные рабочие процессы.

Сохранение исторического и культурного наследия: Организации и некоммерческие организации, занимающиеся сохранением наследия, используют Mistral OCR для оцифровки исторических документов и артефактов, обеспечивая их сохранность и делая их доступными для более широкой аудитории.

Оптимизация обслуживания клиентов: Отделы обслуживания клиентов используют Mistral OCR для преобразования документации и руководств в индексированные знания, что сокращает время ответа и повышает удовлетворенность клиентов.

Создание литературы в сфере дизайна, образования, юриспруденции и т.д. Готовой к работе с искусственным интеллектом: Mistral OCR также помогает компаниям преобразовывать техническую литературу, инженерные чертежи, конспекты лекций, презентации, нормативные документы и многое другое в индексированные, готовые к ответам форматы, раскрывая интеллект и производительность миллионов документов.

Испытайте это сегодня

Возможности Mistral OCR можно бесплатно опробовать в le Chat. Чтобы попробовать API, перейдите на la Plateforme. Мы будем рады получить Ваши отзывы; ожидайте, что в ближайшие недели модель станет еще лучше. В рамках программ стратегического взаимодействия мы также будем предлагать выборочное развертывание на местном уровне.

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2025 год, 03 месяц > Mistral OCR точно преобразует сложные документы в редактируемые файлы с помощью искусственного интеллекта
David Chien, 2025-03-11 (Update: 2025-03-11)