Компания DeepSeek показала DeepSeek-OCR — OCR-модель, созданную специально для больших языковых моделей. Вместо обычного распознавания текста она сжимает страницу в визуальные токены, чтобы LLM могла читать документы быстрее и дешевле.

На vLLM 0.8.5 модель выдаёт около 2500 токенов в секунду на GPU A100-40G. Postium собрал ключевые детали о новинке.

Реклама. Erid 2VtzquyAJcf. ООО «Клик.ру». Клик.ру
Реклама. Erid 2VtzqvfByDy. ООО «Клик.ру». Клик.ру

Читайте также: Как писать промты для DeepSeek

DeepSeek-OCR — что это и как работает

DeepSeek-OCR — новая система распознавания текста от компании DeepSeek, созданная специально для работы с большими языковыми моделями (LLM).

Главная идея — не просто превращать изображение в текст, а сжимать визуальный контекст страницы (документа, PDF) в компактный набор токенов, которые LLM потом «распаковывает» и понимает.

Как это работает:

  1. Страница превращается в визуальные токены. Модель анализирует изображение (скан, PDF) и кодирует его в десятки, а не тысячи токенов.
  2. LLM получает компактное представление. Эти токены уже содержат информацию о тексте, структуре (таблицы, списки) и формате документа.
  3. Распаковка и понимание. Внутри LLM эти токены преобразуются обратно в текст и структуру — без необходимости видеть каждый пиксель.

Результат — LLM понимает документ целиком, но тратит в 10–20 раз меньше контекста, чем при обычном OCR.

На бенчмарке OmniDocBench DeepSeek-OCR опережает GOT-OCR 2.0 и MinerU 2.0, используя при этом в 2–3 раза меньше визуальных токенов.

DeepSeek-OCR на бенчмарке OmniDocBench

Почему это важно: DeepSeek-OCR делает работу LLM с документами быстрее — до 2500 токенов/с на GPU A100, дешевле — за счёт меньшего числа токенов при инференсе, точнее — сохраняя 97% точности при 10-кратном сжатии, и гибче — поддерживая PDF, сканы и изображения напрямую через vLLM.

Где может применяться:

  • Автоматический разбор контрактов, отчётов, форм;
  • Быстрое извлечение данных из длинных PDF;
  • Подготовка структурированных ответов (JSON, Markdown, таблицы);
  • Встраивание в RAG-пайплайны и чат-ботов с документами.

Как пользоваться? DeepSeek-OCR — инструмент для разработчиков, а не конечных пользователей. Модель можно скачать с Hugging Face или GitHub и встроить в свои пайплайны — например, в веб-сервисы, системы анализа документов или обработку больших данных.

Она принимает на вход изображения, сканы и PDF-страницы, возвращая компактные визуальные токены или распознанный текст. Совместима с vLLM 0.8.5, Transformers, PyTorch 2.6+ и работает на CUDA 11.8+.

Итог: DeepSeek-OCR не делает ИИ «зрячим» в человеческом смысле, но приближает его к тому, как человек воспринимает документ.

Раньше OCR видел только буквы и строки, не понимая, где таблица, где подпись, а где заголовок. Теперь модель передаёт LLM сжатое, но осмысленное представление страницы — так, как человек видит её целиком: и текст, и структуру, и логику оформления.

Также, недавно стало известно, что DeepSeek V4 может выйти в октябре.

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

⭐ Наш Telegram-канал, где мы показываем, как применять ИИ в работе: промты, кейсы, гайды и рабочие схемы. Подписывайтесь → «Промты — и точка».

Комментарии: DeepSeek представила DeepSeek-OCR — новую модель для сжатия визуального контекста в LLM
⚡ В тренде
Twitch — это не просто стримы и чат. Это возможность превратить своё увлечение играми в настоящую профессию. Представь: ты не просто играешь в любимые игры, а зарабатываешь на этом, строишь собственное комьюнити и становишься узнаваемым стримером. Звучит как мечта? На Twitch она вполне реальна. В этой статье расскажем, как быстро раскрутить канал, выйти на первую […]
Сайты с прокси – это сервисы, предоставляющие услуги прокси: использование специальных серверов, выступающих посредниками между пользователем и интернетом. Прокси-серверы позволяют сохранять анонимность в сети, увеличивают скорость доступа к некоторым ресурсам, повышают уровень защиты данных от возможных угроз. В этой статье мы разберем, какие прокси бывают и для чего используются. Рассмотрим 10 популярных сайтов с прокси. […]
История Pixar — это не просто рассказ о создании мультфильмов. Это история о том, как маленькая команда энтузиастов смогла изменить индустрию развлечений, ввести новые стандарты и доказать: даже самые амбициозные мечты достижимы. Успех Pixar — это синтез технологий, креатива и бизнес-рисков. Эта история может вдохновить не только тех, кто связан с кино или анимацией, но […]
Ищете промты для открыток ко Дню России? Нейросети могут сделать семейное поздравление по фото, портрет в праздничном образе, открытку для детей или вариант в советском стиле с достопримечательностями нужного города. В этой статье собрали готовые промты для разных форматов, а также покажем, как ими пользоваться и где лучше генерировать такие открытки. Читайте также: 25 нейросетей […]
OpenAI начала запускать сброс лимитов в Codex. Теперь пользователь сможет восстановить лимит вручную и продолжить работу, если упёрся в ограничение. На старте OpenAI выдаёт по одному бесплатному сбросу пользователям тарифов Go, Plus, Pro и Business. Функция разворачивается постепенно, поэтому у части аккаунтов она может появиться позже. Детали в материале Postium. Читайте также: 20 ии-агентов для […]
Блоги компаний
Новости
Свежие статьи