Распознавание текста на фото (OCR) – это процесс извлечения текста из изображения (скриншота, фото, картинки с надписью и пр.), с его последующим преобразованием в редактируемый формат. По сравнению с традиционными методами, нейросети ускоряют и упрощают оцифровку текстовых данных, повышают точность полученных результатов.
Нейросети могут корректно обрабатывать даже изображения низкого качества – с нечеткими символами, размытостями или сложным фоном. Некоторые из них понимают рукописный текст, формулы и старые шрифты, определяют структуру и стили форматирования.
В статье рассмотрим 5 бесплатных нейросетей для распознавания русского текста по фото, протестируем их возможности.
Читайте также: Как проверить текст на уникальность
5 бесплатных нейросетей для распознавания текста
Рассмотрим, как справляются с задачей нейросети, выбранные нами по двум принципам: они способны распознавать русский текст и ими можно пользоваться бесплатно.
Для тестирования будем использовать два скриншота – с печатным и рукописным текстом. Для удобства обозначим их как Фото 1 и Фото 2.
Фото 1 – фрагмент публикации о нейросетях.

Фото 2 – рукописный текст, часть конспекта о шрифтах.

1. ChatGPT
ChatGPT – чат-бот на базе ИИ, который на момент написания статьи использует в работе модель GPT-4o и GPT-4o mini. Компания Open AI постоянно обновляет и выпускает новые версии. Позволяет генерировать текст, код и картинки, анализировать документы и изображения.
Для распознания текста на изображении прикрепляем скриншот, пишем, что с ним нужно делать, и запускаем процесс.

Фото 1:

Фото 2:

Результат: Нейросеть отлично справилась с распознанием печатного и рукописного текста. Искажения отсутствуют, все символы идентифицированы с высокой степенью точностью.
Полученный текст можно копировать в буфер обмена, открывать к нему публичный доступ и сохранять в 7 форматах – для этого нужно ввести соответствующий промт и нейросеть сгенерирует ссылку для скачивания файла. Если при работе возникли затруднения – можно задать нейросети вопрос и она подскажет, что делать дальше.

Вывод: ChatGPT пригоден для распознания на фото любых печатных и рукописных текстов на русском языке. Полученные результаты не требуют редактирования и могут быть сохранены в 7 различных форматах.
2. GigaChat
GigaChat – нейросеть от Сбера, которая умеет вести осмысленные диалоги, писать статьи, генерировать картинки, делать краткие пересказы, исправлять ошибки и переводить на русский язык. Недавно появилась новая опция – «Распознавание фото», позволяющая считывать текст на изображении и переводить его в символы.

Нажимаем на значок «+», чтобы добавить фото.

Иконка загруженного скриншота появилась в правой части поля. Указываем, что с ним нужно сделать, затем нажимаем на кнопку.

Фото 1:

Фото 2:

Результат: При распознавании печатного текста нейросеть может допускать грубые смысловые ошибки (особенно при работе с художественным текстом), терять или добавлять новые слова, заменять их синонимами на свое усмотрение – не всегда уместными и корректными. С переводом рукописного текста Гигачат не справился – распознал только часть, и ту – с большими искажениями.
Отсутствует возможность скачивания распознанного текста. Все, на что способна нейросеть – дать совет, как создать и сохранить файл вручную.

Вывод: Для распознавания рукописного текста GigaChat не пригоден совсем. Печатный текст распознавать может, но выданный им результат нужно внимательно проверять, сверять с оригиналом и исправлять неточности. Функции скачивания нет – сохранять текст на компьютере придется вручную.
3. OCR.best
OCR.best – сервис на основе ИИ, позволяющий переводить в текст изображения, PDF-файлы и отсканированные документы. Нейросеть построена с использованием библиотек машинного обучения Scikit-learn и TensorFlow. Распознавание осуществляется путем сравнения объектов на изображении с объектами из встроенной базы данных.
Чтобы распознать текст на изображении нужно выбрать инструмент «Image to Text», загрузить файл и нажать на кнопку Convert.

Фото 1:

Фото 2:

Результат: Печатные шрифты переводит с высокой точностью, без ошибок и искажений. Единственный недостаток – могут появляться лишние абзацы, которые при редактировании легко убрать.
С распознаванием рукописного текста справляется чуть хуже – слова, где был перенос, разорваны пробелом. И в одном месте допущено небольшое искажение – стоит буква «с» вместо открывающей скобки.
Оцифрованный текст можно копировать в буфер обмена, скачивать в виде текстового docx / txt файла или архива zip.
Вывод: Нейросеть хорошо справляется с распознаванием текста – как печатного, так и рукописного. Может использоваться при работе с любыми документами.
Статья в тему: Бесплатные нейросети для написания текста
4. Rehard
Rehard – сервис для извлечения текста из загруженных изображений. Работает с печатными текстами и рукописями. Регистрация не требуется.
Чтобы воспользоваться сервисом, выберите тип текста (рукописный или печатный) и загрузите изображение. Извлеченный текст появится справа. В настройках можно включать опции выравнивания и исправления орфографии.

Фото 1:

Фото 2:

Результат: В целом нейросеть неплохо справилась с задачей. Из погрешностей – иногда часть предложения перескакивает на другую строку, и появляется знак дефиса – в местах переноса слов при распознавании рукописного текста.
Вывод: Сервис пригоден для распознавания с фото любого текста, позволяет получать качественные тексты, требующие минимальной обработки. Из недостатков – нет опции скачивания, сохранять на устройстве нужно вручную.
5. Smartbuddy
Smartbuddy – нейросеть, способная вести диалоги, генерировать картинки и статьи, делать переводы, анализировать данные и распознавать текст на фото (используется модель Claude 3 Haiku).
Если размер файла меньше 50 Кб, регистрация не требуется. Достаточно загрузить файл, ввести запрос и нажать на кнопку «Оправить».

Если объем файла превышает 50 Кб, нужно зарегистрироваться и в личном кабинете выбрать нужный функционал.

Фото 1:

Фото 2:

Результат: Нейросеть отлично распознает печатный текст, который практически не придется корректировать. Позволяет скачивать его на устройство в pdf или docx формате.
Рукописный текст не понимает – может идентифицировать лишь отдельные слова, вырванные из контекста.
Вывод: Сервис корректно распознает печатные символы, пригоден для перевода в текстовые форматы отсканированных документов.
Заключение
Из рассмотренных выше нейросетей лучшие результаты показал ChatGPT, худшие – GigaChat. Первый одинаково хорошо понимает печатные и рукописные тексты, второй – только печатные, при этом допускает неточности и ошибки. Следовательно, их места в рейтинге по качеству распознавания текста на фото – первое и пятое (последнее) соответственно.
OCR.best занял второе место после ChatGPT – он допускает небольшие погрешности в виде лишних абзацев и пробелов в словах (в рукописях, на месте переноса слов).
Следом за ним идет Rehard (третье место) – иногда он добавляет лишние абзацы и дефисы – там, где в оригинале был перенос слова с одной строки на другую. Smartbuddy занимает четвертое место в рейтинге. Он неплохо распознает печатный текст, допуская лишь незначительные погрешности, а рукописный – не понимает совсем.
Больше полезных гайдов по нейросетям: