Что такое оптическое распознавание текста?

Оптическое распознавание текста (OCR) — это технология, которая анализирует текст страницы и превращает буквы в код, который может быть использован для обработки информации. OCR — это технология обнаружения печатных или рукописных текстовых символов внутри цифровых изображений бумажных файлов, например, сканированные копии бумажных записей. Системы OCR — это аппаратно-программные комплексы, которые превращают физические документы в машиночитаемый текст.

Такие цифровые версии могут быть очень полезны. Текст копируется или считывается с помощью таких технологий, как оптический сканер или специальная печатная плата, а программное обеспечение выполняет дальнейший анализ. Основным применением OCR является преобразование печатных юридических или исторических документов в PDF-файлы. Пользователи могут изменять, стилизовать и анализировать документ, как если бы он был создан с помощью текстового процессора после сохранения в формате PDF.

Как работает оптическое распознавание символов?

Система OCR состоит из аппаратного и программного обеспечения. Ее цель - анализ содержания физического документа и преобразование элементов в текст, который впоследствии может быть использован для обработки данных.

Например, рассмотрим почтовые службы и службы сортировки почты. OCR имеет решающее значение для их способности быстро обрабатывать исходные и обратные адреса для более эффективной сортировки корреспонденции. Следующие три метода являются основными базовыми техниками программы:

Предварительная обработка изображения

На первом этапе технология преобразует физическую форму документа в изображение, например, в фотографию записи. Цель этого этапа заключается в том, чтобы представление машины было точным и одновременно удалялись любые нежелательные аберрации.

Затем изображение преобразуется в черно-белое, оценивается на наличие светлых и темных областей (символов).

Затем изображение сегментируется на отдельные фрагменты, такие как электронные таблицы, текст или графические вставки, с помощью системы OCR.

Распознавание символов с помощью нейросетей

Нейросеть анализирует темные части изображения для распознавания в качестве символов и цифр. Как правило, нейросеть использует один из следующих подходов для одновременного распознавания одной буквы, фразы или абзаца:

- Распознавание образов: для обучения системы нейросеть используются различные языки, форматы текста и начертание. Программа сравнивает буквы на обнаруженном изображении буквы с уже изученными записями, чтобы найти совпадения.

- Распознавание признаков: для распознавания новых символов алгоритм использует правила, основанные на определенных свойствах символов. Количество наклонных, пересекающихся или изогнутых линий в букве - один из примеров признака.

Для идентификации оригинальных символов алгоритм использует правила, основанные на определенных свойствах символов. Например, одним из признаков является количество наклонных, пересекающихся или изогнутых линий в букве.

Постобработка

Программное обеспечение исправляет недостатки в итоговом файле во время постобработки. Один из подходов заключается в использовании глоссария терминов, которые будут встречаться в тексте, с последующим ограничением лексики этими словами/форматами, чтобы убедиться, что никакие интерпретации не выходят за рамки словаря.

Описанная выше технология применяется в АргусДок для создания цифровых хранилищ документов.

Скачайте бесплатную версию АргусДок!

Список всех новостей и публикаций.