Оптическое распознавание текста (OCR) — это технология, которая анализирует текст страницы и превращает буквы в код, который может быть использован для обработки информации. OCR — это технология обнаружения печатных или рукописных текстовых символов внутри цифровых изображений бумажных файлов, например, сканированные копии бумажных записей. Системы OCR — это аппаратно-программные комплексы, которые превращают физические документы в машиночитаемый текст.
Такие цифровые версии могут быть очень полезны. Текст копируется или считывается с помощью таких технологий, как оптический сканер или специальная печатная плата, а программное обеспечение выполняет дальнейший анализ. Основным применением OCR является преобразование печатных юридических или исторических документов в PDF-файлы. Пользователи могут изменять, стилизовать и анализировать документ, как если бы он был создан с помощью текстового процессора после сохранения в формате PDF.
Как работает оптическое распознавание символов?
Система OCR состоит из аппаратного и программного обеспечения. Ее цель - анализ содержания физического документа и преобразование элементов в текст, который впоследствии может быть использован для обработки данных.
Например, рассмотрим почтовые службы и службы сортировки почты. OCR имеет решающее значение для их способности быстро обрабатывать исходные и обратные адреса для более эффективной сортировки корреспонденции. Следующие три метода являются основными базовыми техниками программы:
Предварительная обработка изображения
На первом этапе технология преобразует физическую форму документа в изображение, например, в фотографию записи. Цель этого этапа заключается в том, чтобы представление машины было точным и одновременно удалялись любые нежелательные аберрации.
Затем изображение преобразуется в черно-белое, оценивается на наличие светлых и темных областей (символов).
Затем изображение сегментируется на отдельные фрагменты, такие как электронные таблицы, текст или графические вставки, с помощью системы OCR.
Распознавание символов с помощью нейросетей
Нейросеть анализирует темные части изображения для распознавания в качестве символов и цифр. Как правило, нейросеть использует один из следующих подходов для одновременного распознавания одной буквы, фразы или абзаца:
- Распознавание образов: для обучения системы нейросеть используются различные языки, форматы текста и начертание. Программа сравнивает буквы на обнаруженном изображении буквы с уже изученными записями, чтобы найти совпадения.
- Распознавание признаков: для распознавания новых символов алгоритм использует правила, основанные на определенных свойствах символов. Количество наклонных, пересекающихся или изогнутых линий в букве - один из примеров признака.
Для идентификации оригинальных символов алгоритм использует правила, основанные на определенных свойствах символов. Например, одним из признаков является количество наклонных, пересекающихся или изогнутых линий в букве.
Постобработка
Программное обеспечение исправляет недостатки в итоговом файле во время постобработки. Один из подходов заключается в использовании глоссария терминов, которые будут встречаться в тексте, с последующим ограничением лексики этими словами/форматами, чтобы убедиться, что никакие интерпретации не выходят за рамки словаря.
Описанная выше технология применяется в АргусДок для создания цифровых хранилищ документов.
Скачайте бесплатную версию АргусДок!
Список всех новостей и публикаций.