Оптическое распознавание текста (OCR)

IceMusic · 12.11.2014, 17:37

Оптическое распознавание текста (OCR)

1. Определение распознавания текста.

2. Цель.

3. Виды документов исходных.

4. Виды документов на выходе.

5. Задачи и реализация.

6. Виды распознавания.

7. Программы для распознавания.

8. Вспомогательные программы.

Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе).

При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов, а также для возможности пользоваться поиском по документу, копировать текст из PDF и DjVu в doc или txt.

В зависимости от цели может быть два варианта действий:

1. Создание текстового документа на выходе.

2. Создание распознанного слоя в исходном документе.

Виды исходных документов для обоих вариантов одни и те же: JPEG, BMP, PNG, GIF, DjVu, TIFF, PDF

Виды документов на выходе:

1. DOC, TXT, RTF, ODT и даже HTML.

2. DjVu (OCR), PDF (OCR)

Этапы преобразование документа в электронный вид OCR-системами

Для графических файлов и PDF

1. Сканирование и предварительная обработка изображения (например, получение документа в формате PDF)

2. Анализ структуры документа.

3. Распознавание.

4. Проверка результатов.

5. Реконструкция документа

(воссоздание его исходного вида).

6. Экспорт.

Примечание:

Для DjVu

DjVu OCR служит для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt.

DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста. Процедура оцифровки текста происходит за три этапа:

1) Во-первых, программа (djvu OCR) конвертирует документ в формат tiff или djvu в doc

2) Во-вторых, FineReader распознает текст из полученных изображений

3) И наконец, djvu OCR обрабатывает рабочий проект FineReader и извлекает информацию, которую затем интегрирует текстовый слой в djvu.

ПРОЦЕСС РАСПОЗНАВАНИЯ

1. Анализ структуры.

Для того чтобы корректно воспроизводить в электронном виде документы, все современные OCR-программы начинают распознавание именно с анализа структуры. Как правило, при этом выделяют несколько иерархически организованных логических уровней на (рис.1.)

Рис.1.- Иерархически организованные логические уровни

Программа делит страницу на объекты, их, в свою очередь, – на объекты низших уровней, и так далее, вплоть до символов. Когда символы выделены и распознаны, начинается обратный процесс – «сборка» объектов высших уровней, который завершается формированием целой страницы. Такая процедура называется многоуровневым анализом документа, или MDA (MultilevelDocumentAnalysis).

При изучении механизмов, позволяющих человеку безошибочно узнавать увиденные предметы, выделено три базовых принципа, которые используются в системах OCR.

Принцип целостности (Integrity), согласно которому созерцаемый объект рассматривается как целое, состоящее из связанных частей. Связь частей выражается в пространственных отношениях между ними, и сами части получают толкование только в составе предполагаемого целого, то есть в рамках гипотезы об объекте.

Принцип целенаправленности (Purposefulness) формулируется следующим образом: любая интерпретация данных преследует определенную цель. Согласно этому принципу, распознавание представляет собой процесс выдвижения гипотез о целом объекте и целенаправленной их проверки.

Принцип адаптивности (Adaptability) подразумевает способность системы к самообучению. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач.

Вместо полных названий этих принципов часто употребляют аббревиатуру IPA.

2. Распознавание. Классификаторы.

Алгоритм распознавания представляет собой процесс последовательного выдвижения и проверки программой целого ряда гипотез, основанных на заложенных в программу шаблонах и знаниях.

После разделения слов на символы выделенные изображения символов поступают на рассмотрение механизмов распознавания букв, называемых классификаторами.

Применяются следующие типы классификаторов: растровый, контурный, признаковый, структурный, признаково-дифференциальный, структурно-дифференциальный.

Растровый классификатор сравнивает символ с набором эталонов, поочередно накладывая изображения друг на друга. Эталонами в данном случае выступают специально подготовленные изображения; каждое из них объединяет в себе очертания множества вариантов написания того или иного символа. Гипотезы выдвигаются в зависимости от того, с какими эталонами точнее совпало изображение буквы.

Признаковый классификатор, как и растровый, выдвигает гипотезы, исходя из степени совпадения параметров символа с эталонными значениями. Оперирует определенными числовыми признаками, такими, например, как длина периметра, количество черных точек в разных областях или вдоль различных направлений и т.п. Точность работы признакового классификатора во многом зависит от качества признаков, выбранных для каждого символа на (рис.2.)

Рис.2.- Качества признаков

Контурный классификатор представляет собой разновидность признакового классификатора. Отличается тем, что признаки вычисляются не по полному изображению символа, а по его контуру. Этот быстродействующий классификатор предназначен для распознавания текста, набранного декоративными шрифтами (например, стилизованного под готический, старорусский стиль и т.п.).

Структурный классификатор первоначально был создан и использовался для распознавания рукописного текста. Этот классификатор проводит структурный анализ символа, раскладывая его на элементарные составляющие (отрезки, дуги, окружности, точки) и формируя точную схему анализируемого знака на (рис.3.).

Рис.3.- Структурный анализ символа

Признаково-дифференциальный классификатор предназначен для различения похожих друг на друга объектов, таких, например, как буква «m» и сочетание «r n». Принципиальное отличие этого классификатора заключается в том, что он не анализирует все изображение, а обращается только к тем частям объекта, где может находиться ключ к правильному ответу. В случае с «m» и «r n» ключом служит наличие и ширина разрыва в месте касания предполагаемых букв.

Структурно-дифференциальный классификатор, как и признаково-дифференциальный, решает задачи различения похожих объектов, но работает на порядок точнее за счет анализа структуры.

При выдвижении каждой гипотезе присваивается определенная оценка (так называемый вес гипотезы).

3. Модели и программы распознавания.

Для быстрого и точного принятия решений система объединяет гипотезы в многоуровневые структуры – модели. Существуют следующие типы моделей слова: словарное слово, E-mail или URL, цифра, регулярное выражение и т.д.

Омнифонтовая (шрифтонезависимая) OCR-система способна обрабатывать документы, набранные любыми шрифтами, в том числе и такими, которые не существовали на момент создания системы.

Большинство современных OCR-программ для повышения качества распознавания используют встроенные лингвистические модули, которые могут включать в себя словари общей лексики или специализированные предметные словари (например, словари имен и фамилий, или названий городов), а также морфологические правила для построения форм слов, или, если слово отсутствует в словаре, для проверки допустимых правил словообразования.

На данный момент выделяют OCR-системы, а также ICR-системы (IntellectualCharacterRecognition). Можно считать, что ICR – это следующее поколение в развитии OCR-систем. В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов.

В соответствии с вышеописанными принципами на всех этапах обработки документа действует ABBYY FineReader.

ПРОГРАММЫ OCR:

Наиболее известными программами класса «Системы оптического распознавания» в России являются

- OCR CuneiForm;

- ABBYY FineReader

ВСПОМОГАТЕЛЬНАЯ ПРОГРАММА:

Программа DjVu OCR. Предназначена для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt.

DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста.

imort · 13.01.2016, 21:03

Вот ещё классный японский девайс
https://www.youtube.com/watch?v=03ccxwNssmo

12.11.2014, 17:37	#1
IceMusic ВИП Гуру Форума Регистрация: 08.11.2010 Адрес: С-Петербург Сообщения: 2,383 Репутация: 1438	Оптическое распознавание текста (OCR) Оптическое распознавание текста (OCR) 1. Определение распознавания текста. 2. Цель. 3. Виды документов исходных. 4. Виды документов на выходе. 5. Задачи и реализация. 6. Виды распознавания. 7. Программы для распознавания. 8. Вспомогательные программы. Оптическое распознавание символов (англ. optical character recognition, OCR) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные — последовательность кодов, использующихся для представления символов в компьютере (например, в текстовом редакторе). При создании электронных библиотек и архивов путем перевода книг и документов в цифровой компьютерный формат, при переходе предприятий от бумажного к электронному документообороту, при необходимости отредактировать полученный по факсу документ используются системы оптического распознавания символов, а также для возможности пользоваться поиском по документу, копировать текст из PDF и DjVu в doc или txt. В зависимости от цели может быть два варианта действий: 1. Создание текстового документа на выходе. 2. Создание распознанного слоя в исходном документе. Виды исходных документов для обоих вариантов одни и те же: JPEG, BMP, PNG, GIF, DjVu, TIFF, PDF Виды документов на выходе: 1. DOC, TXT, RTF, ODT и даже HTML. 2. DjVu (OCR), PDF (OCR) Этапы преобразование документа в электронный вид OCR-системами Для графических файлов и PDF 1. Сканирование и предварительная обработка изображения (например, получение документа в формате PDF) 2. Анализ структуры документа. 3. Распознавание. 4. Проверка результатов. 5. Реконструкция документа (воссоздание его исходного вида). 6. Экспорт. Примечание: Для DjVu DjVu OCR служит для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt. DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста. Процедура оцифровки текста происходит за три этапа: 1) Во-первых, программа (djvu OCR) конвертирует документ в формат tiff или djvu в doc 2) Во-вторых, FineReader распознает текст из полученных изображений 3) И наконец, djvu OCR обрабатывает рабочий проект FineReader и извлекает информацию, которую затем интегрирует текстовый слой в djvu. ПРОЦЕСС РАСПОЗНАВАНИЯ 1. Анализ структуры. Для того чтобы корректно воспроизводить в электронном виде документы, все современные OCR-программы начинают распознавание именно с анализа структуры. Как правило, при этом выделяют несколько иерархически организованных логических уровней на (рис.1.) Рис.1.- Иерархически организованные логические уровни Программа делит страницу на объекты, их, в свою очередь, – на объекты низших уровней, и так далее, вплоть до символов. Когда символы выделены и распознаны, начинается обратный процесс – «сборка» объектов высших уровней, который завершается формированием целой страницы. Такая процедура называется многоуровневым анализом документа, или MDA (MultilevelDocumentAnalysis). При изучении механизмов, позволяющих человеку безошибочно узнавать увиденные предметы, выделено три базовых принципа, которые используются в системах OCR. Принцип целостности (Integrity), согласно которому созерцаемый объект рассматривается как целое, состоящее из связанных частей. Связь частей выражается в пространственных отношениях между ними, и сами части получают толкование только в составе предполагаемого целого, то есть в рамках гипотезы об объекте. Принцип целенаправленности (Purposefulness) формулируется следующим образом: любая интерпретация данных преследует определенную цель. Согласно этому принципу, распознавание представляет собой процесс выдвижения гипотез о целом объекте и целенаправленной их проверки. Принцип адаптивности (Adaptability) подразумевает способность системы к самообучению. Полученная при распознавании информация упорядочивается, сохраняется и используется впоследствии при решении аналогичных задач. Вместо полных названий этих принципов часто употребляют аббревиатуру IPA. 2. Распознавание. Классификаторы. Алгоритм распознавания представляет собой процесс последовательного выдвижения и проверки программой целого ряда гипотез, основанных на заложенных в программу шаблонах и знаниях. После разделения слов на символы выделенные изображения символов поступают на рассмотрение механизмов распознавания букв, называемых классификаторами. Применяются следующие типы классификаторов: растровый, контурный, признаковый, структурный, признаково-дифференциальный, структурно-дифференциальный. Растровый классификатор сравнивает символ с набором эталонов, поочередно накладывая изображения друг на друга. Эталонами в данном случае выступают специально подготовленные изображения; каждое из них объединяет в себе очертания множества вариантов написания того или иного символа. Гипотезы выдвигаются в зависимости от того, с какими эталонами точнее совпало изображение буквы. Признаковый классификатор, как и растровый, выдвигает гипотезы, исходя из степени совпадения параметров символа с эталонными значениями. Оперирует определенными числовыми признаками, такими, например, как длина периметра, количество черных точек в разных областях или вдоль различных направлений и т.п. Точность работы признакового классификатора во многом зависит от качества признаков, выбранных для каждого символа на (рис.2.) Рис.2.- Качества признаков Контурный классификатор представляет собой разновидность признакового классификатора. Отличается тем, что признаки вычисляются не по полному изображению символа, а по его контуру. Этот быстродействующий классификатор предназначен для распознавания текста, набранного декоративными шрифтами (например, стилизованного под готический, старорусский стиль и т.п.). Структурный классификатор первоначально был создан и использовался для распознавания рукописного текста. Этот классификатор проводит структурный анализ символа, раскладывая его на элементарные составляющие (отрезки, дуги, окружности, точки) и формируя точную схему анализируемого знака на (рис.3.). Рис.3.- Структурный анализ символа Признаково-дифференциальный классификатор предназначен для различения похожих друг на друга объектов, таких, например, как буква «m» и сочетание «r n». Принципиальное отличие этого классификатора заключается в том, что он не анализирует все изображение, а обращается только к тем частям объекта, где может находиться ключ к правильному ответу. В случае с «m» и «r n» ключом служит наличие и ширина разрыва в месте касания предполагаемых букв. Структурно-дифференциальный классификатор, как и признаково-дифференциальный, решает задачи различения похожих объектов, но работает на порядок точнее за счет анализа структуры. При выдвижении каждой гипотезе присваивается определенная оценка (так называемый вес гипотезы). 3. Модели и программы распознавания. Для быстрого и точного принятия решений система объединяет гипотезы в многоуровневые структуры – модели. Существуют следующие типы моделей слова: словарное слово, E-mail или URL, цифра, регулярное выражение и т.д. Омнифонтовая (шрифтонезависимая) OCR-система способна обрабатывать документы, набранные любыми шрифтами, в том числе и такими, которые не существовали на момент создания системы. Большинство современных OCR-программ для повышения качества распознавания используют встроенные лингвистические модули, которые могут включать в себя словари общей лексики или специализированные предметные словари (например, словари имен и фамилий, или названий городов), а также морфологические правила для построения форм слов, или, если слово отсутствует в словаре, для проверки допустимых правил словообразования. На данный момент выделяют OCR-системы, а также ICR-системы (IntellectualCharacterRecognition). Можно считать, что ICR – это следующее поколение в развитии OCR-систем. В ICR гораздо более активно и серьёзно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов. В соответствии с вышеописанными принципами на всех этапах обработки документа действует ABBYY FineReader. ПРОГРАММЫ OCR: Наиболее известными программами класса «Системы оптического распознавания» в России являются - OCR CuneiForm; - ABBYY FineReader ВСПОМОГАТЕЛЬНАЯ ПРОГРАММА: Программа DjVu OCR. Предназначена для внедрения текстового слоя OCR в книги djvu. Текстовый слой позволяет пользоваться поиском по документу, копировать текст из djvu в doc или txt. DjVu OCR работает только совместно с FineReader 7-ой,8-ой,9-ой версий, предназначающейся для распознавания текста.

Опции темы	Поиск в этой теме
Версия для печати Отправить на email	Поиск в этой теме: Расширенный поиск

13.01.2016, 21:03	#2
imort Кинооператор Новичок Регистрация: 10.08.2013 Сообщения: 15 Репутация: 6	Вот ещё классный японский девайс https://www.youtube.com/watch?v=03ccxwNssmo

Здесь присутствуют: 1 (пользователей - 0 , гостей - 1)