Повышение точности OCR в исторических архивах с глубоким обучением

Повышение точности OCR в исторических архивах с глубоким обучением

19 августа 2025 г.

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

  1. Связанная работа и 2,1 арабского/персидского

    2.2 Китайский/японский и 2,3 коптса

    2.4 Греческий

    2.5 латынь

    2.6 Tamizhi

  2. Метод и 3.1 Сбор данных

    3.2 Подготовка данных и 3.3 Предварительная обработка

    3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка

  3. Эксперименты, результаты и обсуждение и 4.1 обработанные данные

    4.2 Набор данных и 4.3 эксперименты

    4.4 Результаты и оценка

    4.5 Обсуждение

  4. Заключение

    5.1 Проблемы и ограничения

    Онлайн -ресурсы, подтверждения и ссылки

2.5 латынь

Vamvakas et al. (2008) представили полную методологию OCR для распознавания исторических документов. Можно применить эту методологию как к машинным напечатанным, так и к рукописным документам. Благодаря своей способности корректировать в зависимости от типа документов, которые мы хотим обрабатывать, он не требует никаких знаний о шрифтах или базах данных. В методологии были предприняты три шага: первые два включали в себя создание базы данных для обучения на основе набора документов, а третий участвовал в распознавании новых документов. Во-первых, происходит предварительная обработка, которая включает в себя бинаризация и улучшение изображения. На втором этапе подход сегментации нисходящего вниз используется для обнаружения текстовых строк, слов и символов. Затем схема кластеризации принимается групповым символам схожих форм. В этом процессе пользователь может взаимодействовать в любое время, чтобы исправить ошибки в кластеризации и назначить метку ASCII. После завершения этого шага база данных создается с целью распознавания. Наконец, на третьем этапе приведенный выше подход сегментации применяется к каждому новому изображению документа, в то время как распознавание выполняется с использованием базы данных символов, которая была создана на предыдущем этапе. Основываясь на результатах экспериментов, модель была обнаружена на 83,66% точной. В будущем будут предприняты усилия для оптимизации текущих результатов распознавания путем использования новых подходов для сегментации и новых типов функций для оптимизации текущих результатов распознавания.

В типичных системах OCR бинаризация является важной стадией предварительной обработки, где входное изображение преобразуется в двоичную форму путем удаления нежелательных элементов, что приводит к чистой и бинаризованной версии для дальнейшей обработки. Тем не менее, бинаризация не всегда идеальна, и артефакты, введенные в ходе этого процесса, могут привести к потере важных деталей, таких как искаженные или фрагментированные формы характера. В частности, в исторических документах, которые подвержены более высоким уровням шума и деградации, методы бинаризации, как правило, работают плохо, препятствуя эффективности общего трубопровода распознавания. Чтобы решить эту проблему, Yousefi et al. (2015) предлагает альтернативный подход, который обходит традиционную стадию бинаризации. Они предлагают обучение 1D LSTM-сети непосредственно на текстовых данных уровня серого. Для их экспериментов они курировали большой набор данных исторических документов Fraktur из общедоступных онлайн -источников, которые послужили обучением и тестовыми наборами как для серого, так и для бинарных текстовых линий. Кроме того, чтобы исследовать влияние разрешения, они использовали наборы как низких, так и высоких разрешений в своих экспериментах. Результаты продемонстрировали эффективность 1D LSTM -сети по сравнению с бинаризацией. Сеть достигла значительно более низкой частоты ошибок, превосходя бинаризацию на 24% в наборе с низким разрешением и 19% в наборе высокого разрешения. Этот подход предлагает многообещающую альтернативу, используя сети LSTM для непосредственной обработки текстовых данных уровня серого, обходя ограничения и артефакты, связанные с традиционными методами бинаризации. Это оказывается особенно полезным для исторических документов и обеспечивает повышенную точность в задачах OCR.

Согласно Springmann et al. (2016), достижение точных результатов OCR для исторических печати требует моделей распознавания обучения, используя дипломатические транскрипции, которые являются скудными и трудоемкими ресурсами. Чтобы преодолеть эту проблему, авторы предлагают новый метод, который избегает обучения отдельных моделях для каждого исторического шрифта. Вместо этого они используют смешанные модели, первоначально обученные транскрипциям из шести печати, охватывающих годы с 1471 по 1686 год, охватывающие различные шрифты. Результаты демонстрируют, что использование смешанных моделей дает точность характера, превышающие 90% при оценке на отдельном испытательном наборе, включающем шесть дополнительных печати с того же исторического периода. Этот вывод свидетельствует о том, что типографический барьер может быть преодолен путем расширения обучения за пределы ограниченного числа шрифтов, чтобы охватить более широкий диапазон (аналогичных) шрифтов, используемых с течением времени. Выходы смешанных моделей служат отправной точкой для дальнейшей разработки, используя оба полностью автоматизированные методы, в которых используются результаты OCR смешанных моделей в качестве псевдоземной истины для обучения последующих моделей, и полуавтоматические методы, которые требуют минимальных ручных транскрипций. В отсутствие реальной основной истины авторы вводят два легко наблюдаемых количества, которые демонстрируют сильную корреляцию с фактической точностью каждой сгенерированной модели во время учебного процесса. Эти величины являются средним доверием характера (C), определяемым OCR Engine Ocropus, и средней лексической токеновой лексической (L), которая измеряет расстояние между токенами OCR и современными формами Word, учитывая исторические схемы орфографии. Благодаря порядковой классификации авторы определяют наиболее эффективную модель при распознавании с учетом рассчитанных значений C и L. Результаты показывают, что совершенно автоматический метод лишь незначительно улучшает результаты OCR по сравнению со смешанной моделью, тогда как коррекционные линии вручную значительно повышают точность OCR, что приводит к значительно более низкой частоте ошибок символов. Цель этого подхода состоит в том, чтобы свести к минимуму необходимость обширной генерации основной истины и не полагаться исключительно на ранее существовавшую типографскую модель. Используя смешанные модели и включив ручные исправления, предлагаемый метод демонстрирует достижения в результатах OCR для исторических печати, предлагая более эффективный и эффективный подход к моделям распознавания обучения.

Bukhari et al. (2017) представили систему «Anyoc», которая фокусируется на точной оцифровке исторических архивов. Эта система, будучи открытым исходным кодом, позволяет исследовательскому сообществу легко использовать Anyocr для оцифровки исторических архивов. Он включает в себя комплексный конвейер обработки документов, который поддерживает различные этапы, включая анализ макетов, обучение модели OCR, прогнозирование текстовой линии и веб -приложения для анализа макета и исправления ошибок OCR. Одной из заметной особенности ANOCOR является его способность обрабатывать современные изображения документов с разнообразными макетами, от простых до сложных. Используя силу сетей LSTM, современные системы OCR позволяют распознавать текст. Кроме того, Anyocr включает в себя неконтролируемую структуру обучения OCR, называемую AnyCrmodel, которая может быть легко обучена для любого сценария и языка. Чтобы устранить ошибки макета и OCR, AnyOCR предлагает веб -приложения с интерактивными инструментами. Компонент AnyLayoutEdit позволяет пользователям исправлять проблемы с макетом, в то время как компонент AnyOcredit позволяет корректировать ошибки OCR. Кроме того, исследовательское сообщество может получить доступ к виртуальной машине (виртуальной машине), которая предварительно установлена с большинством важных компонентов, способствуя легкой настройке и развертыванию. Предоставляя эти компоненты и инструменты, ANYCOR дает исследовательское сообщество использовать и улучшать их в соответствии с их конкретными требованиями. Этот совместный подход поощряет дальнейшее уточнение и достижения в области исторической оцифровки архива.

Springmann et al. (2018) предоставили ресурсы для исторического OCR, называемого набором данных GT4HISTOCR, который состоит из изображений печатной текстовой линии, сопровождаемых соответствующими транскрипциями. Этот набор данных включает в себя в общей сложности 313 173 линейных пар, полученных из инкунабулы, охватывающей 15-19 века. Он сделан публично доступным по лицензии CC-BY 4.0, обеспечивая доступность и удобство использования. Набор данных GT4HISTOCR особенно хорошо подходит для обучения расширенных моделей распознавания в программном обеспечении OCR, в котором используются рецидивирующие нейронные сети, в частности архитектуру LSTM, такую как Tesseract 4 или Ocropus. Чтобы помочь исследователям, авторы также предоставили предварительно проведенные модели Ocropus, специально предназначенные для подмножества набора данных. Эти предварительные модели демонстрируют впечатляющие показатели точности характера 95 процентов для ранних печати и 98,5 процента для печати Fraktur 19-го века, демонстрируя их эффективность даже на невидимых тестовых случаях.

Согласно Nunamaker et al. (2016), Изображения исторических документов должны сопровождаться наземным текстом истиной для обучения системы OCR. Однако этот процесс обычно требует, чтобы лингвистические эксперты вручную собирали основные истины, которые могут быть трудоемкими и трудоемкими. Чтобы решить эту проблему, авторы предлагают структуру, которая позволяет автономному генерации учебных данных с использованием маркированных изображений символов и цифрового шрифта, устраняя необходимость генерации ручного генерации данных. В своем подходе вместо использования фактического текста из образцов изображений в качестве наземной истины авторы генерируют произвольный и основанный на правилах «бессмысленный» текст как для изображения, так и для соответствующего текстового файла истины. Они также устанавливают корреляцию между сходством образцов персонажа в подмножестве и производительности классификации. Это позволяет им создавать подмножество подмножеств с верхним и нижним графиком для генерации модели, используя только предоставленные образцы изображений. Удивительно, но их выводы показывают, что использование большего количества обучающих образцов не обязательно улучшает производительность модели. Следовательно, они сосредоточены на случае использования только одного обучающего образца на персонажа. Обучив модель Tesseract с образцами, которые максимизируют метрику различий для каждого символа, авторы достигают частоты ошибок распознавания символов 15% на пользовательском эталонном эталоне латинских документов 15-го века. Напротив, когда традиционная модель в стиле Tesseract обучена с использованием синтетически сгенерированных обучающих изображений, полученных из реального текста, частота ошибок распознавания символов увеличивается до 27%. Эти результаты демонстрируют эффективность их подхода в создании данных обучающих данных и улучшении производительности OCR для исторических документов.

Koistinen et al. (2017) задокументировали усилия, предпринятые Национальной библиотекой Финляндии (NLF) по повышению качества OCR для их исторической финской коллекции газет, охватывающей годы с 1771 по 1910 год. Чтобы проанализировать эту коллекцию, была выбрана выборка из 500 000 слов из секции финского языка. Образец состоял из трех параллельных разделов: версия с исправленной истиной вручную, версию OCR, исправленная с использованием версии Abbyy Finereader, версии 7 или 8, а также версии Abbyy Finereader версии 11-REOC. Используя оригинальные изображения страниц и этот пример, исследователи разработали процедуру RepoCR, используя программную программу с открытым исходным кодом версии 3.04.01. Результаты показывают, что их метод превзошел производительность Abbyy Finereader 7 или 8 на 27,48 процентных пункта и Abbyy Finereader 11 на 9,16 процентных пункта. На уровне слов их метод превзошел Эбби Финореал 7 или 8 на 36,25 процента, а Эбби Финореал 11 на 20,14 процента. Результаты отзыва и точности для процесса повторного восстановления, измеренные на уровне слов, варьировались от 0,69 до 0,71, превзойдя предыдущий процесс OCR. Кроме того, другие метрики, такие как способность морфологического анализатора распознавать слова и скорость точности характера, продемонстрировали значительное улучшение после процесса повторного возрождения.

Reul et al. (2018) изучили эффективность OCR на сценариях Fraktur 19-го века с использованием смешанных моделей. Эти модели обучаются распознавать различные шрифты и наборы из ранее невидимых источников. В исследовании описывается процесс обучения, используемый для разработки надежных смешанных моделей OCR, и сравнивает их производительность с свободно доступными моделями из популярных двигателей с открытым исходным кодом, таких как Ocropus и Tesseract, а также к самой передовой коммерческой системе Abbyy. Чтобы оценить значительный объем неизвестной информации, исследователи использовали данные 19-го века, извлеченные из книг, журналов и словаря. Благодаря эксперименту они обнаружили, что объединение моделей с реальными данными дало лучшие результаты по сравнению с объединением моделей с синтетическими данными. Примечательно, что кальмары OCR Calamari продемонстрировали превосходную производительность по сравнению с другими оцениваемыми двигателями. Он достиг среднего CER менее 1 процента, что значительное улучшение по сравнению с CER, демонстрируемым Эбби.

Согласно Rommanello et al. (2021), комментарии были жизненно важным форматом публикации в литературных и текстовых исследованиях в течение более веков, наряду с критическими изданиями и переводами. Тем не менее, использование тысяч оцифрованных исторических комментариев, особенно тех, которые содержат греческий текст, было сложным из-за ограничений систем OCR с точки зрения некачественных результатов. В ответ на это исследователи стремились оценить эффективность двух алгоритмов OCR, специально предназначенных для исторических классических комментариев. Результаты их исследования показали, что комбинация алгоритмов Kraken и Ciaconna достигла значительно более низкого CER по сравнению с Tesseract/OCR-D (средний CER 7% против 13% для Tesseract/OCR-D) в разделах комментариев, содержащих высокие уровни политонического греческого текста. С другой стороны, в секциях преимущественно состоит из латинского сценария, Tesseract/OCR-D демонстрировала немного более высокую точность, чем Craken + Ciaconna (средний CER 8,2% против 8,2%). Кроме того, исследование выявило доступность двух ресурсов. Pogretra-это существенная коллекция учебных данных и предварительно обученных моделей, специально предназначенных для древнегреческих шрифтов. С другой стороны, GT4HistComment-это ограниченный набор данных, который предоставляет истину OCR, специально для классических комментариев 19-го века.

Согласно Skelbye и Dann'ells (2021), использование глубоких гибридных нейронных сетей CNN-LSTM оказалось эффективным в повышении точности моделей OCR для различных языков. В своем исследовании авторы специально изучили влияние этих сетей на точность OCR для шведских исторических газет. Используя кальмары с открытым исходным кодом OCR, они разработали смешанную гибридную модель CNN-LSTM, которая превзошла предыдущие модели при применении в шведских исторических газетах с периода между 1818 и 1848 годами. Благодаря их экспериментам с использованием швейца девятнадцатого века. производительность.

На основании Aula (2021), сканируемые документы могут содержать ухудшение, полученные с течением времени или в результате устаревших методов печати. Существует множество визуальных атрибутов, которые можно наблюдать в этих документах, таких как вариации в стиле и шрифте, разбитые символы, различные уровни интенсивности чернил, уровни шума и повреждения, вызванные складыванием или разрывом, среди прочего. Современные инструменты OCR являются неблагоприятными для многих из этих атрибутов, что приводит к неудачам в признании персонажей. Чтобы улучшить результат распознавания символов, они использовали методы обработки изображений. Кроме того, были проанализированы общие характеристики качества изображения отсканированных исторических документов с неопознаваемым текстом. Для целей данного исследования использовалось программное обеспечение OpenSource TessEract для оптического распознавания символов. Чтобы подготовить исторические документы для Tesseract, гауссовую фильтрацию с низкой частотой, метод оптимального порога OTSU и морфологические операции. Выход OCR был оценен на основе метода классификации точности и отзывов. Было обнаружено, что отзыв улучшился на 63 процентных пункта и точность на 18 процентных пунктов. Это исследование показало, что использование методов предварительной обработки изображения для улучшения читаемости исторических документов для использования инструментов OCR было эффективным.

According to Gilbey and Sch¨”onlieb (2021), it is noted that historical and contemporary printed documents often have extremely low resolutions, such as 60 dots per inch (dpi). While humans can still read these scans fairly easily, OCR systems encounter significant challenges. The prevailing approach involves employing a super-resolution reconstruction method to enhance the image, which is then fed into a standard OCR system along with an Приближение оригинального изображения высокого разрешения. Арт.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE