Почему исторические документы трудно оцифровать

Почему исторические документы трудно оцифровать

19 августа 2025 г.

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

  1. Связанная работа и 2,1 арабского/персидского

    2.2 Китайский/японский и 2,3 коптса

    2.4 Греческий

    2.5 латынь

    2.6 Tamizhi

  2. Метод и 3.1 Сбор данных

    3.2 Подготовка данных и 3.3 Предварительная обработка

    3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка

  3. Эксперименты, результаты и обсуждение и 4.1 обработанные данные

    4.2 Набор данных и 4.3 эксперименты

    4.4 Результаты и оценка

    4.5 Обсуждение

  4. Заключение

    5.1 Проблемы и ограничения

    Онлайн -ресурсы, подтверждения и ссылки

1.2 Проблемы в исторических документах

Крайне важно четко понимать дефекты и деградации в исторических документах. На рисунке 3 иллюстрируется общепринятые деградируемые документы этих дефектов.

Figure 3: Most frequently seen degraded defects in historical documents (Sulaiman et al., 2019)

1.2.1 Неровное освещение

Неровное освещение при оптической визуализации разлагает изображения световой микроскопии из -за уменьшения падающего света вдоль его пути, вызванного распространением частиц в среде. Это приводит к трудностям в анализе изображения документов, особенно в распознавании символов с использованием OCR. Фоновые объекты, флуоресцентные наложения и рассеяние света способствуют неровному освещению. Эта проблема негативно влияет на эффективное распознавание документов и может быть замечена в примерах исторических документов. Типичный процесс OCR преобразования изображений серого в двоичный и извлечение текста препятствует неровному освещению. На рисунке 4 показан пример неровного освещения в исторических документах.

Figure 4: Uneven illumination in handwritten historical document from Arabic databases (Sulaiman et al., 2019)

1.2.2 Контрастная вариация

Контраст относится к изменению яркости внутри изображения. В первую очередь он представляет различия между пикселями высокой интенсивности и низкой интенсивности или различиями между пикселями объектов и фоновыми пикселями. Такие факторы, как шум, солнечный свет, освещение и окклюзия, могут вызвать нелинейные и выразительные изменения в отличие от. Эти вариации создают проблемы для алгоритмов анализа изображений документов, особенно при применении традиционных методов, основанных на пороге, чтобы отличить текст переднего плана от фона в исторических и рукописных документах. Чтобы решить эту проблему, методы улучшения изображений могут быть использованы до бинаризации изображения. На рисунке 5 показан пример изменений контрастности в рукописных исторических документах.

Figure 5: Degraded document image showing variation of contrast (Sulaiman et al., 2019)

1.2.3

Продолжительность кровотечения, также известное как чернильное кровотечение, является явлением, когда чернила с одной стороны бумажного документа переворачивается на другую сторону, что делает текст неразборчивым. Это создает серьезную проблему в бинаризации документа, которая направлена на отделение текста переднего плана от фона. Исследователи, решающие эту проблему, столкнулись с двумя основными проблемами: ограниченный доступ к деградам с высоким разрешением и сложностью количественного анализа результатов восстановления без основных данных истины. Решения включают в себя генерирование разлагаемых изображений на основе известной истинности наземной истины или использования известных деградированных изображений в качестве ссылок. Анализ эффективности все еще может быть проведен путем оценки влияния восстановления на последующие процессы, такие как OCR. На рисунке 6 показан пример деградации на клещах.

Figure 6: Example of ink-bleed degradation in handwritten documents (Sulaiman et al., 2019)

1.2.4 выцветшие чернила или слабые символы

Существует большой интерес в оцифровке официальных организационных работ для исторических, общественных и политических целей. Тем не менее, в машине приводятся проблемы для признания. Интенсивность каждого символа может варьироваться по сравнению с окружающими глифами из -за таких факторов, как поразительная головка ключа пишущей машинки и сила, применяемая во время печати. Кроме того, многие документы в машине существуют только в виде углеродных копий, что приводит к размытому тексту из -за давления, необходимого для четких отпечатков как на оригинальной, так и на углеродной бумаге. Исторические машинописные документы также сталкиваются с такими проблемами, как старение, слезы, пятна, ржавчину, отверстия для ударов, распад и обесцвечивание. На рисунке 3 показаны случаи отсканированных исторических документов с ухудшением чернил.

Figure 7: Image showing faded degradation (Sulaiman et al., 2019)

1.2.5 Мазок или показывайте

После оцифровки документов возникают новые проблемы в форме шума и компонентов с низким разрешением, которые негативно влияют на визуальный вид документа. Исторические документы могут страдать от различных типов деградации, введенных с течением времени и с различными характеристиками. Одна выдающаяся проблема-показывать, где чернильные впечатления с одной стороны бумаги появляются с другой стороны, что затрудняет чтение документа. Методы восстановления необходимы для того, чтобы эти документы были легко читаемыми. Удаление выставки улучшает читабельность и сокращает время сжатия изображений, что позволяет быстрее загружать через Интернет. На рисунке 8 показан пример такой деградации.

Figure 8: Example showing degraded document with smear/show-through effects (Sulaiman et al., 2019)

1.2.6 Blur

Что касается деградации документов, в документах появляются два типа размытия: размытие движения и размытие. В целом, артефакты движения движения вызваны относительной скоростью между камерой и объектом или внезапным быстрым движением камеры. В отличие от этого, размытие за пределами фокуса происходит, когда свет не сходится на изображении. Чтобы решить проблему размытия, темы исследования в последнее время обратились к инструментам для оценки размытия на изображениях документов, чтобы выяснить точность OCR, следовательно, предоставив пользователю необходимый ответ пользователю, чтобы помочь им получить новые изображения в надежде получить лучшие результаты OCR. Некоторые случаи размытых проблем в деградированных документах отображаются на рисунке 9.

1.2.7 Тонкий или слабый текст

Исторические документы часто содержат тонкий или слабый текст, обычно написанный чернилами или краской. Со временем чернила, используемые в этих документах

Figure 9: Example showing degraded document with blurring effect (Sulaiman et al., 2019)

читать. Кроме того, использование низкокачественных чернил и бумаги может способствовать появлению тонкого или слабого текста, создавая проблемы для точного извлечения текста с помощью методов бинаризации. Недавние исследования в области доисторического анализа изображений документов были сосредоточены на решении этих проблем. Алгоритмы улучшения и бинаризации были разработаны для улучшения качества тонкого или слабого текста в исторических документах. Последующие фазы, такие как обнаружение агрегата, распознавание и сегментация страницы или строки, были созданы для обработки бинаризованных данных. На рисунке 10 показан пример тонкого или слабого текста.

Figure 10: Example showing thin or weak text from old document (Sulaiman et al., 2019)

1.2.8 Ухудшенные документы

Оригинальные документы на основе бумаги могут охватывать различные типы носителей (такие как чернила, графит и акварель) и форматы (такие как свернутые карты, электронные таблицы и книги записи). Эти документы имеют большое значение из -за их информационных, доказательных, ассоциативных и внутренних ценностей. Доказательственная ценность документа, особенно в исторических, юридических или научных контекстах, опирается на сохранение первоначального состояния средств массовой информации, субстрата, формата и изображений без существенных изменений или ухудшения. Тем не менее, документы могут столкнуться с ухудшением, потерей и повреждением не только через фактическое использование, но и из -за таких факторов, как плохое хранение, обработка, условия окружающей среды и неотъемлемая нестабильность. Факторы окружающей среды, особенно для изначально нестабильных документов, могут нанести серьезный ущерб и ухудшение. На рисунке 11 показан пример ухудшенного документа.

Figure 11: An example of deteriorated document (Sulaiman et al., 2019)

1.3 Курдский язык

Курдиш относится к различным диалектам в регионе, охватывая Иран, Ирак, Турция и Сирия. Тем не менее, курды проживали в дополнительных странах, включая Армению, Ливан, Египет и другие, в течение нескольких веков. Кроме того, они имеют существенные диаспоры сообщества в различных европейских странах и Северной Америке (Hassani et al., 2016). Точное количество ораторов для этого языка остается неопределенным, с различными отчетами, предполагаемыми населением от 19 до 28 миллионов (Hassani et al., 2016). Ученые часто описывают курдского как диалектный континуум, в котором языковая разборчивость может варьироваться в разных регионах. Как правило, курдский признан охватывает три основных диалекта: северный курдский (Курманджи), центральный курдиш (сорани) и южный курдский (Ахмади и др., 2022). Курдиш использует четыре различных сценария для письма, в том числе модифицированный персидский/арабский, латынь, yekgirtˆu (Unified) и кирилли. Популярность и использование этих сценариев варьируются в зависимости от географических и геополитических факторов (Hassani et al., 2016).

Сорани обычно пишется с использованием адаптированного персидского/арабского сценария с курсивным стилем, следуя направлению правого на лето (RTL). См. Рисунок 12 для арабских алфавитов, рис. 13 для перианского алфавита и рисунка 14 для курдского алфавитного персидского/арабского сценария. С другой стороны, Курманджи преимущественно использует латинский сценарий для письма, за исключением Курдистанского региона Ирака и курдских районов Сирии, где используется тот же сценарий, что и сорани (Idrees and Hassani, 2021).

Сорани в основном использует модифицированный персидский/арабский сценарий, в то время как Zazaki в основном использует латинский сценарий. Горани (хаврами), с другой стороны, в первую очередь написан в модифицированном персидском/арабском сценарии. Стоит отметить, что термин «в основном» используется, потому что существуют значительные исключения в использовании этих сценариев, особенно в отношении латинских и модифицированных персидских/арабских сценариев (Hassani et al., 2016).

Figure 12: Arabic alphabet

Figure 13: Persian alphabet

Остальная часть бумаги организована следующим образом. Раздел 2 рассматривает литературу OCR для исторических документов для разных языков. В разделе 3 представлен метод, которым следует исследование. Мы предоставляем результаты и обсуждаем результат в разделе 4. Наконец, раздел 5 завершает исследование, суммирует результаты и вводит возможности для будущей работы.

Figure 14: Kurdish alphabet

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE