
Почему исторические документы трудно оцифровать
19 августа 2025 г.Таблица ссылок
Аннотация и 1. Введение
1.1 Печатная станка в Ираке и Иракском Курдистане
1.2 Проблемы в исторических документах
1.3 Курдский язык
Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки
1.2 Проблемы в исторических документах
Крайне важно четко понимать дефекты и деградации в исторических документах. На рисунке 3 иллюстрируется общепринятые деградируемые документы этих дефектов.
1.2.1 Неровное освещение
Неровное освещение при оптической визуализации разлагает изображения световой микроскопии из -за уменьшения падающего света вдоль его пути, вызванного распространением частиц в среде. Это приводит к трудностям в анализе изображения документов, особенно в распознавании символов с использованием OCR. Фоновые объекты, флуоресцентные наложения и рассеяние света способствуют неровному освещению. Эта проблема негативно влияет на эффективное распознавание документов и может быть замечена в примерах исторических документов. Типичный процесс OCR преобразования изображений серого в двоичный и извлечение текста препятствует неровному освещению. На рисунке 4 показан пример неровного освещения в исторических документах.
1.2.2 Контрастная вариация
Контраст относится к изменению яркости внутри изображения. В первую очередь он представляет различия между пикселями высокой интенсивности и низкой интенсивности или различиями между пикселями объектов и фоновыми пикселями. Такие факторы, как шум, солнечный свет, освещение и окклюзия, могут вызвать нелинейные и выразительные изменения в отличие от. Эти вариации создают проблемы для алгоритмов анализа изображений документов, особенно при применении традиционных методов, основанных на пороге, чтобы отличить текст переднего плана от фона в исторических и рукописных документах. Чтобы решить эту проблему, методы улучшения изображений могут быть использованы до бинаризации изображения. На рисунке 5 показан пример изменений контрастности в рукописных исторических документах.
1.2.3
Продолжительность кровотечения, также известное как чернильное кровотечение, является явлением, когда чернила с одной стороны бумажного документа переворачивается на другую сторону, что делает текст неразборчивым. Это создает серьезную проблему в бинаризации документа, которая направлена на отделение текста переднего плана от фона. Исследователи, решающие эту проблему, столкнулись с двумя основными проблемами: ограниченный доступ к деградам с высоким разрешением и сложностью количественного анализа результатов восстановления без основных данных истины. Решения включают в себя генерирование разлагаемых изображений на основе известной истинности наземной истины или использования известных деградированных изображений в качестве ссылок. Анализ эффективности все еще может быть проведен путем оценки влияния восстановления на последующие процессы, такие как OCR. На рисунке 6 показан пример деградации на клещах.
1.2.4 выцветшие чернила или слабые символы
Существует большой интерес в оцифровке официальных организационных работ для исторических, общественных и политических целей. Тем не менее, в машине приводятся проблемы для признания. Интенсивность каждого символа может варьироваться по сравнению с окружающими глифами из -за таких факторов, как поразительная головка ключа пишущей машинки и сила, применяемая во время печати. Кроме того, многие документы в машине существуют только в виде углеродных копий, что приводит к размытому тексту из -за давления, необходимого для четких отпечатков как на оригинальной, так и на углеродной бумаге. Исторические машинописные документы также сталкиваются с такими проблемами, как старение, слезы, пятна, ржавчину, отверстия для ударов, распад и обесцвечивание. На рисунке 3 показаны случаи отсканированных исторических документов с ухудшением чернил.
1.2.5 Мазок или показывайте
После оцифровки документов возникают новые проблемы в форме шума и компонентов с низким разрешением, которые негативно влияют на визуальный вид документа. Исторические документы могут страдать от различных типов деградации, введенных с течением времени и с различными характеристиками. Одна выдающаяся проблема-показывать, где чернильные впечатления с одной стороны бумаги появляются с другой стороны, что затрудняет чтение документа. Методы восстановления необходимы для того, чтобы эти документы были легко читаемыми. Удаление выставки улучшает читабельность и сокращает время сжатия изображений, что позволяет быстрее загружать через Интернет. На рисунке 8 показан пример такой деградации.
1.2.6 Blur
Что касается деградации документов, в документах появляются два типа размытия: размытие движения и размытие. В целом, артефакты движения движения вызваны относительной скоростью между камерой и объектом или внезапным быстрым движением камеры. В отличие от этого, размытие за пределами фокуса происходит, когда свет не сходится на изображении. Чтобы решить проблему размытия, темы исследования в последнее время обратились к инструментам для оценки размытия на изображениях документов, чтобы выяснить точность OCR, следовательно, предоставив пользователю необходимый ответ пользователю, чтобы помочь им получить новые изображения в надежде получить лучшие результаты OCR. Некоторые случаи размытых проблем в деградированных документах отображаются на рисунке 9.
1.2.7 Тонкий или слабый текст
Исторические документы часто содержат тонкий или слабый текст, обычно написанный чернилами или краской. Со временем чернила, используемые в этих документах
читать. Кроме того, использование низкокачественных чернил и бумаги может способствовать появлению тонкого или слабого текста, создавая проблемы для точного извлечения текста с помощью методов бинаризации. Недавние исследования в области доисторического анализа изображений документов были сосредоточены на решении этих проблем. Алгоритмы улучшения и бинаризации были разработаны для улучшения качества тонкого или слабого текста в исторических документах. Последующие фазы, такие как обнаружение агрегата, распознавание и сегментация страницы или строки, были созданы для обработки бинаризованных данных. На рисунке 10 показан пример тонкого или слабого текста.
1.2.8 Ухудшенные документы
Оригинальные документы на основе бумаги могут охватывать различные типы носителей (такие как чернила, графит и акварель) и форматы (такие как свернутые карты, электронные таблицы и книги записи). Эти документы имеют большое значение из -за их информационных, доказательных, ассоциативных и внутренних ценностей. Доказательственная ценность документа, особенно в исторических, юридических или научных контекстах, опирается на сохранение первоначального состояния средств массовой информации, субстрата, формата и изображений без существенных изменений или ухудшения. Тем не менее, документы могут столкнуться с ухудшением, потерей и повреждением не только через фактическое использование, но и из -за таких факторов, как плохое хранение, обработка, условия окружающей среды и неотъемлемая нестабильность. Факторы окружающей среды, особенно для изначально нестабильных документов, могут нанести серьезный ущерб и ухудшение. На рисунке 11 показан пример ухудшенного документа.
1.3 Курдский язык
Курдиш относится к различным диалектам в регионе, охватывая Иран, Ирак, Турция и Сирия. Тем не менее, курды проживали в дополнительных странах, включая Армению, Ливан, Египет и другие, в течение нескольких веков. Кроме того, они имеют существенные диаспоры сообщества в различных европейских странах и Северной Америке (Hassani et al., 2016). Точное количество ораторов для этого языка остается неопределенным, с различными отчетами, предполагаемыми населением от 19 до 28 миллионов (Hassani et al., 2016). Ученые часто описывают курдского как диалектный континуум, в котором языковая разборчивость может варьироваться в разных регионах. Как правило, курдский признан охватывает три основных диалекта: северный курдский (Курманджи), центральный курдиш (сорани) и южный курдский (Ахмади и др., 2022). Курдиш использует четыре различных сценария для письма, в том числе модифицированный персидский/арабский, латынь, yekgirtˆu (Unified) и кирилли. Популярность и использование этих сценариев варьируются в зависимости от географических и геополитических факторов (Hassani et al., 2016).
Сорани обычно пишется с использованием адаптированного персидского/арабского сценария с курсивным стилем, следуя направлению правого на лето (RTL). См. Рисунок 12 для арабских алфавитов, рис. 13 для перианского алфавита и рисунка 14 для курдского алфавитного персидского/арабского сценария. С другой стороны, Курманджи преимущественно использует латинский сценарий для письма, за исключением Курдистанского региона Ирака и курдских районов Сирии, где используется тот же сценарий, что и сорани (Idrees and Hassani, 2021).
Сорани в основном использует модифицированный персидский/арабский сценарий, в то время как Zazaki в основном использует латинский сценарий. Горани (хаврами), с другой стороны, в первую очередь написан в модифицированном персидском/арабском сценарии. Стоит отметить, что термин «в основном» используется, потому что существуют значительные исключения в использовании этих сценариев, особенно в отношении латинских и модифицированных персидских/арабских сценариев (Hassani et al., 2016).
Остальная часть бумаги организована следующим образом. Раздел 2 рассматривает литературу OCR для исторических документов для разных языков. В разделе 3 представлен метод, которым следует исследование. Мы предоставляем результаты и обсуждаем результат в разделе 4. Наконец, раздел 5 завершает исследование, суммирует результаты и вводит возможности для будущей работы.
Авторы:
(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);
(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).
Эта статья есть
Оригинал