hackernoon-top-story machine-learning ai-ocr-technology tesseract-5-ocr ocr-dataset-creation ai-for-historical-texts kurdish-cultural-history deep-learning-ocr-systems style-transfer-mapping

Может ли ИИ спасти столетия курдской истории?

19 августа 2025 г.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).

Таблица ссылок

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки

Абстрактный

В курдских библиотеках есть много исторических публикаций, которые были напечатаны в первые дни, когда печатные устройства были доставлены в Курдистан. Наличие хорошего распознавания оптического персонажа (OCR), чтобы помочь обработать эти публикации и внести свой вклад в ресурсы курдского языка, что имеет решающее значение, поскольку курдский язык считается языком с низким ресурсом. Текущие системы OCR не могут извлечь текст из исторических документов, так как у них есть много проблем, в том числе поврежденные, очень хрупкие, оставшееся на них много отметок, и часто написанные нестандартными шрифтами и многим другим. Это огромное препятствие при обработке этих документов, поскольку их обработка в настоящее время требует ручной печати, что очень много времени. В этом исследовании мы принимаем рамку OCR с открытым исходным кодом от Google, Tesseract версии 5.0, которая использовалась для извлечения текста для различных языков. В настоящее время нет общедоступного набора данных, и мы разработали свои собственные, собрав исторические документы из Центра документации и исследований Центра документов и исследований Zheen, которые были напечатаны до 1950 года и привели к набору данных из 1233 изображений линий с транскрипцией каждого из них. Затем мы использовали арабскую модель в качестве базовой модели и обучили модель, используя набор данных. Мы использовали различные методы для оценки нашей модели, встроенный оценщик Tesseract LSTMEVAL указывал на частоту ошибок символа (CER) 0,755%. Кроме того, Ocreval продемонстрировал среднюю точность характера 84,02%. Наконец, мы разработали веб-приложение для предоставления простого интерфейса для конечных пользователей, позволяя им взаимодействовать с моделью, введя изображение страницы и извлекая текст. Наличие обширного набора данных имеет решающее значение для разработки систем OCR с разумной точностью, так как в настоящее время для исторических курдских документов нет публичных наборов данных; Это стало серьезной проблемой в нашей работе. Кроме того, невыполненные пространства между персонажами и словами оказались еще одной проблемой с нашей работой.

1 Введение

На протяжении веков человеческий опыт создал бесценные сокровища в форме исторических документов. Из -за большого количества работы, необходимой для ручной аннотации и транскрипции исторических документов, многие архивы исторических документов остаются недоступными (Ataer and Duygulu, 2007). Благодаря оцифровке эти документы могут быть поняты и защищены эффективно и эффективно. В этом процессе фактические документы систематически преобразуются в цифровые записи на основе точного распознавания символов в исходном документе (Yang et al., 2018). Из -за спроса на поддержание и предоставление исторических документов для исследований без повреждения физических копий, многие языки и регионы начали практиковать и изучать оцифровку и сохранение цифрового воспроизведения исторических документов (Nguyen et al., 2017). Согласно Poncelas et al. (2020), Создание оптического распознавания символов (OCR), которое распознает и извлекает текст из исторических документов, является сложной задачей, и некоторые уникальные наборы проблем могут повлиять на результат модели. Неспособность шрифта и изображения плохой качества являются некоторыми примерами проблем. Рисунок 1 представляет собой образец страницы с этими проблемами. В результате этих проблем большинство передовых систем OCR производят ошибки, поэтому исследователи продолжают свои усилия по поиску новых методов для улучшения двигателей OCR для получения лучшей производительности.

Figure 1: A sample page from the book titled ’Deste Gullˆı Lawane’ published in 1939 (Zheen Center for Documentation and Research).

Первоначально исторические документы были кропотливо созданы вручную, что привело к их ограниченной доступности и ограниченному распределению. Тем не менее, введение типографии Йоханнеса Гутенберга в 1436 году в Германии стало значительной вехой. Печатная станка, механическое устройство, предназначенное для печати большого объема публикаций, произвели революцию в производстве исторических документов. Этот аппарат применяет давление на чернильную поверхность, как показано на рисунке ??. Печатная пресса широко признана одним из самых замечательных достижений в истории, способствуя широко распространенному распространению и сохранению знаний (Qania, 2012).

Что касается истории курдской прессы, то это около одного столетия, и устройства, используемые для печати, сильно отличались от того, что мы имеем сегодня. Устройства претерпели много изменений и улучшений, пока мы не достигли того, что имеем сегодня.

Публикации, напечатанные в печатном прессе, имеют различные проблемы. Одним из них является отсутствие стандартного шрифта для письма, использование многих арабских стилей, и, кроме того, все книги должны быть в лучшей форме, поскольку они очень хрупкие и поврежденные, и на них много заметных отметок.

Несколько систем OCR в настоящее время поддерживают курдский язык, например, Idrees и Hassani (2021). Тем не менее, они не могут распознать эти старые публикации из -за вышеупомянутых вопросов. Что касается старых публикаций, то некоторые произведения были сделаны для других языков, через которые мы проходим в главе обзора литературы.

Это исследование фокусируется на улучшении существующей системы OCR для курдского языка, чтобы мы могли распознать и извлекать текст из исторических курдских документов, что готовит связанные документы для дальнейшей обработки.

Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.

Оригинал

Может ли ИИ спасти столетия курдской истории?

Таблица ссылок

Абстрактный

1 Введение

Recent Post

Когда ИИ становится посредником в семейных спорах о наследстве

Главный бюллетень Hackernoon: может ли ИИ спасти столетия курдской истории? (19.08.2025)

Конец общей аннотации в здравоохранении: визуализация сердца показывает, почему

Действительно ли запрет крипто банкоматов о защите людей - или защите банков?

5 Рабочие процессы агента AI для повторяемого успеха (включен код)

Categories