
Может ли ИИ спасти столетия курдской истории?
19 августа 2025 г.Авторы:
(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);
(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).
Таблица ссылок
Аннотация и 1. Введение
1.1 Печатная станка в Ираке и Иракском Курдистане
1.2 Проблемы в исторических документах
1.3 Курдский язык
Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки
Абстрактный
В курдских библиотеках есть много исторических публикаций, которые были напечатаны в первые дни, когда печатные устройства были доставлены в Курдистан. Наличие хорошего распознавания оптического персонажа (OCR), чтобы помочь обработать эти публикации и внести свой вклад в ресурсы курдского языка, что имеет решающее значение, поскольку курдский язык считается языком с низким ресурсом. Текущие системы OCR не могут извлечь текст из исторических документов, так как у них есть много проблем, в том числе поврежденные, очень хрупкие, оставшееся на них много отметок, и часто написанные нестандартными шрифтами и многим другим. Это огромное препятствие при обработке этих документов, поскольку их обработка в настоящее время требует ручной печати, что очень много времени. В этом исследовании мы принимаем рамку OCR с открытым исходным кодом от Google, Tesseract версии 5.0, которая использовалась для извлечения текста для различных языков. В настоящее время нет общедоступного набора данных, и мы разработали свои собственные, собрав исторические документы из Центра документации и исследований Центра документов и исследований Zheen, которые были напечатаны до 1950 года и привели к набору данных из 1233 изображений линий с транскрипцией каждого из них. Затем мы использовали арабскую модель в качестве базовой модели и обучили модель, используя набор данных. Мы использовали различные методы для оценки нашей модели, встроенный оценщик Tesseract LSTMEVAL указывал на частоту ошибок символа (CER) 0,755%. Кроме того, Ocreval продемонстрировал среднюю точность характера 84,02%. Наконец, мы разработали веб-приложение для предоставления простого интерфейса для конечных пользователей, позволяя им взаимодействовать с моделью, введя изображение страницы и извлекая текст. Наличие обширного набора данных имеет решающее значение для разработки систем OCR с разумной точностью, так как в настоящее время для исторических курдских документов нет публичных наборов данных; Это стало серьезной проблемой в нашей работе. Кроме того, невыполненные пространства между персонажами и словами оказались еще одной проблемой с нашей работой.
1 Введение
На протяжении веков человеческий опыт создал бесценные сокровища в форме исторических документов. Из -за большого количества работы, необходимой для ручной аннотации и транскрипции исторических документов, многие архивы исторических документов остаются недоступными (Ataer and Duygulu, 2007). Благодаря оцифровке эти документы могут быть поняты и защищены эффективно и эффективно. В этом процессе фактические документы систематически преобразуются в цифровые записи на основе точного распознавания символов в исходном документе (Yang et al., 2018). Из -за спроса на поддержание и предоставление исторических документов для исследований без повреждения физических копий, многие языки и регионы начали практиковать и изучать оцифровку и сохранение цифрового воспроизведения исторических документов (Nguyen et al., 2017). Согласно Poncelas et al. (2020), Создание оптического распознавания символов (OCR), которое распознает и извлекает текст из исторических документов, является сложной задачей, и некоторые уникальные наборы проблем могут повлиять на результат модели. Неспособность шрифта и изображения плохой качества являются некоторыми примерами проблем. Рисунок 1 представляет собой образец страницы с этими проблемами. В результате этих проблем большинство передовых систем OCR производят ошибки, поэтому исследователи продолжают свои усилия по поиску новых методов для улучшения двигателей OCR для получения лучшей производительности.
Первоначально исторические документы были кропотливо созданы вручную, что привело к их ограниченной доступности и ограниченному распределению. Тем не менее, введение типографии Йоханнеса Гутенберга в 1436 году в Германии стало значительной вехой. Печатная станка, механическое устройство, предназначенное для печати большого объема публикаций, произвели революцию в производстве исторических документов. Этот аппарат применяет давление на чернильную поверхность, как показано на рисунке ??. Печатная пресса широко признана одним из самых замечательных достижений в истории, способствуя широко распространенному распространению и сохранению знаний (Qania, 2012).
Что касается истории курдской прессы, то это около одного столетия, и устройства, используемые для печати, сильно отличались от того, что мы имеем сегодня. Устройства претерпели много изменений и улучшений, пока мы не достигли того, что имеем сегодня.
Публикации, напечатанные в печатном прессе, имеют различные проблемы. Одним из них является отсутствие стандартного шрифта для письма, использование многих арабских стилей, и, кроме того, все книги должны быть в лучшей форме, поскольку они очень хрупкие и поврежденные, и на них много заметных отметок.
Несколько систем OCR в настоящее время поддерживают курдский язык, например, Idrees и Hassani (2021). Тем не менее, они не могут распознать эти старые публикации из -за вышеупомянутых вопросов. Что касается старых публикаций, то некоторые произведения были сделаны для других языков, через которые мы проходим в главе обзора литературы.
Это исследование фокусируется на улучшении существующей системы OCR для курдского языка, чтобы мы могли распознать и извлекать текст из исторических курдских документов, что готовит связанные документы для дальнейшей обработки.
Эта статья есть
Оригинал