Создание систем OCR для тамижи и курдских исторических документов

Создание систем OCR для тамижи и курдских исторических документов

19 августа 2025 г.

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

  1. Связанная работа и 2,1 арабского/персидского

    2.2 Китайский/японский и 2,3 коптса

    2.4 Греческий

    2.5 латынь

    2.6 Tamizhi

  2. Метод и 3.1 Сбор данных

    3.2 Подготовка данных и 3.3 Предварительная обработка

    3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка

  3. Эксперименты, результаты и обсуждение и 4.1 обработанные данные

    4.2 Набор данных и 4.3 эксперименты

    4.4 Результаты и оценка

    4.5 Обсуждение

  4. Заключение

    5.1 Проблемы и ограничения

    Онлайн -ресурсы, подтверждения и ссылки

2.6 Tamizhi

Основываясь на Munivel и Enigo (2022), оцифровка документов из древней истории обычно включает в себя OCR. Тем не менее, OCR для документов Tamizhi представляет собой значительные проблемы из -за неотъемлемых сходств по форме и структуре среди многих символов, наряду с их тонкими вариациями. Сценарий Тамижи, также известный как Тамил-брахми, служит предшественником многочисленных современных индийских сценариев и признан одним из старейших сценариев в Индии. Разработка системы OCR для сценария Tamizhi является исключительно сложной из -за изобилия комбинированных символов, где персонаж может состоять из одного гласного, согласного или комбинации обоих. В своем исследовательском документе авторы обсуждают свои усилия по созданию системы OCR, специально разработанной для печатных документов Tamizhi. Система стремится эффективно выполнять, несмотря на различные факторы, в том числе плохое качество документов, наличие шума и разнообразные форматы входных данных. Авторы сообщают, что их Tamizhi OCR достигает точного уровня 91,12 процента для печатного текста, демонстрируя многообещающие результаты при распознавании символов тамижи.

Подводя итог, мы можем упомянуть, что вплоть до того времени, когда мы публикуем это исследование, литература не сообщает о каких -либо усилиях, предпринятых для конкретного разработки OCR для исторических курдских документов. Также в настоящее время доступный набор данных не доступен для обучения систем OCR, которые специально предназначены для извлечения текста из исторических курдских документов. Это значительно ограничивает наши варианты, когда речь идет о выборе наиболее подходящего подхода для нашего исследования.

Чтобы разработать систему OCR, специально предназначенную для исторических документов, исследователи использовали различные методы и стратегии, такие как SVM, LSTM и CNN. Изменчивость полученных результатов, которые достигли максимум 99,7% CLA, может быть связана с несколькими способствующими факторами. Эти факторы включают качество используемого набора данных, конкретную методологию, используемую во время разработки системы OCR, и внутреннюю сложность обрабатываемых документов.

Исследования, которые были рассмотрены в этой главе, использовались как частные наборы данных, которые были созданы самими исследователями и общедоступными наборами данных. Эти наборы данных включают TWDB, HWDB, GT4HISTOCR, Archive Stockholm, Dunhuang Data, Tripitaka, TKH, Mth и Kana-Prmu. Согласно литературе в этой области, существуют постоянные усилия по улучшению методов OCR для различных видов исторических документов.

Основываясь на нашем исследовании, мы определили, что LSTM является широко принятым подходом для разработки систем OCR с приемлемой точностью. В результате мы использовали последнюю версию Tesseract, которая интегрирует функциональность LSTM, чтобы обеспечить оптимальную эффективность в нашем исследовании проекта. Кроме того, мы обнаружили доступность предварительно обученных моделей, которые можно использовать для точной настройки в нашем наборе данных. Признавая сходство между курдскими и арабскими сценариями, мы приняли решение использовать арабскую предварительно обученную модель в качестве нашей базовой модели.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE