Обучение Tesseract для языков с низким разрешением

Обучение Tesseract для языков с низким разрешением

20 августа 2025 г.

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

  1. Связанная работа и 2,1 арабского/персидского

    2.2 Китайский/японский и 2,3 коптса

    2.4 Греческий

    2.5 латынь

    2.6 Tamizhi

  2. Метод и 3.1 Сбор данных

    3.2 Подготовка данных и 3.3 Предварительная обработка

    3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка

  3. Эксперименты, результаты и обсуждение и 4.1 обработанные данные

    4.2 Набор данных и 4.3 эксперименты

    4.4 Результаты и оценка

    4.5 Обсуждение

  4. Заключение

    5.1 Проблемы и ограничения

    Онлайн -ресурсы, подтверждения и ссылки

5 Заключение

Основная мотивация для этого исследования проистекает из значительного количества исторических документов, хранящихся в библиотеках, которые все еще необходимо обработать. Отсутствие возможностей обработки привело к изучению технологии OCR для курда, языка с низким ресурсом. Реализация OCR для извлечения текста из исторических документов на курдском языке значительно улучшит доступные ресурсы.

Было проведено обширные исследования для оценки существующих систем OCR для курдских и других языков по всему миру. Расследование было сосредоточено на предыдущей работе, точности и базовом

Figure 18: A sample page from the book titled ’Awreky Pashawa’ published in 1930 (Zheen Center for Documentation and Research)

Figure 19: Manual transcription of the page

Figure 20: The transcription generated by our model

Table 1: Summary of the dataset

Table 2: Ocreval result

технология. Было установлено, что Tesseract является подходящим вариантом для этого исследования.

После того, как технология была выявлена, были предприняты усилия по сбору цифровых копий исторических документов, напечатанных до 1950 года. Эта задача оказалась сложной задачей, так как определение документов и преобразование их в цифровой формат представлял дополнительные препятствия. К счастью, Центр документации и исследований в Цине в Сулеймании, который специализируется на архивировании исторических документов, предоставил несколько книг в виде цифровых копий.

После получения оцифрованных копий был создан набор данных для обучения модели Tesseract. Текстовые линии были извлечены со страниц, транскрибировались индивидуально и подвергались предварительной обработке для подготовки набора данных.

С набором данных из 1233 линий модель была обучена на основе арабской модели. После обучения производительность модели была оценена с использованием различных методов. Встроенный оценщик Tesseract LSTMEVAL показал CER 0,755%. Кроме того, Ocreval продемонстрировал среднюю точность характера 84,02%. Наконец, собственное веб-приложение было разработано для предоставления простого в использовании интерфейса для конечных пользователей, что позволило им взаимодействовать с моделью путем ввода изображения страницы и извлечения текста.

Эта модель может быть ценным инструментом для библиотек и центров, что позволяет им извлекать текст из исторических документов и эффективно выполнять дальнейшую обработку.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE