Обучение Tesseract OCR по курдским историческим документам

Обучение Tesseract OCR по курдским историческим документам

19 августа 2025 г.

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

  1. Связанная работа и 2,1 арабского/персидского

    2.2 Китайский/японский и 2,3 коптса

    2.4 Греческий

    2.5 латынь

    2.6 Tamizhi

  2. Метод и 3.1 Сбор данных

    3.2 Подготовка данных и 3.3 Предварительная обработка

    3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка

  3. Эксперименты, результаты и обсуждение и 4.1 обработанные данные

    4.2 Набор данных и 4.3 эксперименты

    4.4 Результаты и оценка

    4.5 Обсуждение

  4. Заключение

    5.1 Проблемы и ограничения

    Онлайн -ресурсы, подтверждения и ссылки

4 Эксперименты, результаты и обсуждение

Первоначально мы собрали некоторые исторические публикации из публичной библиотеки Zaytoon в Эрбиле. Однако из -за хрупкого состояния документов было нелегко перевести их в цифровой формат. Затем, через Интернет, мы обнаружили, что Центр документов и исследований в Центре документов и исследований в Sulaymaniyahn https://zheen.org, учреждение, специализирующееся на сканировании и архивировании исторических документов с использованием уникальных технологий, явно разработанных для этой функции. Посетив их и объяснив наш проект, они согласились предоставить нам цифровые копии самых ранних курдских публикаций, которые они имели в своей коллекции.

4.1 Обработанные данные

Для обработки задач обработки изображений мы использовали выделенный инструмент обработки пакетов, который был свободно доступен. С помощью этого инструмента мы загрузили изображения и применили процесс Depkewing, чтобы исправить любой агрегат, присутствующий на изображениях. Мы также выполнили автоматическое обрезку и преобразовали изображения в двоичный формат, сохранив их в указанном каталоге назначения.

4.2 Набор данных

Получив исторические документы от Центра документации и исследований в Центре документов и исследований в цифровом формате, мы преобразовали страницы в однострочные изображения с уважаемой транскрипцией для линии. Мы использовали приложение обработки изображений для линий обрезков и сохранили их в формате TIFF.

После преобразования страниц в строки изображений (см. Рисунок 16) мы создали файлы транскрипции для каждой строки изображений, используя программу редактирования текста, вручную печатая то, что написано на изображениях.

Figure 15: Sample page in the book titled ’Awat’ published in 1938 (Zheen Center for Documentation and Research)

Мы назвали файлы транскрипции то же имя, что и строка изображения с (.gt.txt) Postfix (см. Рисунок 17).

Таким образом, был создан набор данных для обучения Tesseract, который привел к 1233 файлам. Половина - линии изображений, а другой - файлы транскрипции (см. Таблицу 1).

4.3 Эксперименты

В этом разделе мы предоставляем подробную информацию о шагах, предпринятых для подготовки нашей среды, процесса обучения модели и других соответствующих аспектов.

4.3.1 Настройка среды

Для этой учебной среды мы использовали Ubuntu 22.04.2 LTS (Jammy Jellyfish). Мы клонировали Tessstrain от https://github.com/tesseract-ocr/tessstrain, и мы обучили модель, используя наш подготовленный набор данных.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE