Обучение Tesseract OCR по курдским историческим документам
19 августа 2025 г.Таблица ссылок
Аннотация и 1. Введение
1.1 Печатная станка в Ираке и Иракском Курдистане
1.2 Проблемы в исторических документах
1.3 Курдский язык
Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки
4 Эксперименты, результаты и обсуждение
Первоначально мы собрали некоторые исторические публикации из публичной библиотеки Zaytoon в Эрбиле. Однако из -за хрупкого состояния документов было нелегко перевести их в цифровой формат. Затем, через Интернет, мы обнаружили, что Центр документов и исследований в Центре документов и исследований в Sulaymaniyahn https://zheen.org, учреждение, специализирующееся на сканировании и архивировании исторических документов с использованием уникальных технологий, явно разработанных для этой функции. Посетив их и объяснив наш проект, они согласились предоставить нам цифровые копии самых ранних курдских публикаций, которые они имели в своей коллекции.
4.1 Обработанные данные
Для обработки задач обработки изображений мы использовали выделенный инструмент обработки пакетов, который был свободно доступен. С помощью этого инструмента мы загрузили изображения и применили процесс Depkewing, чтобы исправить любой агрегат, присутствующий на изображениях. Мы также выполнили автоматическое обрезку и преобразовали изображения в двоичный формат, сохранив их в указанном каталоге назначения.
4.2 Набор данных
Получив исторические документы от Центра документации и исследований в Центре документов и исследований в цифровом формате, мы преобразовали страницы в однострочные изображения с уважаемой транскрипцией для линии. Мы использовали приложение обработки изображений для линий обрезков и сохранили их в формате TIFF.
После преобразования страниц в строки изображений (см. Рисунок 16) мы создали файлы транскрипции для каждой строки изображений, используя программу редактирования текста, вручную печатая то, что написано на изображениях.

Мы назвали файлы транскрипции то же имя, что и строка изображения с (.gt.txt) Postfix (см. Рисунок 17).
Таким образом, был создан набор данных для обучения Tesseract, который привел к 1233 файлам. Половина - линии изображений, а другой - файлы транскрипции (см. Таблицу 1).
4.3 Эксперименты
В этом разделе мы предоставляем подробную информацию о шагах, предпринятых для подготовки нашей среды, процесса обучения модели и других соответствующих аспектов.
4.3.1 Настройка среды
Для этой учебной среды мы использовали Ubuntu 22.04.2 LTS (Jammy Jellyfish). Мы клонировали Tessstrain от https://github.com/tesseract-ocr/tessstrain, и мы обучили модель, используя наш подготовленный набор данных.
Авторы:
(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);
(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).
Эта статья есть
Оригинал