Обучение Tesseract OCR по курдским историческим документам

19 августа 2025 г.

Таблица ссылок

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки

4 Эксперименты, результаты и обсуждение

Первоначально мы собрали некоторые исторические публикации из публичной библиотеки Zaytoon в Эрбиле. Однако из -за хрупкого состояния документов было нелегко перевести их в цифровой формат. Затем, через Интернет, мы обнаружили, что Центр документов и исследований в Центре документов и исследований в Sulaymaniyahn https://zheen.org, учреждение, специализирующееся на сканировании и архивировании исторических документов с использованием уникальных технологий, явно разработанных для этой функции. Посетив их и объяснив наш проект, они согласились предоставить нам цифровые копии самых ранних курдских публикаций, которые они имели в своей коллекции.

4.1 Обработанные данные

Для обработки задач обработки изображений мы использовали выделенный инструмент обработки пакетов, который был свободно доступен. С помощью этого инструмента мы загрузили изображения и применили процесс Depkewing, чтобы исправить любой агрегат, присутствующий на изображениях. Мы также выполнили автоматическое обрезку и преобразовали изображения в двоичный формат, сохранив их в указанном каталоге назначения.

4.2 Набор данных

Получив исторические документы от Центра документации и исследований в Центре документов и исследований в цифровом формате, мы преобразовали страницы в однострочные изображения с уважаемой транскрипцией для линии. Мы использовали приложение обработки изображений для линий обрезков и сохранили их в формате TIFF.

После преобразования страниц в строки изображений (см. Рисунок 16) мы создали файлы транскрипции для каждой строки изображений, используя программу редактирования текста, вручную печатая то, что написано на изображениях.

Figure 15: Sample page in the book titled ’Awat’ published in 1938 (Zheen Center for Documentation and Research)

Мы назвали файлы транскрипции то же имя, что и строка изображения с (.gt.txt) Postfix (см. Рисунок 17).

Таким образом, был создан набор данных для обучения Tesseract, который привел к 1233 файлам. Половина - линии изображений, а другой - файлы транскрипции (см. Таблицу 1).

4.3 Эксперименты

В этом разделе мы предоставляем подробную информацию о шагах, предпринятых для подготовки нашей среды, процесса обучения модели и других соответствующих аспектов.

4.3.1 Настройка среды

Для этой учебной среды мы использовали Ubuntu 22.04.2 LTS (Jammy Jellyfish). Мы клонировали Tessstrain от https://github.com/tesseract-ocr/tessstrain, и мы обучили модель, используя наш подготовленный набор данных.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).

Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.

Оригинал

Обучение Tesseract OCR по курдским историческим документам

Таблица ссылок

4 Эксперименты, результаты и обсуждение

4.1 Обработанные данные

4.2 Набор данных

4.3 Эксперименты

🔥 Популярное на этой неделе

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories