Почему ваши результаты Tesseract OCR отстой (и как быстро их исправить)

Почему ваши результаты Tesseract OCR отстой (и как быстро их исправить)

19 августа 2025 г.

Аннотация и 1. Введение

1.1 Печатная станка в Ираке и Иракском Курдистане

1.2 Проблемы в исторических документах

1.3 Курдский язык

  1. Связанная работа и 2,1 арабского/персидского

    2.2 Китайский/японский и 2,3 коптса

    2.4 Греческий

    2.5 латынь

    2.6 Tamizhi

  2. Метод и 3.1 Сбор данных

    3.2 Подготовка данных и 3.3 Предварительная обработка

    3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка

  3. Эксперименты, результаты и обсуждение и 4.1 обработанные данные

    4.2 Набор данных и 4.3 эксперименты

    4.4 Результаты и оценка

    4.5 Обсуждение

  4. Заключение

    5.1 Проблемы и ограничения

    Онлайн -ресурсы, подтверждения и ссылки

3 Метод

В этой главе представлен метод проведения этого исследования. Он объясняет сбор и подготовку данных, экспериментальную среду и ее конфигурации, а также оценку и оценку результатов.

3.1 Сбор данных

Мы собираем данные из разных публичных и частных библиотек с историческими документами. Мы сосредотачиваемся на предметах, опубликованных в начале и середине 1900-х годов, потому что первый печатный станок, найденный в Ираке, начиная с 1920-х годов в Сулаймании с помощью властей мандата. Это была старая ручная реакция под названием Chapkhanay Hukumat (правительственная пресса) (Hassanpour, 1992). Мы конвертируем документы в цифровые копии. Преобразование исторических документов в цифровые копии имеет много проблем, и один из них - физические проблемы. Физическая проблема с процессом включает в себя трудности от старения, деградации документов и несовершенных производственных процессов. Пятна, слезы и нерегулярное накопление грязи, в дополнение к артефактам, являются некоторые другие проблемы (Antonacopoulos et al., 2004).

3.2 Подготовка данных

Для оптимальной производительности Tesseract лучше всего подходит для изображений с разрешением не менее 300 DPI. Следовательно, изменение размера изображений для удовлетворения этого требования может быть полезным. Стоит отметить, что более ранние версии Tesseract (3.05 и раньше) могут обрабатывать перевернутые изображения, где фон темный, а текст - легкий, без проблем. Однако в версии 4.x рекомендуется использовать изображения с легким фоном и темным текстом для улучшения производительности (Google, 2023b).

3.3 Предварительная обработка

Перед проведением OCR Tesseract включает в себя различные операции обработки изображений с использованием библиотеки Leptonica. Leptonica-это свободно доступная библиотека с открытым исходным кодом, охватывающую программное обеспечение, подходящее для различных приложений обработки и анализа изображений. В большинстве случаев встроенная функциональность обработки изображений Tesseract эффективно подготовка к изображению для OCR. Тем не менее, могут быть случаи, когда необходимо дополнительное уточнение, что потенциально приводит к снижению точности. Чтобы соблюдать шаги обработки изображений, выполняемые Tesseract, пользователи могут включить переменную конфигурации, навязывающие изображения записи, и просмотреть обработанное изображение. Если результирующее изображение, по -видимому, имеет низкое качество, можно применить дополнительные операции обработки изображений, прежде чем подавать его в Tesseract для улучшения результатов (Google, 2023b).

• Инвертирующие изображения: в то время как предыдущие версии Tesseract (3.05 и ранее) могут обрабатывать инвертированные изображения (с темным фоном и световым текстом) без проблем, версия 4.x должна использовать темный фон и темный текст.

• Изменение: чтобы оптимизировать производительность Tesseract, рекомендуется изменение размера изображений на минимальный DPI 300.

• Бинаризация: этот процесс преобразует изображение в черно -белый. Tesseract Внутренне выполняет бинаризацию, используя алгоритм OTSU, но результат, возможно, потребуется улучшить, особенно если фон страницы имеет неровную тьму. Tesseract 5.0.0 представила адаптивные OTSU и Sauvola, два новых метода бинаризации на основе лептоники.

• Удаление шума: шум относится к непредсказуемым вариациям яркости или цвета изображения, которые могут препятствовать распознаванию текста. Tesseract не может устранить некоторые формы шума во время бинаризации, что может привести к снижению скорости точности.

• Дилатация и эрозия: символы с жирными или тонкими функциями, особенно символы с засечками, могут влиять на распознавание детализации и снизить точность. Распространение дилатации и эрозии могут быть применены для расширения или сокращения краев символов на общий фон. Эрозия может компенсировать утечку тяжелых чернил в исторических документах и восстановить персонажей в их оригинальной структуре глифа.

• Коррекция искажения: искаженные изображения могут негативно повлиять на сегментацию линии Tesseract и качество OCR. Вращение изображения, чтобы выровнять текстовые линии горизонтально, может исправить эту проблему.

• Границы:

- отсутствующие границы: OCR без границы может вызвать проблемы. Добавление незначительной границы (например, 10pt) с использованием таких инструментов, как ImageMagick, может помочь смягчить эту проблему.

- Большие границы: большие границы, особенно с одной буквой/цифрой или словом на значительном фоне, могут привести к проблемам («пустая страница»). Рекомендуется обрезать изображение, чтобы вписаться в текстовую область с границей не менее 10 пунктов.

- Сканирование границы: отсканированные документы часто имеют темные границы, которые можно ошибочно интерпретировать как дополнительные персонажи, особенно если они различаются по размеру, форме и цвету.

• Прозрачность / Альфа -канал: определенные форматы изображений, такие как PNG, могут включать альфа -канал для достижения прозрачности. Tesseract 4.00, используя функцию Leptonica pixremovealpha (), может удалить альфа -канал, объединив альфа -компонент с белым фоном. Тем не менее, этот процесс может привести к проблемам в конкретных сценариях, таких как выполнение OCR в субтитрах фильмов. Чтобы решить такие проблемы, пользователям может потребоваться вручную устранить альфа -канал или выполнить предварительную обработку изображения, инвертируя цвета.

3.3.1 Подготовка данных для Tesseract

Подготовка данных для Tesseract может быть выполнена двумя способами: генерация набора данных искусственно из текстовых файлов или вручную подготовить набор данных из строк изображений. Мы следуем последнему подходу. Для изображений они должны находиться в формате TIFF с расширением ".tif" или форматом PNG с расширениями ".png", ".bin.png" или ".nrm.png". Транскрипция нуждаются в простых текстовых файлах, содержащих одну строку текста. Они должны иметь то же имя, что и соответствующее изображение строки, но с расширением ».gt.txt», добавленным в расширение изображения.

3.4 Настройка среды

В настоящее время процесс обучения поддерживает Linux как операционную систему. При наличии многоядерной системы с внутренней поддержкой OpenMP и Intel для расширений SSE/AVX полезно, но не обязательно. Четыре ядра считаются оптимальными, но обучение все еще может работать на устройствах с достаточным количеством оперативной памяти, хотя и медленнее. Процесс обучения не требует графического процессора. Помимо операционной системы, необходимой для операционной системы, рекомендуется иметь не менее 1 ГБ дополнительной оперативной памяти. Использование памяти может регулироваться с использованием параметра командной строки «–max mb» (Google, 2023a).

3.5 Подготовка набора данных

Мы выбираем различные схемы для разделения данных на основе данных, которые мы собираем. Для обучения и оценки мы следуем методу, который предложил Idees (2020), но мы применяем его к версии Tesseract 5.

3.6 Оценка

Подобно подходу, который мы используем для подготовки наборов данных, мы следуем методу, который Idrees (2020) также предложил для оценки.

Авторы:

(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);

(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE