
Достижения в OCR для исторических китайских, японских, коптских и греческих текстов
19 августа 2025 г.Таблица ссылок
Аннотация и 1. Введение
1.1 Печатная станка в Ираке и Иракском Курдистане
1.2 Проблемы в исторических документах
1.3 Курдский язык
Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки
2.2 Китайский/Японский
Исторические китайские иероглифы стали одной из величайших проблем в распознавании образцов в прошлом. Это связано с их большим набором персонажей и различными стилями письма. Чтобы решить эту проблему Li et al. (2014) предложили метод распознавания исторических китайских иероглифов путем включения STM в классификатор MQDF. Эксперимент был проведен на исторических документах из Дунхуанга и традиционных китайских шрифтов. Оптимальный выбор параметров был выбран после тестирования множества различных параметров. Они провели два отдельных набора экспериментов. Эксперимент с использованием печатных традиционных китайских персонажей был проведен в рамках первого набора экспериментов. Для второго эксперимента образцы, взятые из исторических китайских документов, использовались для выполнения экспериментов. Кроме того, метод может быть улучшен путем введения нелинейной передачи и интеграции его с другими подходами. Кроме того, система была протестирована с различными функциями и классификаторами. Результаты экспериментов показывают, что контролируемые ЗППП могут улучшить обобщение классификаторов. В результате результатов частота ошибок была снижена на значительное количество, а метод показал значительный потенциал. Например, можно снизить частоту ошибок одного из протестированных документов на 60%, отметив только 10% образцов с метками.
Отсутствие помеченных образцов обучения делает признание исторических китайских иероглифов очень сложными. Поэтому Feng et al. (2015) предложили модель нелинейного отображения переноса стиля (STM), основанную на гауссовом процессе (GP-STM), которая расширяет традиционную линейную модель STM. Используя GP-STM, существующие печатные образцы китайских иероглифы использовались для распознавания исторических китайских иероглиф. Чтобы подготовить структуру GP-STM, исследователи сравнили ряд методов для извлечения функций, обучил модифицированный классификатор квадратичной дискриминантной функции (MQDF) на примерах китайских иелок, напечатанных на бумаге, а затем применил модель к историческим документам из Дунхуанга. Было измерено влияние различных ядер и параметров, в дополнение к воздействию количества обучающих образцов. В экспериментах результаты показывают, что GP-STM способен достичь точности 57,5%, улучшение более 8% по сравнению с STM.
Трудно распознавать китайских иероглифы непосредственно, используя классические методы, когда они появляются в исторических документах, поскольку их можно классифицировать на более чем 8000 различных категорий. Из-за отсутствия хорошо меченных данных методы, основанные на глубоком обучении, не могут их распознать. Авторы Yang et al. (2018) представил исторический алгоритм распознавания текста, основанный на данных, которые были помечены на уровне страницы, не выравнивая каждую строку текста. Чтобы уменьшить влияние смещения между изображениями текстовой линии и метками, они предложили адаптивные градиентные ворота (AGG). Предлагаемый распознаватель текста может снизить уровень ошибок более чем на 35 процентов с помощью AGG. Кроме того, они обнаружили, что создание неявной языковой модели с использованием сверточных нейронных сетей (CNN) и временной классификации коннекционистов (CTC) является одним из ключевых факторов в достижении высоких показателей распознавания. С точностью 94,64%предложенная система превзошла другие системы распознавания оптических символов.
Глубокое обучение подкреплению нашло успешные приложения в различных областях. Sihang et al. (2020) представил инновационный подход, основанный на обучении глубоким подкреплением, для повышения оценки F-меши для обнаружения китайских исадений в исторических документах. Их метод представил новую полностью сверточную сеть, называемую полностью сверточной сетью с чувствительной к положению региона интересов (ROI) пула FCPN. В отличие от исправлений с фиксированным размером, эта сеть может вместить патчи различных размеров и включать позиционную информацию в функции действий. Кроме того, они предложили плотную функцию вознаграждения (DRF), которая эффективно вознаграждала различные действия, основанные на условиях окружающей среды, тем самым повышая способность к принятию решений агента. Метод был разработан, чтобы быть применимым к выводу детекторов текста на уровне символов или текста на уровне слов, что привело к более точным результатам. Эффективность их подхода была продемонстрирована благодаря его применению в наборе данных Tripitaka Coreana в HAN (TKH) и множественном трипитака в наборах данных HAN (MTH), где наблюдалось заметное улучшение, достигнув пересечения по сравнению с союзом (IOU) 0,8.
Введение Arced Ly et al. (2020) представляет собой новую модель код-декодера, основанную на союзе, для распознавания нескольких текстовых линий на изображениях без необходимости явной сегментации линий. Система распознавания состоит из трех ключевых компонентов: экстрактора функции, кодировщика с рядовой колонкой и декодера. Принимая основанный на внимании подход SEQ2SEQ, предложенная модель достигает значительно более низкой частоты ошибок по сравнению с предыдущими современными методами как для распознавания отдельных, так и для нескольких текстовых линий. Компонент Encoder использует сеть двунаправленной длинной кратковременной памяти (BLSTM) с помощью строки, позволяя захватить информацию о последовательном порядке как в горизонтальных, так и в вертикальных измерениях. Это способствует дальнейшему снижению частоты ошибок в модели, основанной на внимании. Кроме того, остаточная сеть LSTM использует все предшествующие векторы внимания для генерации прогнозирующих распределений в декодере, что приводит к повышению точности. Обучение всей системы проводится с использованием функции потери поперечной энтропии, используя только изображения документов и текст с землей. Чтобы оценить эффективность ARCD, используется набор данных Kana-Prmu, включающий японские исторические документы. Экспериментальные результаты демонстрируют, что ARCED превосходит существующие методы распознавания. В частности, при оценке на подмножествах набора данных кана-PRMU уровня 2 и уровня 3, предложенная модель ARC-модели достигает частоты ошибок символов 4,15% и 12,69% соответственно. Будущая работа направлена на расширение возможностей ARCED для распознавания целых страниц японских документов. Кроме того, ожидается, что включение языковой модели в ARCD еще больше повысит ее производительность.
2.3 Коптс
Согласно Bulert et al. (2017) Из-за нестандартных шрифтов и различного качества бумаги и шрифта результаты OCR могут быть не удовлетворительными при применении к историческим текстам. Кроме того, исторические тексты со временем не передаются полностью, а скорее включают пробелы и фрагменты. В результате, автоматическая пост-коррекция сложнее, когда дело доходит до исторических текстов, чем когда речь идет о современных текстах. Два инструмента были использованы для создания шаблонов распознавания (или моделей), специфичных для различных языков и документов для распознавания печатных коптских текстов. Исторически, коптик был последним этапом в развитии доарабского языка, который был коренным в Египте. Кроме того, это привело к созданию богатой и уникальной литературы, включая монашеские тексты, гностические тексты, маничейские тексты, магические тексты и переводы библейских и патристических текстов. По словам исследователей, коптские тексты обладают свойствами, которые делают их отличными кандидатами для компьютерного чтения. В результате их ограниченного числа и того факта, что большинство рукописных текстов демонстрируют весьма последовательные формы, персонажи могут быть легко идентифицированы.
2.4 Греческий
Исследование, опубликованное Simistira et al. (2015) исследовали производительность LSTM для ввода греческого политонического скрипта в OCR. Несмотря на то, что существует много греческих политонических рукописей, оцифровка таких документов не была широко применена, и была проделана очень небольшая работа по признанию этих сценариев. В этом исследовании они собрали множество разнообразных греческих страниц сценариев в новой базе данных, называемой Polyton-DB, содержащей 15 689 текстовых линий синтетических и аутентичных сценариев печати, и проводили базовые эксперименты с сети LSTM. Показано, что LSTM имеет частоту ошибок от 5,51 до 14,68 процента (в зависимости от документа) и лучше, чем Tesseract и Abbyy Finereader, два известных двигателя OCR.
Невозможно распознать греческие персонажи в ранних греческих книгах, используя традиционные методы распознавания персонажей. Поскольку написание одних или последовательных слов не позволяет сегментации символа или слова, символ или слово не могут быть сегментированы. Чтобы решить эту проблему, Poulos et al. (2010) разработали новую систему OCR, объединяющую предварительную обработку изображений с вычислительной геометрией. Их цель состояла в том, чтобы выполнить оцифровку OCR большой коллекции оцифрованных греческих книг раннего печати, датируемых с конца 15-го века до середины 18-го века. В этом методе обработка изображений выполняется благодаря использованию бинаризации и улучшения изображения, создания выпуклого многоугольника, который представляет извлечение признаков каждого шрифта, и разработку процедур обучения и идентификации, основанных на алгоритмах для пересекающихся пробирных полигонов. Среди основных преимуществ этого метода была способность контролировать аутентификацию изображения опубликованного документа или частичной модификации его до высокой степени надежности. Следовательно, предлагаемая система использует умную геометрическую практику для определения классификации письма -кандидата. Согласно экспериментальным результатам, предлагаемый метод дает положительные и отрицательные показатели проверки, которые более 92% правильны.
Авторы:
(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);
(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).
Эта статья есть
Оригинал