
Может ли ИИ наконец -то взломать османское распознавание текста?
19 августа 2025 г.Таблица ссылок
Аннотация и 1. Введение
1.1 Печатная станка в Ираке и Иракском Курдистане
1.2 Проблемы в исторических документах
1.3 Курдский язык
Связанная работа и 2,1 арабского/персидского
2.2 Китайский/японский и 2,3 коптса
2.4 Греческий
2.5 латынь
2.6 Tamizhi
Метод и 3.1 Сбор данных
3.2 Подготовка данных и 3.3 Предварительная обработка
3.4 Настройка среды, 3,5 подготовка набора данных и 3,6 Оценка
Эксперименты, результаты и обсуждение и 4.1 обработанные данные
4.2 Набор данных и 4.3 эксперименты
4.4 Результаты и оценка
4.5 Обсуждение
Заключение
5.1 Проблемы и ограничения
Онлайн -ресурсы, подтверждения и ссылки
2 Связанная работа
В этом разделе рассматривается литература, сосредоточившись на исторических документах. Насколько нам известно, в настоящее время нет системы OCR, которая может точно извлечь текст из старых курдских публикаций, написанных в сценарии арабского языка. Поэтому мы концентрируемся на связанной работе для других языков.
2.1 арабский/персидский
Трудно внедрить систему распознавания османских персонажей в соответствии с Ozturk et al. (2000). В этой области недостаточно исследований. Таким образом, они разработали модель с использованием искусственных нейронных сетей, используя 28 различных османских документов, напечатанных на машине, для разработки OCR, который будет распознавать различные шрифты. Три османских газеты использовались для подготовки своих данных. Для документов с обученным шрифтом точность составляла 95%, в то время как для документов с неизвестным шрифтом это составляло 70%.
Согласно Ataer и Duygulu (2007), может быть невозможно получить удовлетворительные результаты с использованием систем, основанных на распознавании символов из-за характеристик османских документов. Более того, желательно хранить документы в качестве изображений, поскольку документы могут содержать важные чертежи, особенно подписи. Автор рассматривал османские слова как изображения и предложил метод сопоставления для решения проблемы по этим причинам. По словам автора, был показан, что подход пакета Visterm успешен в классификации объектов и сцен, поэтому он принял тот же подход для сопоставления изображений слов. Используя векторные квантование дескрипторов преобразования функций масштабной функции (SIFT), изображения слов были представлены наборами визуальных терминов. Сравнивая распределения визуальных терминов, подобные слова затем соответствуют. Более 10 000 слов были включены в печатные и рукописные документы, используемые в экспериментах. В эксперименте самая высокая точность составляла 91%, а самая низкая точность составляла 30%.
Килич и соавт. (2008) разработали систему OCR, специально разработанную для сегментации османских сценариев, нормализации, обнаружения краев и распознавания. Османские персонажи были классифицированы на четыре различные формы, основанные на их положении в рамках слова: начало, среднее, конец и изолированная форма. Изображения печатных бумаг, содержащих османский скрипт, были использованы для сбора данных. Процесс включал в себя сегментацию и нормализацию изображений с последующей обнаружением краев с использованием клеточных нейронных сетей для извлечения признаков. Впоследствии была использована машина поддержки (SVM) для точного идентификации этих многофонда-османских символов. Обучение SVM включало использование полиномиальных (линейных и квадратичных) и гауссовых радиальных базисных ядер. Предлагаемая система распознавания достигла впечатляющей точности точности 87,32 процента для классификации символов.
Shafii (2014) предложил новую технику на двух важных этапах предварительной обработки, обнаружение перекоса и сегментацию страниц, после просмотра существующей технологии. Вместо того, чтобы использовать обычную практику сегментирования символов, они предложили сегментирование подложений, чтобы избежать проблем с сегментацией из -за высококачественной природы персидского скрипта. Извлечение признаков была реализована с использованием гибридной схемы, которая объединяет три общепринятых метода, прежде чем классифицироваться с использованием непараметрического метода. Основываясь на их экспериментальных тестах на библиотеке из 500 слов, они смогли распознать 97% слов.
Из -за проблем коллекции арабского наследия, которая состоит из ранних отпечатков и рукописей, трудно извлечь текст из его документов. Чтобы решить эти проблемы, Stahlberg и Vogel (2016) разработали систему, называемую Qatip (QCRI Qatar Computing Institute Institute Arabic Text Rexocing) для OCR такого рода документов. Сложная техника бинаризации текста до изображения использовалась в сочетании с Кальди, которая была первоначально разработана для распознавания речи. В этом документе внесла две основные области, одну, включающая в себя создание как графического пользовательского интерфейса для пользователей, так и для конечных точек API для интеграции и других новых подходов к языку модели и лигатур. После тестирования системы они обнаружили, что недавно предложенная методика для моделирования языка и моделирования лигатуры была весьма успешной. Точность системы составила 37,5% составляла 12,6% CER для ранних книг.
Чтобы распознавать османские турецкие персонажи, Do˘gru (2016) использовал систему распознавания оптических символов Tesseract. Кроме того, от Османского турецкого до латинского к латыни были разработаны различные методы транскрипции. Оптическое распознавание персонажа не могло распознать определенных османтуркирских персонажей. В результате были разработаны османские турецкие клавиатуры, чтобы облегчить написание непризнанных персонажей с использованием османских турецких алфавитов. Для процесса транскрипции использовались словарные таблицы. Это привело к увеличению уровня успеха транскрипции, когда данные обогащения были включены в словарные таблицы. Поэтому было разработано приложение для обогащения таблиц словаря с помощью данных. Показатели признания для первых двух страниц османской книги составляли от 75,88% до 77,38%. Основываясь на результатах экспериментов автора, он приходит к выводу, что показатели распознавания могут варьироваться в зависимости от качества, стиля и печатных или рукописных документов или изображений. Высокие качественные и печатные изображения могут быть распознаны с 100% точностью, в то время как рукописные и низкокачественные документы или изображения не могут быть распознаны с помощью оптического распознавания символов. Поэтому необходимо снова написать эти виды документов или изображений на османском турецком.
Аналитический подход для курсивных сценариев, таких как арабский язык, может быть очень сложным, особенно для сегментации, из -за частого перекрытия между символами. Из -за этого Nashwan et al. (2017) предложили целостный подход, основанный на сегментации для решения этой проблемы. Поскольку мы рассматриваем все слово в качестве единого блока в целостном подходе, это улучшит частоту ошибок для курсивных сценариев. Но с другой стороны, это потребует сложности вычислений, особенно если приложение имеет огромный словарный запас. По их мнению, их целостный подход, основанный на дискретных косинусных преобразованиях (DCT) и локальных функциях блоков, будет эффективно вычислительно. Кроме того, они разработали метод уменьшения длины лексикона путем кластеризации слов, которые имеют сходные формы. Предложенная система была протестирована на широком диапазоне наборов данных, и было обнаружено, что она имеет 47,8% точность WRR, и она увеличилась до 65,7% WRR при рассмотрении гипотез топ-10.
Используя глубокие сверточные нейронные сети, K¨u¸c¨uk¸sahin (2019) разработал автономную систему OCR, которая демонстрирует способность распознавать османские персонажи. Предлагаемая методология охватывает несколько этапов, включая обработку изображений, оцифровку изображений, сегментацию символов, адаптация входов для сети, обучение сети, распознавание и оценку результатов. Чтобы создать набор данных символов, текстовые изображения различной длины были сегментированы от разнообразных образцов османской литературы, полученной из цифрового хранилища Турецкой национальной библиотеки. Две сверточные нейронные сети различной сложности были обучены с использованием сгенерированного набора данных символов, и была изучена корреляция между показателями распознавания и сложностью сети. Особенности набора данных были извлечены с помощью гистограммы ориентированных градиентов и методов анализа основных компонентов, в то время как классификация османских символов была достигнута с использованием широко используемого алгоритма K-ближайшего соседей и векторных машин поддержки. Результаты проведенного анализа показали, что обе сети демонстрируют показатели распознавания, сопоставимые с традиционными классификаторами; Тем не менее, более сложная глубокая нейронная сеть превзошла других с точки зрения точности и потерь. После 100 эпох наиболее точная модель достигла впечатляющей точности 97,58 процента.
Долек и Курт (2021) представили инструмент OCR, разработанный для печатных османских документов в шрифте Насх. Инструмент был разработан с использованием модели глубокого обучения, обученной наборам данных, содержащей как оригинальные, так и синтетические документы. Модель сравнивалась с бесплатными и открытыми двигателями OCR с использованием тестового набора данных, содержащего 21 страницу оригинальных документов. С точки зрения показателей точности, их модель превзошла другие инструменты с 88,64% необработанными, 95,92% нормализованными и 97,18%. Кроме того, их модель достигла показателя точности 58 процентов для распознавания слов, что является единственной скоростью выше 50 процентов среди сравниваемых инструментов OCR.
Авторы:
(1) Blnd Yaseen, Университет Курдистана, Регион Курдистан - Ирак (blnd.yaseen@ukh.edu.krd);
(2) Университет Курдистана Хоссейна Хассани Курдистана Регион Курдистан - Ирак (hosseinh@ukh.edu.krd).
Эта статья есть
Оригинал