data-science ai artificial-intelligence machine-learning nlp natural-language-processing nlpdata optical-character-recognition

Распознавание именованных объектов (NER): концепция, типы и приложения

4 марта 2022 г.

Всякий раз, когда мы слышим слово или читаем текст, у нас появляется естественная способность идентифицировать и классифицировать слово по людям, местам, местам, ценностям и т. д. Люди могут быстро распознать слово, классифицировать его и понять контекст. Например, когда вы слышите слово «Стив Джобс», вы можете сразу же подумать о трех-четырех атрибутах и классифицировать сущность.

Человек: Стив Джобс

Компания: Apple

Адрес: Калифорния

Поскольку у компьютеров нет этой естественной способности, им нужна наша помощь, чтобы идентифицировать и классифицировать слова или текст. Именно здесь в игру вступает Распознавание именованных объектов (NER).

Давайте кратко рассмотрим NER и его связь с NLP (обработкой естественного языка).

Что такое распознавание именованных объектов (NER)?

NER (распознавание именованных объектов) является частью обработки естественного языка. Основная цель NER – обработка структурированных и неструктурированных данных и классификация этих именованных объектов по предопределенным категориям. Некоторые типичные категории: имя, местоположение, компания, время, денежные значения, события и другие.

Вкратце, NER занимается:

Распознавание/Распознавание именованных объектов — идентификация слова или набора слов в документе.

Классификация именованных объектов — классификация каждого признанного объекта по предопределенным категориям.

Но как НЭР связана с НЛП?

Обработка естественного языка помогает разрабатывать интеллектуальные машины, способные извлекать смысл из речи и текста. Машинное обучение помогает этим интеллектуальным системам учиться, обучая большие наборы данных на естественном языке.

В целом НЛП состоит из трех основных категорий:

Понимать структуру и правила языка – синтаксис

Вывод значения слов, текста и языка и распознавание их взаимосвязей — семантика

Идентифицировать и распознавать произносимые слова и преобразовывать их в текстовую форму , т. е. речь

NER помогает в семантической части обработки естественного языка НЛП, извлекая значение слов, образованных буквами, идентифицируя и находя их на основе их отношений.

Некоторые распространенные примеры NER

Вот некоторые из наиболее распространенных примеров категоризации объектов :

Лично: Майкл Джексон, Опра Уинфри, Барак Обама, Сьюзан Сарандон

Адрес: Канада, Гонолулу, Бангкок, Бразилия, Кембридж

Организация: Samsung, Disney, Йельский университет, Google.

Время: 15:35, 12:00,

Другие категории включают числовые значения, выражение, адреса электронной почты и настройку.

Двусмысленность в распознавании именованных сущностей

Людям интуитивно очень ясно, к какой категории относится тот или иной термин. Однако если говорить о компьютерах, то это не так — они сталкиваются с проблемами классификации. Например.:

«Манчестер Сити» ( Организация ) выиграл трофей Премьер-лиги (PL), а в следующем наборе организация используется по-другому. «Манчестер Сити» (место) был текстильным и промышленным центром.

Ваша модель NER требует обучающих данных для точного извлечения сущностей и классификации. Конечно, если вы обучите свою модель шекспировскому английскому, Instagram не сможет его расшифровать.

Различные подходы к NER

Основная цель модели NER – маркировать и классифицировать сущности в текстовых документах. Для этого обычно используются следующие три подхода. Однако вы также можете комбинировать один или несколько методов.

Существует несколько способов/подходов к созданию систем NER:

Системы на основе словарей

Система на основе словаря, возможно, является самым простым и основным подходом к NER. Используется словарь с большим количеством слов, синонимов и словарная коллекция. Система проверяет, присутствует ли конкретная сущность, встречающаяся в тексте, в словаре. Перекрестная проверка сущностей выполняется с использованием алгоритма сопоставления строк.

Используя этот подход, вы должны постоянно обновлять набор словарных данных, чтобы модель NER работала.

Системы на основе правил

При таком подходе информация извлекается на основе заданных правил. Используются два основных набора правил,

Правила на основе шаблона - Как следует из названия, правило на основе шаблона следует морфологическому шаблону или последовательности слов, используемых в документе.

Правила, основанные на контексте. Правила, основанные на контексте, зависят от значения или контекста слова в документе.

Системы на основе машинного обучения

В системах на основе машинного обучения для распознавания сущностей используется статистическое моделирование. В этом подходе используется поэлементное представление текстового документа. Вы можете преодолеть несколько недостатков первых двух подходов, поскольку модель может распознавать типы сущностей несмотря на незначительные различия в их написании.

Применение NER

NER имеет несколько вариантов использования во многих областях, связанных с обработкой естественного языка и созданием обучающих наборов данных для решений машинного обучения и глубокого обучения . Некоторые из применений NER:

Оптимизированная поддержка клиентов

Система NER может быстро идентифицировать соответствующие жалобы, запросы и отзывы клиентов на основе важной информации, такой как название продукта, спецификации, местонахождение магазина и многое другое. Критика или отзывы должным образом классифицируются и перенаправляются в нужный отдел путем фильтрации по приоритетным ключевым словам.

Эффективные человеческие ресурсы

NER помогает командам по найму улучшить свои процессы и сократить сроки, быстро сопоставляя резюме кандидатов. Инструменты NER могут сканировать резюме и извлекать соответствующую информацию — имя, возраст, адрес, квалификацию, колледж и так далее.

HR также может использовать инструменты NER для оптимизации внутренних рабочих процессов, фильтруя жалобы сотрудников и передавая их руководителям соответствующих отделов.

Упрощенная классификация контента

Классификация контента — сложная задача для поставщиков новостей. Разделение контента на разные категории облегчает обнаружение, получение информации, выявление тенденций и понимание тем. Поставщикам новостей может пригодиться инструмент обнаружения объекта. Он может сканировать множество статей, определять приоритетные ключевые слова и извлекать информацию на основе людей, компании, местоположения и многого другого.

Оптимизация поисковых систем

NER помогает упростить и повысить скорость и релевантность результатов поиска. Вместо того, чтобы выполнять поисковый запрос для тысяч элементов, модель NER может выполнить запрос один раз и сохранить результаты. Таким образом, статьи, связанные с поисковым запросом, могут быть быстро найдены с помощью тегов в поисковом запросе.

Точная рекомендация по содержанию

Несколько современных приложений полагаются на инструменты NER, чтобы обеспечить упрощенное и индивидуальное взаимодействие с клиентами. Например, Netflix предлагает персонализированные рекомендации на основе истории поиска и просмотров пользователей с помощью распознавания именованных объектов.

Распознавание именованных сущностей делает ваши машинное обучение модели более эффективными и надежными. Однако было бы лучше иметь высококачественные обучающие наборы данных для ваших моделей, чтобы они работали оптимально и достигали намеченных целей. Все, что вам нужно, — это опытный сервисный партнер, который предоставит вам готовые к использованию качественные наборы данных.

Оригинал

Распознавание именованных объектов (NER): концепция, типы и приложения

Что такое распознавание именованных объектов (NER)?

Некоторые распространенные примеры NER

Различные подходы к NER

Системы на основе словарей

Системы на основе правил

Системы на основе машинного обучения

Применение NER

Оптимизированная поддержка клиентов

Эффективные человеческие ресурсы

Упрощенная классификация контента

Оптимизация поисковых систем

Точная рекомендация по содержанию

Recent Post

Создание гибридного RAG-агента с помощью Neo4j Graphs и Milvus Vector Search

Как реализовать сопоставление показателей склонности: пошаговое руководство

Почему многие профессии в области науки о данных на самом деле являются инженерией данных

Учебник по оптимизации вывода большой языковой модели (LLM): 1. Предыстория и формулировка проблемы

Как использовать сочетания клавиш Coze для создания кнопок и команд Telegram

Categories