Распознавание именованных объектов (NER): концепция, типы и приложения

Распознавание именованных объектов (NER): концепция, типы и приложения

4 марта 2022 г.

Всякий раз, когда мы слышим слово или читаем текст, у нас появляется естественная способность идентифицировать и классифицировать слово по людям, местам, местам, ценностям и т. д. Люди могут быстро распознать слово, классифицировать его и понять контекст. Например, когда вы слышите слово «Стив Джобс», вы можете сразу же подумать о трех-четырех атрибутах и ​​классифицировать сущность.


  • Человек: Стив Джобс

  • Компания: Apple

  • Адрес: Калифорния

Поскольку у компьютеров нет этой естественной способности, им нужна наша помощь, чтобы идентифицировать и классифицировать слова или текст. Именно здесь в игру вступает Распознавание именованных объектов (NER).


Давайте кратко рассмотрим NER и его связь с NLP (обработкой естественного языка).


Что такое распознавание именованных объектов (NER)?


NER (распознавание именованных объектов) является частью обработки естественного языка. Основная цель NER – обработка структурированных и неструктурированных данных и классификация этих именованных объектов по предопределенным категориям. Некоторые типичные категории: имя, местоположение, компания, время, денежные значения, события и другие.


Вкратце, NER занимается:


  • Распознавание/Распознавание именованных объектов — идентификация слова или набора слов в документе.

  • Классификация именованных объектов — классификация каждого признанного объекта по предопределенным категориям.

Но как НЭР связана с НЛП?


Обработка естественного языка помогает разрабатывать интеллектуальные машины, способные извлекать смысл из речи и текста. Машинное обучение помогает этим интеллектуальным системам учиться, обучая большие наборы данных на естественном языке.


В целом НЛП состоит из трех основных категорий:


  • Понимать структуру и правила языка – синтаксис

  • Вывод значения слов, текста и языка и распознавание их взаимосвязей — семантика

  • Идентифицировать и распознавать произносимые слова и преобразовывать их в текстовую форму , т. е. речь

NER помогает в семантической части обработки естественного языка НЛП, извлекая значение слов, образованных буквами, идентифицируя и находя их на основе их отношений.


Некоторые распространенные примеры NER



Вот некоторые из наиболее распространенных примеров категоризации объектов :


Лично: Майкл Джексон, Опра Уинфри, Барак Обама, Сьюзан Сарандон


Адрес: Канада, Гонолулу, Бангкок, Бразилия, Кембридж


Организация: Samsung, Disney, Йельский университет, Google.


Время: 15:35, 12:00,


Другие категории включают числовые значения, выражение, адреса электронной почты и настройку.


Двусмысленность в распознавании именованных сущностей


Людям интуитивно очень ясно, к какой категории относится тот или иной термин. Однако если говорить о компьютерах, то это не так — они сталкиваются с проблемами классификации. Например.:


«Манчестер Сити» ( Организация ) выиграл трофей Премьер-лиги (PL), а в следующем наборе организация используется по-другому. «Манчестер Сити» (место) был текстильным и промышленным центром.




Ваша модель NER требует обучающих данных для точного извлечения сущностей и классификации. Конечно, если вы обучите свою модель шекспировскому английскому, Instagram не сможет его расшифровать.


Различные подходы к NER


Основная цель модели NER – маркировать и классифицировать сущности в текстовых документах. Для этого обычно используются следующие три подхода. Однако вы также можете комбинировать один или несколько методов.


Существует несколько способов/подходов к созданию систем NER:


Системы на основе словарей


  • Система на основе словаря, возможно, является самым простым и основным подходом к NER. Используется словарь с большим количеством слов, синонимов и словарная коллекция. Система проверяет, присутствует ли конкретная сущность, встречающаяся в тексте, в словаре. Перекрестная проверка сущностей выполняется с использованием алгоритма сопоставления строк.

  • Используя этот подход, вы должны постоянно обновлять набор словарных данных, чтобы модель NER работала.

Системы на основе правил


  • При таком подходе информация извлекается на основе заданных правил. Используются два основных набора правил,

  • Правила на основе шаблона - Как следует из названия, правило на основе шаблона следует морфологическому шаблону или последовательности слов, используемых в документе.

  • Правила, основанные на контексте. Правила, основанные на контексте, зависят от значения или контекста слова в документе.

Системы на основе машинного обучения


  • В системах на основе машинного обучения для распознавания сущностей используется статистическое моделирование. В этом подходе используется поэлементное представление текстового документа. Вы можете преодолеть несколько недостатков первых двух подходов, поскольку модель может распознавать типы сущностей несмотря на незначительные различия в их написании.

Применение NER


NER имеет несколько вариантов использования во многих областях, связанных с обработкой естественного языка и созданием обучающих наборов данных для решений машинного обучения и глубокого обучения . Некоторые из применений NER:


Оптимизированная поддержка клиентов


  • Система NER может быстро идентифицировать соответствующие жалобы, запросы и отзывы клиентов на основе важной информации, такой как название продукта, спецификации, местонахождение магазина и многое другое. Критика или отзывы должным образом классифицируются и перенаправляются в нужный отдел путем фильтрации по приоритетным ключевым словам.

Эффективные человеческие ресурсы


  • NER помогает командам по найму улучшить свои процессы и сократить сроки, быстро сопоставляя резюме кандидатов. Инструменты NER могут сканировать резюме и извлекать соответствующую информацию — имя, возраст, адрес, квалификацию, колледж и так далее.

  • HR также может использовать инструменты NER для оптимизации внутренних рабочих процессов, фильтруя жалобы сотрудников и передавая их руководителям соответствующих отделов.

Упрощенная классификация контента


  • Классификация контента — сложная задача для поставщиков новостей. Разделение контента на разные категории облегчает обнаружение, получение информации, выявление тенденций и понимание тем. Поставщикам новостей может пригодиться инструмент обнаружения объекта. Он может сканировать множество статей, определять приоритетные ключевые слова и извлекать информацию на основе людей, компании, местоположения и многого другого.

Оптимизация поисковых систем



  • NER помогает упростить и повысить скорость и релевантность результатов поиска. Вместо того, чтобы выполнять поисковый запрос для тысяч элементов, модель NER может выполнить запрос один раз и сохранить результаты. Таким образом, статьи, связанные с поисковым запросом, могут быть быстро найдены с помощью тегов в поисковом запросе.

Точная рекомендация по содержанию


  • Несколько современных приложений полагаются на инструменты NER, чтобы обеспечить упрощенное и индивидуальное взаимодействие с клиентами. Например, Netflix предлагает персонализированные рекомендации на основе истории поиска и просмотров пользователей с помощью распознавания именованных объектов.

Распознавание именованных сущностей делает ваши машинное обучение модели более эффективными и надежными. Однако было бы лучше иметь высококачественные обучающие наборы данных для ваших моделей, чтобы они работали оптимально и достигали намеченных целей. Все, что вам нужно, — это опытный сервисный партнер, который предоставит вам готовые к использованию качественные наборы данных.



Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE