Распознавание именованных объектов (NER): концепция, типы и приложения
4 марта 2022 г.Всякий раз, когда мы слышим слово или читаем текст, у нас появляется естественная способность идентифицировать и классифицировать слово по людям, местам, местам, ценностям и т. д. Люди могут быстро распознать слово, классифицировать его и понять контекст. Например, когда вы слышите слово «Стив Джобс», вы можете сразу же подумать о трех-четырех атрибутах и классифицировать сущность.
- Человек: Стив Джобс
- Компания: Apple
- Адрес: Калифорния
Поскольку у компьютеров нет этой естественной способности, им нужна наша помощь, чтобы идентифицировать и классифицировать слова или текст. Именно здесь в игру вступает Распознавание именованных объектов (NER).
Давайте кратко рассмотрим NER и его связь с NLP (обработкой естественного языка).
Что такое распознавание именованных объектов (NER)?
NER (распознавание именованных объектов) является частью обработки естественного языка. Основная цель NER – обработка структурированных и неструктурированных данных и классификация этих именованных объектов по предопределенным категориям. Некоторые типичные категории: имя, местоположение, компания, время, денежные значения, события и другие.
Вкратце, NER занимается:
- Распознавание/Распознавание именованных объектов — идентификация слова или набора слов в документе.
- Классификация именованных объектов — классификация каждого признанного объекта по предопределенным категориям.
Но как НЭР связана с НЛП?
Обработка естественного языка помогает разрабатывать интеллектуальные машины, способные извлекать смысл из речи и текста. Машинное обучение помогает этим интеллектуальным системам учиться, обучая большие наборы данных на естественном языке.
В целом НЛП состоит из трех основных категорий:
- Понимать структуру и правила языка – синтаксис
- Вывод значения слов, текста и языка и распознавание их взаимосвязей — семантика
- Идентифицировать и распознавать произносимые слова и преобразовывать их в текстовую форму , т. е. речь
NER помогает в семантической части обработки естественного языка НЛП, извлекая значение слов, образованных буквами, идентифицируя и находя их на основе их отношений.
Некоторые распространенные примеры NER
Вот некоторые из наиболее распространенных примеров категоризации объектов :
Лично: Майкл Джексон, Опра Уинфри, Барак Обама, Сьюзан Сарандон
Адрес: Канада, Гонолулу, Бангкок, Бразилия, Кембридж
Организация: Samsung, Disney, Йельский университет, Google.
Время: 15:35, 12:00,
Другие категории включают числовые значения, выражение, адреса электронной почты и настройку.
Двусмысленность в распознавании именованных сущностей
Людям интуитивно очень ясно, к какой категории относится тот или иной термин. Однако если говорить о компьютерах, то это не так — они сталкиваются с проблемами классификации. Например.:
«Манчестер Сити» ( Организация ) выиграл трофей Премьер-лиги (PL), а в следующем наборе организация используется по-другому. «Манчестер Сити» (место) был текстильным и промышленным центром.
Ваша модель NER требует обучающих данных для точного извлечения сущностей и классификации. Конечно, если вы обучите свою модель шекспировскому английскому, Instagram не сможет его расшифровать.
Различные подходы к NER
Основная цель модели NER – маркировать и классифицировать сущности в текстовых документах. Для этого обычно используются следующие три подхода. Однако вы также можете комбинировать один или несколько методов.
Существует несколько способов/подходов к созданию систем NER:
Системы на основе словарей
- Система на основе словаря, возможно, является самым простым и основным подходом к NER. Используется словарь с большим количеством слов, синонимов и словарная коллекция. Система проверяет, присутствует ли конкретная сущность, встречающаяся в тексте, в словаре. Перекрестная проверка сущностей выполняется с использованием алгоритма сопоставления строк.
- Используя этот подход, вы должны постоянно обновлять набор словарных данных, чтобы модель NER работала.
Системы на основе правил
- При таком подходе информация извлекается на основе заданных правил. Используются два основных набора правил,
- Правила на основе шаблона - Как следует из названия, правило на основе шаблона следует морфологическому шаблону или последовательности слов, используемых в документе.
- Правила, основанные на контексте. Правила, основанные на контексте, зависят от значения или контекста слова в документе.
Системы на основе машинного обучения
- В системах на основе машинного обучения для распознавания сущностей используется статистическое моделирование. В этом подходе используется поэлементное представление текстового документа. Вы можете преодолеть несколько недостатков первых двух подходов, поскольку модель может распознавать типы сущностей несмотря на незначительные различия в их написании.
Применение NER
NER имеет несколько вариантов использования во многих областях, связанных с обработкой естественного языка и созданием обучающих наборов данных для решений машинного обучения и глубокого обучения . Некоторые из применений NER:
Оптимизированная поддержка клиентов
- Система NER может быстро идентифицировать соответствующие жалобы, запросы и отзывы клиентов на основе важной информации, такой как название продукта, спецификации, местонахождение магазина и многое другое. Критика или отзывы должным образом классифицируются и перенаправляются в нужный отдел путем фильтрации по приоритетным ключевым словам.
Эффективные человеческие ресурсы
- NER помогает командам по найму улучшить свои процессы и сократить сроки, быстро сопоставляя резюме кандидатов. Инструменты NER могут сканировать резюме и извлекать соответствующую информацию — имя, возраст, адрес, квалификацию, колледж и так далее.
- HR также может использовать инструменты NER для оптимизации внутренних рабочих процессов, фильтруя жалобы сотрудников и передавая их руководителям соответствующих отделов.
Упрощенная классификация контента
- Классификация контента — сложная задача для поставщиков новостей. Разделение контента на разные категории облегчает обнаружение, получение информации, выявление тенденций и понимание тем. Поставщикам новостей может пригодиться инструмент обнаружения объекта. Он может сканировать множество статей, определять приоритетные ключевые слова и извлекать информацию на основе людей, компании, местоположения и многого другого.
Оптимизация поисковых систем
- NER помогает упростить и повысить скорость и релевантность результатов поиска. Вместо того, чтобы выполнять поисковый запрос для тысяч элементов, модель NER может выполнить запрос один раз и сохранить результаты. Таким образом, статьи, связанные с поисковым запросом, могут быть быстро найдены с помощью тегов в поисковом запросе.
Точная рекомендация по содержанию
- Несколько современных приложений полагаются на инструменты NER, чтобы обеспечить упрощенное и индивидуальное взаимодействие с клиентами. Например, Netflix предлагает персонализированные рекомендации на основе истории поиска и просмотров пользователей с помощью распознавания именованных объектов.
Распознавание именованных сущностей делает ваши машинное обучение модели более эффективными и надежными. Однако было бы лучше иметь высококачественные обучающие наборы данных для ваших моделей, чтобы они работали оптимально и достигали намеченных целей. Все, что вам нужно, — это опытный сервисный партнер, который предоставит вам готовые к использованию качественные наборы данных.
Оригинал