Понимание разговорного языка (SLU) и понимание естественного языка (NLU)

Понимание разговорного языка (SLU) и понимание естественного языка (NLU)

20 октября 2022 г.

SLU для понимания разговорного языка и NLU для понимания естественного языка призваны помочь машинам понимать человеческий язык. Основное отличие заключается в типе входных данных. SLU занимается пониманием речи, тогда как NLU занимается пониманием текста. NLU является частью SLU независимо от того, обучается он независимо или нет.

Исследования NLU начались в 1960-х годах: доктор философии Bobrow. ELIZA диссертации Вейценбаума, псевдопсихотерапевтического чат-бота, и SHRDLU — первые работы в этой области. Популярность SLU началась с недавних достижений в области распознавания речи на основе глубокого обучения. Запрос «разговорный язык» возвращает более 1000 исследований как на Amazon, так и на Microsoft веб-сайты исследовательских публикаций.

Традиционный подход SLU

Обычный SLU обрабатывает высказывания в два этапа: сначала речь в текст (STT), а затем NLU. Как только STT транскрибирует речь в текст, NLU извлекает смысл, обрабатывая транскрибированный текст. Производительность зависит от независимо обученных модулей STT и NLU. Если STT возвращает ошибочный вывод, это приводит к неправильным прогнозам NLU. Следовательно, машины не могут уловить то, что говорят люди. Такой подход используют многие голосовые приложения, в том числе голосовые помощники — Alexa, Siri и Google.

Сквозной подход к SLU

Современный SLU использует сквозную модель вместо двух отдельных компонентов. Разработчики обучают STT и NLU совместно, что обеспечивает более высокую точность.

Picovoice называет это Speech-to-Intent, поскольку он определяет намерения пользователей непосредственно из речи. Amazon называет это FANS — объединение ASR и NLU для СЛУ.

Традиционный подход SLU и сквозной подход SLU

Ответ: "это зависит". Это зависит от наличия корпусов и информации. Если доступно, то ответ — современный сквозной SLU. Если нет, то обычный СЛУ. Понимание на основе текста (NLU) существует дольше, чем понимание на основе речи (SLU). Таким образом, он имеет более богатые наборы данных.

Для доменных приложений, таких как системы IVR, навигация по меню на веб-сайте или заказ еды в QSR, предпочтительнее современный комплексный SLU. Никто не будет обсуждать смысл жизни с голосовым помощником, заказывая гамбургер. Для случаев использования с открытым доменом, таких как голосовые помощники, такие как Alexa, обычное -каскадное SLU работает лучше, учитывая разнообразие тем, которые они охватывают. С Алексой можно обсудить смысл жизни - хотя есть варианты и получше.

Лучшие двигатели SLU и NLU на рынке

Бесплатные механизмы SLU и NLU с открытым исходным кодом:

Rasa: Rasa – это механизм NLU с открытым исходным кодом, который обрабатывает вводимый текст. Базовое программное обеспечение является бесплатным, а Rasa предлагает платную поддержку и консультационные услуги. Любой может выбрать службу преобразования речи в текст и запустить Rasa для расшифрованного текста.

Snips: Snips — это механизм SLU с открытым исходным кодом, использующий традиционный метод. Snips больше не поддерживает его после приобретения Sonos. Тем не менее репозиторий по-прежнему доступен на GitHub и используется разработчиками.

Wit.ai: Wit.ai — это бесплатная платформа, и теперь для ее приобретения требуется учетная запись Facebook. Фейсбук. Если у кого-то нет (хотят) учетной записи Facebook или он удаляет ее, то он не может использовать Wit.

Самые платные движки SLU и NLU:

Dialogflow: Google после приобретения API.ai назвал его Dialogflow и предлагает оба инструменты чат-бота и голосового бота под тем же именем. Он использует традиционный подход. Dialogflow записывает и отправляет голосовые данные на серверы Google для расшифровки, а затем обрабатывает расшифрованный текст. Плата взимается в зависимости от использования.

Lex: Lex от Amazon — это предложение AWS. Как и Dialogflow, Lex предлагает текстовые и голосовые возможности, использует традиционный подход и расшифровывает речь и понимание отдельно в своем облаке. Плата взимается в зависимости от использования.

Rhino: Rhino от Picovoice — это механизм SLU, который использует сквозной подход и определяет намерения. и сведения о намерениях непосредственно из речи. Rhino использует голосовую связь и не поддерживает текстовые службы. Плата взимается в зависимости от количества пользователей и предлагает неограниченное количество взаимодействий для каждого пользователя.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE