Основное руководство по сбору данных для диалогового ИИ
1 апреля 2022 г.Сегодня у нас есть несколько говорящих роботов, таких как чат-боты, виртуальные помощники и многое другое в наших домах, автомобильных системах, портативных устройствах, решениях для домашней автоматизации и т. д. Эти устройства точно слушают то, что мы говорим и как мы говорим, и получают результаты или выполняют определенные задачи. .
А если вы использовали таких помощников, как Siri или Alexa, вы также заметите, что с каждым днем они становятся все причудливее. Их ответы остроумны, они возражают, пренебрежительно отзываются, говорят комплименты и ведут себя более по-человечески, чем некоторые коллеги, которых вы, возможно, знаете. Мы не шутим. [По данным PwC] (https://www.pwc.com/us/en/industry/entertainment-media/publications/consumer-intelligence-series/assets/pwc-botme-booklet.pdf), 27% пользователей которые общались со своим недавним сотрудником по обслуживанию клиентов, не знали, разговаривают ли они с человеком или с чат-ботом.
Разработка таких сложных диалоговых систем и устройств очень сложна и устрашающа. Это совсем другая игра с разными подходами к разработке. Вот почему мы подумали, что должны разбить его для вас, чтобы вам было легче понять. Итак, если вы хотите разработать диалоговый движок ИИ или виртуального помощника, это руководство поможет вам получить ясность.
Значение разговорного ИИ
По мере того, как технологии становятся все более неотъемлемым аспектом нашей жизни в виде новых устройств и систем, возникает необходимость преодолевать барьеры, нарушать условности и придумывать новые способы взаимодействия с ними. От простого использования подключенных периферийных устройств, таких как мышь и клавиатура, мы перешли на более удобные коврики для мыши. Затем мы перешли на сенсорные экраны, которые еще больше упростили ввод данных и выполнение задач.
Поскольку устройства становятся продолжением нас самих, мы теперь открываем новую среду голосового управления. Нам даже не нужно находиться рядом с устройством, чтобы управлять им. Все, что нам нужно сделать, это использовать наш голос, чтобы разблокировать его и управлять нашими вводами. Из соседней комнаты, во время вождения, одновременно используя другое устройство, разговорный ИИ без проблем выполняет намеченные нами задачи. Итак, с чего мы начнем — все начинается с высококачественных речевых данных для обучения моделей машинного обучения.
Основы сбора данных для обучения речи
Сбор и аннотирование обучающих данных ИИ для разговорного ИИ — это совсем другое. Есть множество тонкостей, связанных с человеческими командами, и должны быть реализованы различные меры, чтобы гарантировать, что каждый аспект приспособлен для впечатляющих результатов. Давайте посмотрим, каковы некоторые из основ речевых данных.
Понимание естественного языка (NLU)
Чтобы чат-боты и виртуальные помощники понимали и реагировали на то, что мы пишем или командуем, реализован процесс NLU . Это означает Понимание естественного языка и включает в себя три технические концепции для интерпретации и обработки различных типов ввода.
- Намерение
Все начинается с намерения. Что конкретный пользователь пытается передать, сообщить или достичь с помощью команды? Пользователь ищет информацию? Они ждут обновлений для акции? Отдают ли они команду системе для выполнения? Как они командуют? Через вопрос или просьбу? Все эти аспекты помогают машинам понимать и классифицировать намерения и цели, чтобы вырабатывать безупречные ответы соответственно.
- Коллекция высказываний
Есть разница между командой «Где ближайший банкомат?» и команду «Найди ближайший банкомат». Теперь люди признают, что оба означают одно и то же, но машины должны объясняться этой разницей. Они одинаковы с точки зрения намерения, но форма намерения совершенно различна.
Сбор высказываний — это определение и сопоставление различных высказываний и фраз с конкретными целями для точного выполнения задач и ответов. Технически специалисты по аннотации данных работают с речевыми данными или текстовыми данными, чтобы помочь машинам различать их.
- Извлечение сущности
В каждом предложении есть определенные слова или фразы, которые имеют подчеркнутый вес, и именно этот акцент приводит к интерпретации контекста и цели. Машины, как и жесткие системы, нуждаются в таких сущностях. Например, «Где я могу найти струны для моей гитары рядом с 6-й авеню?»
Если вы уточните предложение, найдите сущность один, струны — две, гитара — три, а Шестая авеню — 4. Эти сущности объединяются вместе машинами для получения соответствующих результатов, и для этого на бэкенде работают эксперты.
Разработка диалогов для диалогового ИИ
Целью ИИ в основном было воспроизведение человеческого поведения с помощью жестов, действий и ответов. Сознательный человеческий разум обладает врожденной способностью понимать контекст, намерение, тон, эмоции и другие факторы и реагировать соответствующим образом. Но как машины могут различать эти аспекты?
Разработка диалогов для разговорного ИИ очень сложна и, что более важно, практически невозможно развернуть универсальную модель. У каждого человека свой способ мышления, речи и реакции. Даже в ответах мы все формулируем свои мысли уникальным образом. Таким образом, машины должны слушать и реагировать соответствующим образом.
Однако и здесь не все гладко. Когда люди разговаривают, учитываются такие факторы, как акцент, произношение, этническая принадлежность, язык и многое другое, и машинам нелегко неправильно понимать и неверно истолковывать слова и отвечать в ответ. Конкретное слово может быть понято машинами множеством способов, если оно продиктовано индийцем, британцем, американцем или мексиканцем. В игру вступает множество языковых барьеров, и наиболее практичным способом создания системы ответов является визуальное программирование на основе блок-схем.
С помощью специальных блоков для жестов, ответов и триггеров авторы и эксперты могут помочь машинам разработать персонажа. Это больше похоже на алгоритм, который машина может использовать для получения правильных ответов. При подаче входных данных информация проходит через соответствующие факторы, что приводит к правильному ответу машин.
Наберите D для разнообразия
Как мы уже упоминали, человеческие взаимодействия очень уникальны. Люди со всего мира принадлежат к разным слоям общества, происхождению, национальности, демографии, этнической принадлежности, акценту, дикции, произношению и многому другому.
Чтобы диалоговый бот или система были универсальными, их необходимо обучать с максимально разнообразными обучающими данными. Если, например, модель была обучена только с речевыми данными одного конкретного языка или этнической группы, новый акцент сбил бы систему с толку и вынудил бы ее выдавать неправильные результаты. Это не только смущает владельцев бизнеса, но и оскорбляет пользователей.
Вот почему на этапе разработки следует использовать данные для обучения ИИ из богатого пула разнообразных наборов данных, состоящих из людей из всех возможных слоев общества. Чем больше акцентов и этнических групп понимает ваша система, тем более универсальной она будет. Кроме того, пользователей больше раздражает не неправильный поиск информации, а непонимание вводимых ими данных.
Устранение предвзятости должно быть ключевым приоритетом, и компании могут сделать это, выбрав краудсорсинговые данные. Когда вы выполняете краудсорсинг своих речевых или текстовых данных, вы позволяете людям со всего мира вносить свой вклад в ваши требования, делая ваш пул данных только полезным (Читайте наш блог, чтобы понять преимущества и недостатки аутсорсинга данных краудсорсинговым работникам). Теперь ваша модель будет понимать различные акценты и произношения и реагировать соответствующим образом.
Путь вперед
Разработать разговорный ИИ так же сложно, как вырастить младенца. Единственная разница в том, что младенец в конечном итоге вырастет, чтобы понимать вещи и лучше общаться самостоятельно. Это машины, которые нужно постоянно подталкивать. В настоящее время в этой области существует несколько проблем, и мы должны признать тот факт, что, несмотря на эти проблемы, у нас есть одни из самых революционных систем разговорного ИИ. Давайте подождем и посмотрим, что ждет в будущем наших дружелюбных соседских чат-ботов и виртуальных помощников. Между тем, если вы намерены разработать диалоговый ИИ, такой как Google Home, для своего бизнеса, обратитесь к нам за данными для обучения ИИ и потребностями в аннотациях.
- Ранее опубликовано [здесь] (https://www.shaip.com/blog/how-to-approach-data-collection-for-conversational-ai/)*
Оригинал