ai machine-learning nlp deep-learning augmented-reality computer-vision virtual-assistant gans

Как машинные виртуальные помощники могут в 10 раз повысить вашу производительность в 2022 году

30 марта 2022 г.

Они могут помочь вам записаться на прием или заказать пиццу, найти лучшие предложения билетов и привлечь ваше внимание к тому факту, что вы тратите много денег на развлечения, а не на инвестиции. Речь идет о виртуальных помощниках с искусственным интеллектом, которые уже стали привычной частью нашей повседневной жизни. Но какие технологии скрываются за ИИ-помощниками и как вы можете использовать их в своем бизнесе? Найдите все ответы в этой статье.

Анализ рынка интеллектуальных виртуальных помощников

Интеллектуальные виртуальные помощники (IVA), также известные как интеллектуальные персональные помощники (IPA), представляют собой агенты на основе ИИ, способные генерировать персонализированные ответы, извлекая из контекста, такого как метаданные клиентов, предыдущие разговоры, базы знаний, геолокацию и другие модульные базы данных и плагины. . По прогнозам Mordor Intelligence, рынок интеллектуальных виртуальных помощников, переживающий быстрый рост в 2020-х годах, к 2026 году достигнет 6,27 млрд долларов США.

Технология искусственного интеллекта во многом похожа на традиционный чат-бот, но объединяет аналитику нового поколения, машинное обучение, AR/VR и науку о данных. В то время как обычные чат-боты могут генерировать ответы на запросы на основе цепей Маркова и других подобных процессов, их статические ответы меркнут по сравнению с динамическими данными, генерируемыми интеллектуальными виртуальными помощниками.

Одним из самых известных виртуальных помощников является Siri от Apple, ориентированный на потребителя продукт, упакованный как личный помощник. Примеры других IVA включают Alexa от Amazon, Cortana от Microsoft и Google Assistant. Siri и конкуренты помогают клиентам легко выполнять команды с помощью голосовых подсказок, автоматизируя такие задачи, как установка будильника на смартфоне, устное чтение электронной почты с помощью технологии преобразования текста в речь, воспроизведение и поиск музыки, а также отправка текстовых сообщений. Повсеместное распространение и популярность IVA в потребительских смартфонах привели к включению производителями автомобилей технологии Intelligent Personal Assistant.

Азиатско-Тихоокеанский регион является важнейшим рынком, за которым стоит следить, когда речь идет об интеллектуальных виртуальных помощниках, причем значительный рост наблюдается в таких секторах, как здравоохранение, технологии и финансовый сектор. Крупнейшими игроками отрасли являются Apple Inc., Inbenta Technologies, IBM Corporation, Avaamo Inc. и Sonos Inc.

Конечные пользователи, использующие технологию AI-помощника, могут быть найдены в секторах здравоохранения, телекоммуникаций, путешествий и гостеприимства, розничной торговли и BFSI. Потребительские товары, использующие IVA или IPA, включают умные колонки, смартфоны, автомобили, коммерческие автомобили, домашние компьютеры, устройства домашней автоматизации и многое другое.

Базовые технологии, от которых зависят IVA и IPA, включают машинное обучение, когнитивные вычисления, преобразование текста в речь, распознавание речи, компьютерное зрение и дополненную реальность. Подробнее о них мы поговорим позже.

Зачем компании создают помощников с искусственным интеллектом?

Если вы владелец устройства Apple, вы, вероятно, не представляете свою жизнь без Siri. Amazon Alexa, Google Assistant, Samsung Bixby — большинство крупных брендов инвестируют в разработку ИИ-помощников. Так почему же компании это делают?

Основное преимущество использования искусственного интеллекта для создания таких решений заключается в том, что ИИ может эффективно и быстро обрабатывать огромные объемы данных, находить инсайты и давать умные рекомендации. Помощники с искусственным интеллектом, основанные на распознавании голоса и речи, значительно упрощают выполнение многих повседневных задач, таких как добавление событий в календарь, установка напоминаний или отслеживание ежемесячных расходов. По данным Statista, к 2024 году во всем мире будет использоваться более 8 миллиардов цифровых голосовых помощников, что примерно равно населения мира.

Основные преимущества создания виртуальных помощников для бизнеса включают следующее:

Улучшенная поддержка клиентов при сокращении количества звонков и запросов на обслуживание агентам. С помощниками ИИ вы можете автоматизировать бизнес-процесс взаимодействия с клиентами. Это позволит вашим сотрудникам сосредоточиться на более сложных задачах и не тратить время на запросы, которые можно обрабатывать в автоматическом режиме.

Простота сбора ключевых данных. Данные об опыте работы с клиентами, собранные с помощью традиционных звонков в службу поддержки или чатов, требуют, чтобы аналитики просматривали бесчисленные часы телефонных звонков и информации, собранной и записанной агентом службы поддержки в реальном времени. С помощью IVA запросы клиентов и связанные с ними метаданные могут быть мгновенно сохранены и классифицированы для анализа без необходимости, чтобы агент службы поддержки делал точные заметки.

Индивидуальный пользовательский интерфейс. AI-помощники адаптируются к потребностям каждого пользователя, предоставляя клиенту высокий уровень персонализации. Например, IPA могут запоминать не только имя пользователя, но и его предпочтения. Это помогает повысить вовлеченность пользователей, а также повысить удовлетворенность и лояльность клиентов.

Возможность для компаний объединить поддержку клиентов и сложные части своей корпоративной цепочки инструментов, такие как кубики Lego, является одним из самых привлекательных преимуществ интеллектуальных виртуальных помощников. С некоторыми изменениями виртуальный помощник может подключаться к любой базе данных или любому ресурсу для предоставления важной информации и оптимизации рабочего процесса на каждом уровне.

Типы виртуальных помощников ИИ

Существует несколько различных типов виртуальных помощников ИИ: чат-боты, голосовые помощники, аватары ИИ и виртуальные помощники для конкретной области.

Чат-боты были основой сектора электронной коммерции с момента их создания, но современные реализации чат-ботов основаны на искусственном интеллекте, который дает им возможность продумывать запросы клиентов, а не проталкивать клиента через цепочку запросов. статические события.

Голосовые помощники используют автоматическое распознавание речи и обработку естественного языка, чтобы давать голосовые ответы на запросы, такие как известные продукты Siri и Google Assistant.

Аватары с искусственным интеллектом – это 3D-модели, похожие на людей, которые используются в развлекательных приложениях или для того, чтобы придать человеческое прикосновение при взаимодействии с виртуальной службой поддержки клиентов. Передовые технологии таких компаний, как Nvidia, позволяют создавать почти реалистичные человеческие аватары в режиме реального времени.

Виртуальные помощники для предметной области – это узкоспециализированные реализации виртуальных помощников на основе ИИ, разработанные для очень специфических отраслей, оптимизированные для высокой производительности в сфере путешествий, финансов, инженерии, кибербезопасности и других требовательных секторах.

Также мы можем найти технологии виртуальных помощников, созданные для конкретных задач. Например, технология «[Аватар для человека» (ATP)] (https://www.hindawi.com/journals/wcmc/2021/5098992/), основанная на искусственном интеллекте и технологии 3D-моделирования, позволяет людям с ограниченными возможностями выполнять такие задачи, как как «реконструкция виртуального лица» и «симуляция генерации голоса» для свободного общения в Интернете.

Технологии, лежащие в основе ИИ-помощников

Допустим, вы хотите создать своего собственного виртуального помощника, такого как Siri. Как бы вы это сделали? Ваш первый и, возможно, наименее сложный вариант — интегрировать Siri напрямую в ваше приложение. Siri, Cortana и Google Assistant — три хорошо известных примера помощников на основе ИИ, которые многие разработчики интегрируют в свои приложения. В 2016 году Apple Inc. анонсировала SiriSDK, комплект для разработки, который позволял программистам интегрировать функции своих собственных приложений в качестве «задач», которые может выполнять Siri. SiriSDK использует «намерения» в качестве меток для намерений пользователя и связывает намерения с пользовательскими классами и свойствами.

Если ваша компания не хочет полагаться на существующие варианты ИИ-помощников, вам потребуется экспертная группа инженеров ИИ для создания собственного решения. Давайте углубимся в ключевые технологии искусственного интеллекта, лежащие в основе интеллектуальных виртуальных помощников.

ПРЕОБРАЗОВАНИЕ РЕЧИ В ТЕКСТ (STT) И ПРЕОБРАЗОВАНИЕ ТЕКСТА В РЕЧЬ (TTS)

Если мы говорим об интеллектуальных виртуальных помощниках, то им как минимум требуются возможности преобразования речи в текст (STT) и преобразования текста в речь (TTS).

Преобразование речи в текст позволяет приложениям преобразовывать человеческую речь в цифровые сигналы. Вот как это работает. Когда вы говорите, вы создаете серию вибраций. Используя аналого-цифровой преобразователь (ACD), программное обеспечение преобразует их в цифровые сигналы и извлекает звуки, затем сегментирует их и сопоставляет с существующими фонемами. Фонемы — наименьшая единица языка, способная различать звуковые оболочки разных слов. На основе сложных математических моделей система сравнивает эти фонемы с отдельными словами и фразами и создает текстовую версию того, что вы сказали.

Преобразование текста делает обратное. Эта технология переводит текст в голосовой вывод. TTS — это компьютерная симуляция человеческой речи из текста с использованием машинного обучения. Система должна пройти три шага, чтобы преобразовать текст в голос. Сначала системе необходимо преобразовать текст в слова, затем выполнить фонетическую транскрипцию, а затем преобразовать транскрипцию в речь.

Преобразование речи в текст (STT) и преобразования текста в речь (TTS) используются в технологии виртуального помощника для обеспечения бесперебойной и эффективной связи между пользователями и приложениями. Чтобы превратить базового голосового помощника со статическими командами в полноценного помощника по искусственному интеллекту, вам также необходимо дать программе возможность интерпретировать запросы пользователей с помощью интеллектуальных тегов и эвристики.

КОМПЬЮТЕРНОЕ ВИДЕНИЕ (резюме)

Компьютерное зрение – это технология искусственного интеллекта, которая извлекает значимую информацию из визуальных входных данных, таких как цифровые изображения или видео. Резюме является неотъемлемой частью создания визуальных виртуальных помощников. Эти помощники могут отвечать видео, созданными создателями, а не только звуками, что значительно улучшает взаимодействие с пользователем.

Компьютерное зрение позволяет системе распознавать язык тела, который является важной частью общения. Визуальные виртуальные помощники на основе этой технологии используют камеру, которая хранит данные и использует распознавание лиц в реальном времени, чтобы поймать, когда кто-то смотрит на экран, это посылает сигнал остальной части системы, которая преобразует речь пользователя в текст.

CV также может значительно повысить точность распознавания речи, сравнивая то, что пользователь сказал устно, с движением лица и рта пользователя.

КОНТРОЛЬ ШУМА

Контроль шума — еще одна важная функция для точности голосового помощника. Хотя многие смартфоны включают в себя программные функции контроля и подавления шума, вы не можете рассчитывать на то, что это относится ко всем вашим клиентам. Чтобы компенсировать отсутствие встроенного программного обеспечения для подавления шума, Bluetooth-гарнитуры высшего класса также включают аппаратное подавление шума, но опять же нет никаких гарантий, что ваш помощник ИИ сможет определить, что ваши клиенты говорят в загруженном вагоне поезда. . Интегрируя собственные пакеты контроля шума, вы сводите к минимуму риск неправильного понимания голосовых запросов.

СЖАТИЕ РЕЧИ

Вашему помощнику по искусственному интеллекту также потребуется хотя бы временно хранить голосовую информацию для обработки, если только вы не собираетесь локально заполнять жесткий диск клиента голосовыми данными. Сжатие речи имеет решающее значение, но разработчики придерживаются тонкой грани со сжатием. Аудиофайл можно сжать настолько, что потеряется значительная часть точности, что затруднит или сделает невозможным восстановление того, что было сказано во время обработки. Технология сжатия быстро совершенствуется, но при разработке вашего голосового помощника аудиокодеки и решения для сжатия заслуживают тщательного изучения.

ОБРАБОТКА ЕСТЕСТВЕННОГО ЯЗЫКА (NLP)

Получив голосовые данные, ИИ-помощник должен обработать и интерпретировать данные с помощью обработки естественного языка (NLP), а затем выполнить запрошенную команду. НЛП упрощает процесс распознавания речи. Хотя многие наборы ИИ предварительно обучены на бесчисленных часах голосовых образцов, вам все равно потребуется достаточно данных от клиентов, чтобы настроить точность для ваших вариантов использования. Если ваш помощник с искусственным интеллектом будет отвечать устно, вам понадобится синтезатор речи, такой как первоклассное решение Google Cloud, которое воспроизводит реалистичные и четкие голоса.

Однако обработки речи недостаточно, чтобы определить истинное намерение человека и поддерживать нормальный разговор. Запрос все еще нужно правильно интерпретировать, и именно тогда в игру вступает понимание естественного языка.

ПОНИМАНИЕ ЕСТЕСТВЕННОГО ЯЗЫКА (NLU)

Понимание естественного языка (NLU) — это другой подход к обработке естественного языка, который большинство специалистов по компьютерам и данным считает подтемой НЛП. В то время как методы NLP анализируют, токенизируют и стандартизируют естественный язык в стандартизированную структуру для обработки команд, NLU интерпретирует естественный язык без его стандартизации и извлекает смысл из запросов, идентифицируя контекст. Короче говоря, NLP обрабатывает грамматику, структуру и компенсирует орфографические ошибки пользователя, в то время как NLU проверяет фактическое намерение, стоящее за запросом.

ГЕНЕРАЦИЯ ЕСТЕСТВЕННОГО ЯЗЫКА (NLG)

Генерация на естественном языке выводит результат на естественном языке. Благодаря этой технологии пользователи получают человеческий ответ от виртуальных помощников и чат-ботов. Модели и методики, используемые для NLG, могут быть разными и зависят от целей проекта и подходов к разработке. Одним из самых простых подходов является система шаблонов, которую можно использовать для текстов, имеющих предопределенную структуру и требующих заполнения лишь небольшого количества данных. Этот подход позволяет автоматически заполнять такие пробелы данными, извлеченными из строки в электронная таблица, запись в таблице базы данных и так далее.

Другой подход — динамический NLG, который не требует от разработчика написания кода для каждого пограничного случая и позволяет системе реагировать самостоятельно. Это более продвинутый тип генерации естественного языка, основанный на алгоритмах машинного обучения.

ГЛУБОКОЕ ОБУЧЕНИЕ

Чат-боты, которые используют только текстовые ответы, значительно проще, чем голосовые помощники. Поскольку вам не нужно затем преобразовывать речь в текст для интерпретации, вы удаляете множество инструментов из уравнения при создании чат-бота. Генерация текста следующего поколения, такая как GPT-3, способна генерировать не только ответы на основные запросы, но и целые новости из «зародыша». Глубокое обучение позволяет это сделать.

Виртуальные помощники и чат-боты, основанные на алгоритмах глубокого обучения, учатся на своих данных и в диалогах между людьми. Чат-боты, использующие глубокое обучение, изучают существующие взаимодействия между клиентами и персоналом службы поддержки, создают парные сообщения и ответы и компенсируют опечатки и грамматические ошибки пользователя.

ДОПОЛНЕННАЯ РЕАЛЬНОСТЬ (AR)

Дополненная реальность позволяет накладывать 3D-объекты на реальный мир для полного погружения. Мобильные чат-боты и AR-аватары на основе дополненной реальности — отличные примеры использования этой технологии. Например, Arcade создала мобильного чат-бота AR Avatar под названием Miss Perkins для музея Ragged School в Восточном Лондоне. Этот помощник служит проводником для посетителей музея и проводит с ними викторины, обеспечивая интерактивный пользовательский интерфейс.

Еще один пример интеллектуального чат-бота с дополненной реальностью был разработан для Венского технологического музея. Создатели также использовали мобильную дополненную реальность. Функциональность чат-бота включает в себя проведение туров и ответы на вопросы пользователей о конкретных элементах отображения в текстовом, графическом, видео- и аудиоформатах.

Развитие технологий Метавселенной и виртуальной реальности приводит к логическому завершению виртуальных помощников: 3D-аватары с искусственным интеллектом. В сочетании с искусственным интеллектом виртуальные помощники AR становятся более функциональными, обходя ограничения существующих инструментов AR. Например, глубокое обучение позволяет IVA фиксировать поведение пользователя в режиме реального времени, чтобы управлять нейронными сетями, которые автоматически обучают и повышают производительность виртуального помощника.

ГЕНЕРАТИВНЫЕ ПРОТИВОПОЛОЖНЫЕ СЕТИ (GANS)

Будучи алгоритмическими архитектурами, использующими нейронные сети, Генеративно-состязательные сети создают новые экземпляры синтетических данных. Сети GAN состоят из образцов реальных изображений и генераторов, загружаемых в дискриминаторы для создания реалистичного трехмерного лица для аватаров ИИ и трехмерных помощников.

Эта технология использовалась во многих видеоиграх и других продуктах для создания реалистичных человеческих фигур. GAN также можно использовать для преобразования неподвижных изображений в трехмерные изображения полной глубины. Возможно, наиболее продвинутой интеграцией аватаров с искусственным интеллектом на данный момент является проект Nvidia Omniverse Avatar Project Maxine, который создает фотореалистичную анимацию человеческого лица в режиме реального времени, произносящую текст в речь.

ЭМОЦИОНАЛЬНЫЙ ИНТЕЛЛЕКТ (ЭИ)

Когда дело доходит до аватаров с искусственным интеллектом или виртуальных 3D-помощников, важен не столько голос, сколько язык тела и человеческие эмоции. Эмоциональный интеллект на основе ИИ помогает IPA отслеживать невербальное поведение пользователя в режиме реального времени при общении и реагировать соответствующим образом. Это сделает виртуальных помощников более отзывчивыми благодаря Emotion AI, который отслеживает человеческие эмоции, отслеживая выражения лица, язык тела или речь.

В основе Emotion AI лежат компьютерное зрение и алгоритмы машинного обучения. Технология распознавания лиц анализирует выражение лица с помощью стандартной веб-камеры или камеры смартфона. Алгоритмы компьютерного зрения определяют основные точки лица человека и отслеживают их движение для интерпретации эмоций. Далее система определяет чувства человека по комбинации мимики, сравнивая собранные данные с библиотекой шаблонных изображений. Такие решения, как Affectiva или Kairos, могут измерять следующие эмоциональные показатели: радость, печаль, гнев, презрение, отвращение, страх и удивление.

Следует также упомянуть о распознавании эмоций по речи. Такое программное обеспечение анализирует не только то, что говорят люди, но и то, как это было сказано. Для этого система извлекает паралингвистические признаки, помогающие идентифицировать изменения тона, громкости, темпа, чтобы интерпретировать их как человеческие эмоции.

Проблемы и будущее технологии виртуального ИИ-помощника

Мы не можем обойти стороной вопрос о том, что внедрение технологии виртуального помощника связано с определенными проблемами. Одним из основных препятствий на пути к будущему технологии помощников ИИ являются законы, касающиеся хранения и использования данных. Неконтролируемое использование данных клиентов в качестве обучающих данных для внедрения ИИ может быть легко оспорено путем изменения законов о безопасности данных в странах по всему миру. Спорная политика обработки данных таких компаний, как Meta (ранее Facebook), вызвала опасения по поводу чрезмерного охвата корпораций и проблем с конфиденциальностью после событий громких скандалов с осведомителями.

Поэтому при разработке приложения-помощника ИИ учитывайте требования конфиденциальности и защиты данных, такие как GDPR в законодательстве ЕС. . Убедитесь, что ваше приложение полностью соответствует требованиям.

Параллельно с первым вызовом стоит вопрос безопасности и защиты от веток безопасности. Механизмы безопасности, такие как сквозное шифрование, двухфакторная аутентификация и биометрия, являются одними из лучших функций для защиты приложений помощников ИИ. Кроме того, опытная команда инженеров по искусственному интеллекту поможет вам внедрить индивидуальные системы безопасности на основе алгоритмов машинного обучения.

Несмотря на все трудности, будущее технологии ИИ-помощника выглядит ярким. Достижения в области технологий также стимулируют разработку более интеллектуальных виртуальных помощников. Поскольку процесс НЛП продолжает развиваться, виртуальные помощники смогут выполнять более сложные задачи. В частности, IVAa сможет вносить упреждающие предложения на основе самообучающихся алгоритмов и быть еще более полезным для пользователей.

Развитие метавселенных также тесно связано в ИИ с виртуальными помощниками. Интеллектуальные аватары — лучший способ обеспечить личность пользователя в 3D-вселенной. Искусственный интеллект — это то, что позволит нам добиться большей реалистичности аватаров. На основе изучения физических движений модель обучается и может, например, точно предсказывать положение плеч и локтей в зависимости от того, где находятся ваша гарнитура и контроллеры.

Написано Евгением Краснокутским, руководителем группы AI/ML в MobiDev.

Полная версия статьи была изначально опубликована [здесь] (https://mobidev.biz/blog/ai-virtual-assistant-technology-guide) и основана на исследованиях технологии MobiDev.*

Оригинал