Почему так много инициатив ИИ терпят неудачу

Почему так много инициатив ИИ терпят неудачу

26 апреля 2023 г.

Вы ищете на своем iPhone фотографию своего друга, сделанную пару лет назад. Есть тысячи изображений для поиска, но приложение Apple Photo находит нужного человека, и в считанные секунды вы находите изображение, которое ищете.

Чтобы это произошло, за кулисами много работы, включая распознавание лиц, анализ изображений и автоматическую пометку, которые объединяются, чтобы сэкономить усилия, делая выводы о том, что необходимо или нужно, а затем действуя на основе этих выводов в режиме реального времени.

Такие компании, как Apple, а также Google, FedEx, Uber, Netflix, потратили годы на создание систем и архитектур, которые позволяют сделать пользовательский опыт более простым, персонализированным и интуитивно понятным. В некоторых случаях искусственный интеллект позволяет принимать важные решения почти мгновенно или делать прогнозы в режиме реального времени, что позволяет бизнесу улучшать результаты в данный момент.

Это не ускользает от внимания более широкого круга предприятий: согласно Опрос компании Deloitte за 2022 год: 94 % руководителей компаний считают, что ИИ имеет решающее значение для успеха.

Так почему же для большинства организаций создание успешных приложений ИИ является огромной проблемой? Его можно свести к трем основным препятствиям: неверные данные, неправильная инфраструктура, неподходящее время.

Препятствия на пути к успеху ИИ

По данным McKinsey, 56% компаний внедрили ИИ, но, как отмечает Accenture в отчет, всего 12 % удалось добиться превосходного роста и трансформации бизнеса с помощью ИИ.

На пути успешного внедрения ИИ в приложения реального времени стоит множество камней преткновения, но большинство из них связано с одним центральным элементом: данными.

Многие традиционные системы ML/AI и получаемые ими результаты зависят от хранилищ данных и пакетной обработки. В результате требуется сложный набор технологий, перемещений и преобразований данных, чтобы «перенести» эти исторические данные в системы машинного обучения.

Данные, которые передаются в модель машинного обучения, называются функциями (измеряемыми свойствами, которые можно использовать для анализа), которые обычно основаны на данных, хранящихся в базе данных приложения или записанных в файлы журнала. Они часто требуют преобразований, например масштабирования значений или вычислений на основе предыдущих записей (например, скользящего среднего на момент создания записи).

Как правило, это замедляет поток данных от входа к решению и к выводу, что приводит к упущенным возможностям, которые могут привести к оттоку клиентов, или к тому, что выявленные шаблоны угроз кибербезопасности остаются необнаруженными и неустранимыми. Проблемы можно резюмировать как наличие неподходящих наборов данных, поддерживаемых несогласованной инфраструктурой, которая движется слишком медленно.

Неверные данные…

Из-за огромного объема данных (и связанных с этим затрат) их необходимо агрегировать для простоты передачи и доступности. Проще говоря, данные, которые агрегированы или чрезмерно преобразованы, не позволяют организациям легко определять правильные действия в режиме реального времени и уменьшают возможность достижения желаемого результата, будь то предлагаемый продукт, обновленный маршрут доставки посылки или скорректированная настройка на машине на заводе. . Это замедляет способность организации находить ответы на новые вопросы, прогнозировать результаты или адаптироваться к быстро меняющемуся контексту.

Исследователи данных вынуждены использовать наборы данных грубой детализации, которые будут давать расплывчатые прогнозы, которые, в свою очередь, не приведут к ожидаемому влиянию на бизнес, особенно в дискретных контекстах, таких как сеанс клиента. Они также могут быть не в курсе, когда приложения реконфигурируются или источники данных развиваются, что приводит к важным событиям, которые не передают функции. Эти недостающие данные приводят к неосведомленному принятию решений, когда дело доходит до выбора моделей. Это приводит к менее точным прогнозам или, что еще хуже, модели, использующие ошибочные данные, могут привести к неверным решениям.

Наконец, агрегация ориентирована на создание существующих функций. Разработка новых функций — обработка данных, необходимых для выбора и обучения моделей — требует возврата к необработанным данным для различных агрегатов. Эта дополнительная обработка значительно замедляет работу специалистов по данным, удлиняя процесс экспериментирования.

… в неправильной инфраструктуре…

Вторая проблема связана с текущими инфраструктурами машинного обучения, поддерживающими инициативы в области искусственного интеллекта, и их неспособностью обрабатывать наборы данных в больших масштабах. Качество моделей и их результаты повышаются с увеличением объема принимаемых данных о событиях. Организациям часто приходится обрабатывать огромные объемы событий, с которыми устаревшие инфраструктуры не справляются.

Последовательность обучающих моделей и их обслуживание для выполнения логических выводов становится сложной, особенно потому, что она требует перемещения данных между ними. Попытка справиться с масштабом, необходимым для высококачественных прогнозов, доводит традиционные архитектуры до предела. Это также кропотливо медленно, ненадежно и дорого. Все это угрожает ценности и влиянию приложений, которые становятся все более важными.

… не в то время

Еще один камень преткновения возникает из-за того, что данные обрабатываются слишком поздно, чтобы оказать какое-либо существенное влияние. Текущие архитектуры требуют обработки данных через несколько систем для обслуживания модели, и это приводит к задержке, которая по-разному влияет на инициативы ИИ:

* Выход модели не может изменить ход развития ситуации. Например, он предлагает клиенту предложение в тот момент, когда коэффициент конверсии снизился, и клиент мог купить что-то еще. * Время, необходимое для обслуживания моделей и получения результата, не соответствует ожиданиям цифрового опыта или автоматизированного процесса. Иногда могут пройти дни, прежде чем данные будут готовы к обработке. На рынках с высокой конкуренцией такие старые данные в лучшем случае неуместны, а в худшем — опасны (вспомните приложение для совместного использования, применяющее повышенные цены во время кризиса или стихийного бедствия). * Специалисты по данным не имеют доступа к последним данным. Это может повлиять на результаты моделей и может потребовать от специалистов по обработке данных затрат драгоценного времени на поиск дополнительных точек данных или источников.

Многие современные инфраструктуры машинного обучения не могут обслуживать приложения, поскольку они слишком дороги, слишком сложны и слишком медленны. И нормативные изменения могут в конечном итоге потребовать от организаций предоставления более подробных объяснений того, как модели обучались и почему они пришли к тому или иному решению. Такой уровень видимости невозможен для современных архитектур из-за обработки, агрегирования и множества задействованных инструментов.

Проблема со многими инфраструктурами заключается в пути, который данные должны пройти к приложению, управляемому ИИ. Проще говоря, ответ на проблему заключается в том, чтобы сделать наоборот.

Применение ИИ к данным

Лидеры, подобные компаниям, упомянутым в начале этой статьи, добиваются успеха, собирая огромные объемы данных в реальном времени от клиентов, устройств, датчиков или партнеров по мере их прохождения через их приложения. Эти данные, в свою очередь, используются для обучения и обслуживания их моделей. Эти компании действуют на основе этих данных в данный момент, обслуживая миллионы клиентов в режиме реального времени.

Еще одним важным фактором успеха лидеров является тот факт, что они собирают все данные на самом детальном уровне — в виде событий с отметкой времени. Это означает, что у них не просто много данных; они также могут понять, что и когда произошло с течением времени.

Ведущие предприятия, такие как Netflix, FedEx и Uber, «привносят ИИ туда, где есть данные», чтобы они могли делать выводы там, где находится приложение. Другими словами, они встраивают свои модели машинного обучения в свои приложения, агрегируют события в режиме реального времени с помощью потоковых сервисов и предоставляют эти данные моделям машинного обучения. И у них есть база данных (в случае трех лидеров, упомянутых выше, это высокопроизводительная база данных NoSQL с открытым исходным кодом Apache Cassandra), которые могут хранить огромные объемы данных о событиях.

Имея подходящую унифицированную платформу данных, инициативы по машинному обучению имеют подходящую инфраструктуру и подходящие данные. Инженеры по данным и специалисты по данным могут «вырваться из своих бункеров» и согласовать свои процессы разработки признаков, экспериментов с моделями, обучения и выводов для прогнозирования мощности. Хотя для этих процессов по-прежнему требуется множество инструментов, все они работают на одном основании данных.

Наиболее успешные приложения на основе ИИ, основанные на огромных объемах данных о событиях для обслуживания моделей и приложений, выделяются и лидируют, постоянно совершенствуя возможности, которые они предоставляют конечным пользователям. Их способность обслуживать миллионы клиентов и становиться умнее при этом позволяет им определять рынки, на которых они работают.

Узнайте, как DataStax обеспечивает ИИ в реальном времени


Эд Ануфф.

Эд — директор по продукту в DataStax. У него более 25 лет опыта работы в качестве лидера по продуктам и технологиям в таких компаниях, как Google, Apigee, Six Apart, Vignette, Epicentric и Wired.


:::информация Также опубликовано здесь.

:::


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE