Zetaris: Федеративные озера данных могут превратить корпоративные данные в «беспорядок» для поддержки искусственного интеллекта
9 февраля 2024 г.В последние десятилетия австралийские организации усердно пытались объединить данные. Они перешли от витрин данных, которые содержали информацию, специфичную для бизнес-подразделений, к хранилищам данных, озерам данных, а теперь и «домам озер», которые содержат структурированные и неструктурированные данные.
Однако теперь концепция федеративного дома у озера может одержать победу. Находясь в США, Винай Сэмюэл, генеральный директор компании Zetaris, занимающейся аналитикой данных и виртуализацией, рассказывает TechRepublic, что реальность вынуждает организации прокладывать пути к данным там, где они находятся, а не пытаться их централизовать.
Основатели Zetaris осознали, что данные никогда не смогут быть полностью централизованы
ТР: Что побудило вас основать Zetaris еще в 2013 году?
Сэмюэл: Zetaris родился в результате моего долгого пути в сфере хранилищ данных — того, что раньше называли миром больших баз данных. Это произошло в 1990-х годах, когда австралийские банки, телекоммуникационные компании, розничные торговцы и правительства собирали данные в основном для поддержки принятия решений и составления отчетов для выполнения каких-то задач (бизнес-аналитики).
ПРЕМИУМ: ключевые особенности, которые предприятиям следует учитывать при выборе облачного хранилища данных.
Мы поняли одну вещь: клиенты постоянно пытались найти следующую лучшую платформу данных. Они постоянно запускали проекты, пытались объединить все свои данные, свести их воедино. И мы спросили себя: «Почему заказчику так и не удалось достичь того, чего он пытался достичь?» — на самом деле это было единое представление всех их данных в одном месте.
Ответ был: это было просто невозможно. Было слишком сложно собрать все данные за такое время, которое имело бы смысл для принятия бизнес-решения.
ТР: Каков был ваш подход к решению проблемы централизации данных?
Сэмюэл: Когда мы основали компанию, мы сказали: «Что, если мы бросим вызов предположению, что для ежедневного анализа данных или составления отчетов вам необходимо объединить их?»
Мы сказали: «Давайте создадим систему, в которой вам не нужно будет объединять данные. Вы могли бы оставить его на месте, где бы он ни находился, и проанализировать его там, где он был создан, вместо того, чтобы перемещать его, ну, на следующую лучшую платформу данных».
Так началась компания, и, честно говоря, это было огромным испытанием. Вам нужны были огромные вычислительные мощности. Ему требовался новый тип программного обеспечения; то, что мы сейчас называем программным обеспечением для виртуализации аналитических данных. Нам потребовалось много времени, чтобы решить эту проблему и прийти к модели, которая работала и заменит то, где организации находятся сегодня или были вчера.
ТР: Это должно показаться отличным решением сейчас, когда ИИ действительно набирает обороты.
Сэмюэл: Думаю, мы пришли к этой идее довольно рано, в 2013 году, и это было хорошо, потому что нам потребовалось добрых пять-шесть или семь лет, чтобы реально реализовать эту идею и создать возможность оптимизатора запросов, которая позволит ее реализовать. .
Весь этот переход к аналитике в реальном времени, к ИИ в реальном времени или генеративному ИИ привел к тому, что то, что мы делаем, теперь стало критически важным, а не просто приятной идеей, которая может сэкономить организации немного денег.
Последние 18 месяцев или около того были невероятными. Сегодня организации переходят к внедрению генеративного искусственного интеллекта или той обработки, которую мы видим в Chat GPT, поверх своих корпоративных данных. Для этого вам абсолютно необходимо иметь возможность обрабатывать данные повсюду в вашем озере данных. У вас нет времени или роскоши объединять данные, очищать их, упорядочивать и делать все необходимое для создания единого представления базы данных ваших данных.
Рост ИИ означает, что предприятия хотят иметь доступ ко всем данным в режиме реального времени
ТР: Изменилось ли со временем ценностное предложение Zetaris?
Сэмюэл: В первые годы ценностное предложение заключалось преимущественно в экономии средств. Знаете, если вам не придется перемещать данные в центральное хранилище данных или перемещать их все в облачное хранилище данных, вы сэкономите много денег, верно? Это было наше ценностное предложение. Мы могли бы сэкономить вам много денег и позволить вам выполнять те же запросы, оставляя данные там, где они есть. Это также имеет некоторые преимущества в плане безопасности. Потому что, если вы не перемещаете данные, это безопаснее.
Хотя мы определенно преуспели в этом ценностном предложении, было недостаточно заставить людей просто вскочить и сказать: «Мне это абсолютно необходимо». С переходом на ИИ вы больше не сможете ждать данных или соглашаться с тем, что будете выполнять аналитику только в отношении той части вашего набора данных, которая находится в хранилище данных или озере данных.
Ожидается следующее: ваш ИИ может видеть все ваши данные, и они находятся в форме, готовой для анализа с точки зрения качества данных и точки зрения управления.
ТР: В чем, по вашему мнению, заключается ваше уникальное торговое предложение сегодня?
Сэмюэл: Мы даем возможность клиентам анализировать все данные, где бы они ни находились, и предоставляем им единую точку доступа к данным таким образом, чтобы это было безопасно.
Это не просто возможность предоставить пользователю доступ ко всем данным в облаке и во всем центре обработки данных. Речь также идет о том, чтобы знать, кто является пользователем, каков вариант использования и подходит ли это с точки зрения конфиденциальности, управления и регулирования, а также управлять и регулировать этот доступ.
SEE: Австралийские организации изо всех сил пытаются найти баланс между персонализацией и конфиденциальностью.
Мы также стали сервером данных для ИИ. Мы даем возможность организациям создавать хранилище контента для приложений искусственного интеллекта.
Существует так называемая генерация с расширенным поиском, которая позволяет вам дополнить генерацию (большую языковую модель) ответа на запрос вашими личными данными. А для этого вам необходимо убедиться, что данные готовы и доступны — они в правильном формате и имеют правильное качество данных.
Мы — то приложение, которое готовит данные для ИИ.
Готовность данных — ключевой барьер на пути к успешному развертыванию ИИ
ТР: Какие проблемы с ИИ возникают у организаций?
Сэмюэл: Мы видим множество компаний, желающих разработать возможности искусственного интеллекта. Мы обнаружили, что первое препятствие, с которым они столкнулись, — это не задача собрать вместе группу ученых, занимающихся данными, или найти тот удивительный алгоритм, который может осуществлять ипотечное кредитование или прогнозировать использование сети, в зависимости от отрасли, в которой работает клиент.
Вместо этого речь идет о готовности данных и доступе к данным. Потому что, если вы хотите выполнить обработку своих личных данных в стиле ChatGPT, часто корпоративные данные просто не готовы. Это не в той форме. Это в разных местах, с разным уровнем качества.
И поэтому первое, что они обнаруживают, — это то, что у них действительно есть проблема с управлением данными.
ТР: Видите ли вы проблему галлюцинаций в корпоративных моделях искусственного интеллекта?
Сэмюэл: Одна из причин, по которой мы существуем, — это отрицание галлюцинаций. Мы применяем модели рассуждения, а также различные методы и фильтры для проверки ответов, предоставляемых частным LLM, прежде чем они будут использованы. Это означает, что обычно он сверяется с хранилищем контента, которое создается на основе личных данных клиента.
Так, например, простой галлюцинацией может быть то, что клиенту банка, принадлежащему к более низкому сегменту благосостояния, предлагают крупную ссуду. Это может быть галлюцинация. Этого просто не произойдет, если наша технология будет использоваться поверх LLM, потому что наша технология обращается к реальным данным, анализирует профиль благосостояния этого клиента и применяет все нормативные и нормативные правила.
ТР: Есть ли еще какие-либо общие проблемы с данными, с которыми вы сталкиваетесь?
Сэмюэл: Распространенной проблемой является объединение различных типов данных для ответа на бизнес-вопрос.
Например, крупные банки собирают много объектных данных — изображений, звука, данных об устройствах. Они пытаются придумать, как использовать это в сочетании с традиционными данными банковских выписок по транзакциям.
Довольно сложно придумать, как объединить эти структурированные и неструктурированные типы данных таким образом, чтобы улучшить ответ на бизнес-вопрос.
Например, бизнес-вопрос может звучать так: «Какой продукт по управлению благосостоянием является подходящим или следующим лучшим для этого клиента?» Это учитывая мое понимание аналогичных клиентов за последние 20 лет и всю другую информацию об этом клиенте, которую я имею в Интернете и в своей сети.
Задача объединения структурированных и неструктурированных данных в рамках глубокого аналитического вопроса — это проблема доступа к данным в разных местах и в разных формах.
Клиенты используют ИИ, чтобы рекомендовать инвестиции и исцелять сети
ТР: Есть ли у вас примеры того, как вы помогаете клиентам использовать данные и искусственный интеллект?
Сэмюэл: Мы работали с одной крупной группой по управлению активами в Австралии, где мы привыкли писать для них рекомендательные отчеты. В прошлом реальному управляющему капиталом приходилось тратить недели, если не месяцы, на анализ сотен, если не тысяч PDF-файлов, файлов изображений, данных транзакций и отчетов BI, чтобы дать правильные рекомендации по портфелю.
Сегодня это происходит за считанные секунды. Все это происходит, и это не круговая диаграмма или тенденция, это письменная рекомендация. Это сочетание искусственного интеллекта с автоматизированным управлением информацией.
И это то, что мы делаем; мы сочетаем искусственный интеллект с автоматизированным управлением информацией, чтобы решить проблему выбора следующего лучшего продукта по управлению активами для клиента.
В телекоммуникационном секторе мы помогаем автоматизировать управление сетями. Большой проблемой для телекоммуникационных компаний является выход из строя какой-то части их инфраструктуры. У них есть около пяти или шести различных потенциальных причин, по которым выходит из строя вышка или их устройства.
С помощью ИИ мы можем быстро понять, в чем проблема, и обеспечить процесс самовосстановления этой сети.
ТР: Что особенно интересно в работе над генеративным искусственным интеллектом, которой вы занимаетесь?
Сэмюэл: Что для меня действительно удивительно, так это то, что благодаря тому, как мы это делаем, наша технология теперь позволяет обычным людям, которые не умеют программировать, общаться с данными. Благодаря генеративному искусственному интеллекту на нашей платформе данных мы можем выражать запросы, используя естественный язык, а не код, и это действительно открывает ценность данных для бизнеса.
Традиционно между деловым человеком и данными существовал технический разрыв. Если вы не умеете программировать и не умеете хорошо писать SQL, вы не сможете задавать те бизнес-вопросы, которые хотели задать. Вам придется получить некоторую помощь. Затем возникла проблема перевода между людьми, которые пытаются помочь, и практикующим бизнесом.
Ну, теперь это прошло. Умный бизнес-практик, использующий генеративный искусственный интеллект поверх частных данных, теперь имеет возможность напрямую обращаться к данным и не беспокоиться о кодировании. Это действительно открывает потенциал для действительно интересных вариантов использования в каждой отрасли.
Австралия следует за Америкой в понимании ценности федеративного дома у озера
ТР: Зетарис родился в Австралии. Все ваши клиенты австралийцы?
Сэмюэл: В течение последних 18 месяцев мы уделяли довольно сильное внимание американскому рынку, особенно в отраслях, которые развиваются быстрее всего, таких как здравоохранение, банки, розничные торговцы телекоммуникационными компаниями, производители, и мы также получаем некоторый интерес со стороны правительства. . Сейчас нас около 40 человек.
Австралия является центром, но мы разбросаны по Филиппинам и Индии и имеем небольшое присутствие в Америке.
Варианты использования интересны и связаны с анализом данных в любом месте с помощью генеративного ИИ. Например, сейчас мы помогаем большой группе больниц проводить сортировку. Когда пациент приходит в группу, они используют генеративный искусственный интеллект, чтобы очень быстро принять решение о том, является ли чья-то боль в груди панической атакой или на самом деле это сердечный приступ или что-то еще.
ТР: Приближается ли Австралия к принятию идеи федеративного дома у озер?
Сэмюэл: (Австралийский) рынок имеет тенденцию следовать за американским рынком. Обычно это происходит примерно на год позже.
В Америке мы ясно и ясно видим, что домик у озера не обязательно означает централизованный; существует признание того, что часть ваших данных будет храниться в домике у озера, но тогда у вас будут спутники данных где-то еще. И это обусловлено реальностью, в том числе компаниями, имеющими несколько присутствия в облаке; Для большинства предприятий нет ничего необычного в том, что их поддерживают два или три поставщика облачных услуг, а также имеется большой центр обработки данных.
Это тенденция в Америке, и мы начинаем видеть ее рост в Австралии.
Изменение не позволит консолидировать данные в одном месте.
ТР: То есть идея централизации организационных данных все еще невозможна?
Сэмюэл: Идея собрать все это вместе и объединить в одном хранилище данных или одном облаке — я считаю, и мы до сих пор верим — на самом деле невозможна.
Мы видели, с какими трудностями столкнулись банки, телекоммуникационные компании, розничные торговцы и правительства, когда начали заниматься поддержкой принятия решений и управлением информацией, и, откровенно говоря, беспорядок с данными был и остается на крупных предприятиях. Потому что данные поступают в разной форме, с разными уровнями качества, уровнями управления и из множества приложений — от центра обработки данных до облака.
Особенно сейчас, когда вы смотрите на скорость бизнеса и объем изменений, с которыми мы сталкиваемся, приложения, генерирующие данные, постоянно обнаруживаются и внедряются в организации. Объем изменений не позволяет провести единую консолидацию данных.
Оригинал