Уменьшение генеративных галлюцинаций ИИ и доверие к вашим данным: интервью с CPO Cognite Мо Танабяном
1 августа 2023 г.С распространением генеративного ИИ в деловом мире сегодня очень важно, чтобы организации понимали, откуда приложения ИИ берут свои данные и кто имеет к ним доступ.
Я поговорил с Мо Танабяном, директором по продуктам компании Cognite, производящей промышленное программное обеспечение, и бывшим глобальным вице-президентом Microsoft Azure, о получении достоверных данных, галлюцинациях ИИ и будущем ИИ. Ниже приводится стенограмма моего интервью с Танабяном. Интервью было отредактировано для большей длины и ясности.
Перейти к:
- Надежные данные получаются из сочетания человеческих знаний и знаний ИИ.
Баланс публичной и частной информации является ключевым
Вопросы, которые нужно задать, чтобы сократить галлюцинации ИИ
Надежные данные получаются из сочетания человеческих знаний и знаний ИИ.
Меган Крауз: Определите, что для вас является надежными данными и как их видит Cognite.
Мо Танабиан: Данные имеют два измерения. Один — это фактическое значение данных и параметр, который они представляют; например, температура актива на заводе. Кроме того, существует также реляционный аспект данных, который показывает, как источник этого датчика температуры связан с остальными другими генераторами данных. Этот ценностно-ориентированный аспект данных и реляционный аспект этих данных важны как для качества, достоверности, так и для истории, а также для пересмотра и версии данных.
Очевидно, что есть конвейер связи, и вам нужно убедиться, что источники данных, подключающиеся к вашей платформе данных, имеют достаточную надежность и безопасность. Убедитесь, что данные передаются в целости и защищены от злонамеренных действий.
SEE: основные технологические игроки поддерживают рекомендации по безопасности и кибербезопасности ИИ, которые аналогичны недавним рекомендациям Белого дома (TechRepublic).
Сначала вы получаете данные внутри своей платформы данных, затем они начинают формироваться, и теперь вы можете обнаруживать и создавать реляционный аспект данных.
Вам, очевидно, нужно достаточно точное представление вашего физического мира в вашем цифровом домене, и мы делаем это с помощью Cognite Data Fusion. Искусственный интеллект отлично справляется с 97% работы, но в последних 3% всегда есть что-то, чего не хватает. Модель ИИ не была обучена этим 3%, или данные, которые мы использовали для обучения этим 3%, не были качественными данными. Таким образом, в процессе всегда присутствует механизм аудита. Вы включаете человека в смесь, и человек фиксирует эти 3%, в основном недостатки: недостатки качества данных [и] недостатки точности данных. Затем это становится тренировочным циклом для движка ИИ. В следующий раз движок ИИ будет достаточно осведомлен, чтобы не совершить ту же ошибку.
Мы позволяем ChatGPT обращаться к графу знаний, этому цифровому двойнику, который мы называем гибкой моделью данных. И там вы снижаете частоту галлюцинаций [вниз]. Таким образом, это сочетание знаний, которые представляют физический мир, и большой языковой модели, которая может взять запрос на естественном языке и превратить его в язык запросов, понятный компьютеру, — сочетание того и другого создает волшебство.
Баланс публичной и частной информации является ключевым
Меган Крауз: Что есть в Cognite, чтобы контролировать, какие данные
внутренняя служба обучается, и к какой общедоступной информации может получить доступ генеративный ИИ?
Мо Танабиан: Отрасль разделилась во мнениях о том, как с этим справиться. Как и в первые дни, я не знаю, Windows, Microsoft DOS или индустрии ПК, шаблоны использования еще не были окончательно установлены. Я думаю, что в течение следующего года или около того мы перейдем к стабильной архитектуре. Но прямо сейчас есть два способа сделать это.
Один из них, как я уже упоминал, заключается в использовании внутренней модели ИИ — мы называем ее моделью ученика — которая обучается на личных данных клиентов и не покидает помещения клиентов и облачных арендаторов. И модель большого учителя, которая в основном представляет собой ChatGPT или другие LLM, подключается к ней через набор API. Таким образом, данные остаются в пределах аренды клиента и не выходят наружу. Это одна из архитектур, которая практикуется прямо сейчас — Microsoft является ее сторонником. Это изобретение архитектуры «ученик-учитель» от Microsoft.
Второй способ — не использовать ChatGPT или общедоступные LLM, а размещать собственные
LLM, как Лама. Llama 2 была недавно анонсирована Meta. [Llama и Llama 2] теперь доступны с открытым исходным кодом [и] для коммерческого использования. Это серьезный тектонический сдвиг в отрасли. Он настолько велик, что мы еще не поняли его воздействия, и причина в том, что внезапно у вас появляется довольно хорошо обученный предварительно обученный преобразователь. [Примечание автора: в данном контексте трансформер — это основа для генеративного ИИ. GPT означает генеративный предварительно обученный преобразователь.] И вы можете разместить свой собственный LLM в качестве клиента или поставщика программного обеспечения, такого как мы. Таким образом, вы защищаете данные клиентов. Он никогда не покидает и переходит к общедоступному LLM.
Вопросы, которые нужно задать, чтобы сократить галлюцинации ИИ
Меган Крауз: Что должны иметь в виду технические специалисты, обеспокоенные галлюцинациями ИИ, когда решают, стоит ли использовать продукты генеративного ИИ?
Мо Танабиан: Прежде всего: как я представляю свой физический мир и где мои знания?
Во-вторых, данные, которые поступают в этот граф знаний: эти данные высокого качества? Я знаю, откуда берутся данные? Происхождение данных? Это точно? Это своевременно? Сейчас много измерений. Современная платформа обработки данных может справиться со всем этим.
И последний вопрос: есть ли у меня механизм, с помощью которого я могу связать генеративную модель большого языка ИИ с моей платформой данных, с моим цифровым двойником, чтобы избежать галлюцинаций и потери данных?
Если ответы на эти три вопроса ясны, у меня есть довольно хорошая основа.
Меган Крауз: Что вас больше всего волнует в отношении генеративного ИИ сейчас?
Мо Танабиан: Генеративный ИИ — это одна из тех фундаментальных технологий, которые похожи на то, как программное обеспечение изменило мир. Марк [Андрисен, партнер венчурной компании Andreessen Horowitz из Силиконовой долины] в 2011 году сказал, что программное обеспечение пожирает мир, и программное обеспечение уже поглотило мир. Программному обеспечению понадобилось 40 лет, чтобы сделать это. Я думаю, что ИИ создаст еще один сдвиг парадигмы в нашей жизни и в том, как мы живем и ведем бизнес в течение следующих пяти лет.
Оригинал