Подходят ли общедоступные или проприетарные решения для генеративного ИИ для вашего бизнеса? Интервью с экспертом Аароном Калбом

Подходят ли общедоступные или проприетарные решения для генеративного ИИ для вашего бизнеса? Интервью с экспертом Аароном Калбом

16 июня 2023 г.
ИИ, такой как ChatGPT, обучается в Интернете, в то время как проприетарные наборы данных используют собственные данные бизнеса. Бывший инженер Siri Аарон Калб рассказывает, как выбрать между публичным и проприетарным ИИ.

Когда дело доходит до генеративного искусственного интеллекта, следует ли вашей организации выбирать общедоступный или проприетарный ИИ? Для начала необходимо рассмотреть основные отличия этих вариантов.

Публичный ИИ может иметь обширную базу знаний и выполнять множество задач. Однако общедоступный ИИ может передать эти данные обратно в обучающие данные модели, что может привести к появлению уязвимостей в системе безопасности. Альтернатива, которая обучена искусственному интеллекту и размещена внутри компании с собственными данными, может быть более безопасной, но требует гораздо большей инфраструктуры.

Некоторые компании, в том числе Samsung, запретили использование общедоступного генеративного ИИ для корпоративного использования из-за угроз безопасности. В ответ на эти опасения OpenAI, компания, стоящая за ChatGPT, добавила пользователям возможность ограничить использование своих данных в апреле 2023 года.

Аарон Калб, соучредитель и директор по стратегии компании по анализу данных Alation, рассказал нам о том, как генеративный ИИ используется в анализе данных и что другие организации могут узнать о состоянии этой быстро развивающейся области. Работая инженером над Siri, он понял, что организациям следует учитывать при выборе новых технологий, включая выбор между общедоступными или закрытыми наборами данных ИИ.

Ниже приводится стенограмма моего интервью с Калбом. Он был отредактирован для увеличения длины и ясности.

Перейти к:

    Обучить собственный ИИ или воспользоваться госуслугами? Как решить, подходит ли ИИ для вашего предприятия Определение права собственности на данные, которые использует ИИ Собственный ИИ позволяет заглянуть в «черный ящик» Найдите баланс между полезностью и конфиденциальностью

Обучить собственный ИИ или воспользоваться госуслугами?

Меган Крауз: Считаете ли вы, что компании, имеющие свои собственные частные пулы данных, подаваемых в ИИ, станут путем будущего или это будет сочетание публичного и проприетарного ИИ?

Аарон Калб: Внутренние большие языковые модели интересны. Обучение в Интернете имеет свои преимущества и риски — не каждый может себе это позволить или даже хочет это делать. Я был поражен тем, как далеко вы можете продвинуться на большой предварительно обученной модели с тонкой настройкой или быстрым проектированием.

Для более мелких игроков будет много применений вещей [ИИ], которые уже существуют и могут использоваться повторно. Я думаю, что у более крупных игроков, которые могут позволить себе создать свой собственный [ИИ], возникнет соблазн. Если вы посмотрите, например, на AWS и Google Cloud Platform, некоторые из этих вещей напоминают основную инфраструктуру — я имею в виду не то, что они делают с ИИ, а то, что они делают с хостингом и фермами серверов. Легко думать: «Мы огромная компания, мы должны создать собственную ферму серверов». Ну, наш основной бизнес — это сельское хозяйство или производство. Может быть, мы должны позволить лучшим командам Amazon и Google сделать это, и мы будем платить им несколько центов за терабайт хранилища или вычислений.

Я предполагаю, что только крупнейшие технологические компании со временем сочтут выгодным поддерживать свои собственные версии этих [ИИ]; большинство людей в конечном итоге будут использовать сторонний сервис. Эти сервисы станут более безопасными, точными [и] более точно настроенными для отрасли и более дешевыми.

СМОТРИТЕ: Шпаргалка по GPT-4: Что такое GPT-4 и на что он способен?

Как решить, подходит ли ИИ для вашего предприятия

Меган Крауз: Какие еще вопросы, по вашему мнению, должны задать себе лица, принимающие решения на предприятии, прежде чем принимать решение о внедрении генеративного ИИ? В каких случаях его лучше не использовать?

Аарон Калб: У меня есть опыт работы в области дизайна, и моя цель — дизайнерский бриллиант. Вы выдвигаете идею, а затем выбираете ее. Еще одна ключевая вещь, которую я беру из дизайна: вы всегда начинаете не с вашего продукта, а с пользователя и проблемы пользователя. Какие самые большие проблемы у нас есть?

Если команда по развитию продаж говорит: «Мы находим, что получаем лучший отклик и открываемость, если тема и основная часть наших информационных писем действительно адаптированы для этого человека на основе его LinkedIn и на основе его компании или веб-сайта», и «мы «Вы тратите часы в день на выполнение всей этой работы вручную и получаете хороший показатель открываемости, но не так много электронных писем, отправленных за день», — оказывается, генеративный ИИ отлично справляется с этим. Вы можете создать виджет, который просматривает ваш список людей для отправки по электронной почте, и создать его на основе страницы LinkedIn получателя и корпоративного веб-сайта. Человек просто редактирует его вместо того, чтобы написать его за полчаса. Я думаю, что вы должны начать с вашей проблемы.

ПОСМОТРЕТЬ: Генеративный ИИ может создавать текст или видео по запросу, но вызывает опасения по поводу плагиата, неправомерного использования, предвзятости и многого другого.

Аарон Калб: Несмотря на то, что это уже не интересно, многие ИИ представляют собой прогностические модели. Это старое поколение, но это может быть гораздо более прибыльным, чем дать людям возможность печатать в ботах. Люди не любят печатать. Возможно, вам будет лучше просто иметь отличный пользовательский интерфейс, прогнозирующий на основе кликов покупателей или чего-то еще, хотя это другой подход.

Самые важные вещи, о которых следует думать [когда речь идет о генеративном ИИ], — это безопасность, производительность [и] стоимость. Недостатком является то, что генеративный ИИ может быть похож на использование бульдозера для перемещения рюкзака. И вы вводите случайность, возможно, без необходимости. Во многих случаях вы бы предпочли что-то детерминированное.

Определение права собственности на данные, которые использует ИИ

Меган Крауз: С точки зрения ответственности за ИТ, если вы создаете свои собственные наборы данных, кто владеет данными, к которым имеет доступ ИИ? Как это интегрируется в процесс?

Аарон Калб: Я смотрю на AWS и верю, что со временем как вопросы конфиденциальности, так и сам процесс будут становиться все лучше и лучше. Сейчас, конечно, это может быть непросто. Со временем можно будет получить готовую вещь со всеми одобрениями и сертификатами, которым вы должны доверять, даже если вы работаете в федеральном правительстве или в действительно регулируемой отрасли. Это не произойдет в одночасье, но я думаю, что это произойдет.

Однако LLM — очень тяжелый алгоритм. Суть в том, что он учится на всем, но не знает, откуда что взялось. Каждый раз, когда вы беспокоитесь о предвзятости, [ИИ может не подойти]. И нет облегченной версии этого. То, что делает его впечатляющим, делает его дорогим. Эти расходы сводятся не только к деньгам, но и к власти. Недостаточно электронов, плавающих вокруг.

Собственный ИИ позволяет заглянуть в «черный ящик»

Меган Крауз: Alation гордится тем, что обеспечивает прозрачность управления данными. Обсуждали ли вы внутри компании, как обойти проблему «черного ящика» ИИ, когда невозможно понять, почему ИИ принимает те или иные решения?

Аарон Калб: Я думаю, что в местах, где вы действительно хотите знать, откуда берутся все «знания», на которых обучается ИИ, это место, где вы можете построить свою собственную модель и объем данных, на которых он обучается. . Единственная проблема — это первая буква «L» в слове «LLM». Если модель недостаточно велика, вы не получите впечатляющих характеристик. Есть компромисс [с] меньшими тренировочными данными: больше точности, меньше странностей, но также меньше беглости и менее впечатляющие навыки.

Найдите баланс между полезностью и конфиденциальностью

Меган Крауз: Что вы узнали за время работы над Siri, что вы применяете в своем подходе к ИИ?

Аарон Калб: Siri был первым ИИ, похожим на чат-бота. Он столкнулся с очень жесткой конкуренцией со стороны таких игроков, как Google, у которых были такие проекты, как Google Voice, и эти огромные массивы пользовательских разговорных данных. У Сири ничего этого не было; все это было основано на корпусах текстов из газет и тому подобного, и имело много олдскульных, основанных на шаблонах, логических выводов ИИ.

Долгое время, даже когда Siri обновляла используемые алгоритмы, производительность не могла так сильно повыситься. Один [фактор] — политика конфиденциальности. Каждый ваш разговор с Siri стоит особняком; у него нет возможности учиться со временем. Это помогает пользователям поверить в то, что она не используется всеми сотнями способов, которыми Google использует и потенциально злоупотребляет этой информацией, но Apple не может извлечь из этого уроки.

Точно так же Apple продолжала добавлять новые функции. Путешествие Siri показывает, что чем больше ваш мир, тем больше возможностей. Но это также и риск. Чем больше данных вы извлекаете, тем больше возможностей, но и проблем с конфиденциальностью. Этот [генеративный ИИ] — чрезвычайно перспективная технология, но вы всегда двигаете эти ползунки, которые торгуют разными вещами, которые волнуют людей.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE