Databricks приобретает MosaicML и его генеративный ИИ за 1,3 миллиарда долларов
29 июня 2023 г.MosaicML присоединится к семье Databricks в рамках сделки на 1,3 миллиарда долларов и предоставит свою «фабрику» для создания собственных генеративных моделей искусственного интеллекта, объявила Databricks в понедельник. Компании могут использовать подобный ИИ, чтобы ослабить опасения по поводу нарушений прав интеллектуальной собственности.
Сочетание технологии управления данными Databricks и способности MosaicML создавать модели ИИ позволит компаниям создавать свои собственные большие языковые платформы вместо того, чтобы полагаться на общедоступный генеративный ИИ, такой как ChatGPT от OpenAI.
MosaicML создал две генеративные базовые модели ИИ: MPT-7 (с 6,7 миллиарда параметров) и MPT-13 (с 29,9 миллиарда параметров). Базовые модели MPT присоединятся к собственным LLM Databricks с открытым исходным кодом: Dolly 1 и 2.
Перейти к:
- Почему Databricks выбрала MosaicML
Что такое Databricks?
Почему Databricks планирует будущее, полное «частного» ИИ
Цель состоит в том, чтобы упростить обучение ИИ, токарную обработку и сборку.
Кто является конкурентом MosaicML?
Другие новости с саммита Databricks + AI Summit
Почему Databricks выбрала MosaicML
MosaicML был правильным выбором для приобретения Databricks, поскольку у него «самая простая в использовании фабрика на рынке», — заявил генеральный директор и соучредитель Databricks Али Годси на саммите Databricks + AI во вторник.
Он также сослался на схожую корпоративную культуру конкуренции как на причину, по которой MosaicML хорошо подходил.
Приобретение все еще проходит одобрение регулирующих органов; сделка, как ожидается, будет закрыта к концу июля. По словам Годси, у Databricks будет больше информации о том, как продукты MosaicML для обучения искусственного интеллекта и логических выводов будут интегрироваться с программным обеспечением Databricks после завершения этого процесса.
Что такое Databricks?
Databricks в первую очередь предоставляет программное обеспечение для хранения данных и управления данными для корпоративных организаций, а также занимается миграцией платформы данных и аналитикой данных. Databricks сотрудничает с AWS и другими крупными поставщиками корпоративного программного обеспечения и программного обеспечения как услуги.
Почему Databricks планирует будущее, полное частного ИИ
Годси отметил, что его компания будет использовать ресурсы MosaicML для создания «фабрик», на которых клиенты смогут создавать и обучать LLM в соответствии со своими спецификациями. Это означает, что компаниям не придется раскошеливаться на соединения интерфейса прикладного программирования или делиться собственными данными с кем-либо еще, кто использует модель; последнее стало проблемой для компаний, использующих ChatGPT или Google Bard. Клиенты Databricks смогут выбирать между семействами Dolly и MPT или создавать собственный генеративный ИИ на основе одной из существующих моделей.
ПОСМОТРЕТЬ: советы о том, как решить, какая модель генеративного ИИ подходит для вашей организации (TechRepublic)
По словам Годси, сегодня у всех на уме битва за использование моделей фундамента ИИ с закрытым или открытым исходным кодом. Databricks твердо стоит на стороне открытого исходного кода.
«Мы думаем, что для всех будет лучше, если будут открытые исследования для понимания этих моделей», — сказал Годси во время сессии вопросов и ответов на саммите. «Важно, чтобы мы понимали их сильные и слабые стороны, их предубеждения и так далее.
«Но мы также думаем, что, самое главное, компании хотят владеть своей собственной моделью… Они не хотят использовать только одну модель, которую кто-то предоставил, потому что это интеллектуальная собственность. И это конкурентоспособно».
По словам Годси, клиенты хотят контролировать свой собственный IP и хранить свои данные под замком.
Джунаид Сайед, технический директор компании по разработке программного обеспечения для управления данными и аналитики Alation, также находит клиентов, которые интересуются генеративным искусственным интеллектом. Тем не менее, организациям важно знать, что данные, которые они передают в модель обучения, хороши, сказал он в электронном письме TechRepublic.
«Распространение источников данных и увеличение объемов данных усложнили поиск и обнаружение надежных управляемых данных, необходимых для обучения моделей ИИ», — сказал Сайед. «Чтобы быть действительно эффективными, генеративные модели должны быть точно настроены для каталогов данных, специфичных для предметной области, и люди должны проверять их результаты».
Как сделать выбор между публичным или проприетарным ИИ
Умеш Сачдев, соучредитель и главный исполнительный директор компании Uniphore, занимающейся диалоговым ИИ и автоматизацией, рекомендует руководителям предприятий задавать себе следующие вопросы, когда решают, строить ли свой собственный ИИ на базовой модели, такой как MosaicML, или использовать общедоступный ИИ, такой как серия GPT:
- Во что мне обойдется поставщик моделей и насколько увеличится стоимость инфраструктуры из-за GPU?
Поскольку переговоры о регулировании все еще находятся на ранних стадиях, насколько мы должны наклоняться вперед? Если наше предприятие использует ChatGPT, не попадем ли мы под прицел поставщиков контента, которые на законных основаниях оспаривают владение данными или их обучение?
Если мы не хотим использовать что-то, что было обучено на общедоступных или открытых данных, а больше проприетарные наборы данных из нашей собственной отрасли, мы можем спросить, все ли наши данные готовы в одном месте.
Если пилотный проект, который мы делаем, будет успешным, будет ли он масштабироваться? Как насчет подключения всех наших устаревших систем к этому уровню ИИ?
Цель состоит в том, чтобы упростить обучение ИИ, токарную обработку и сборку.
«У большинства организаций есть специализированные задачи, которые они хотят выполнять… и для этого мы хотим, чтобы они могли обучать и настраивать определенные модели», — сказал Годси на саммите Databricks + AI.
По словам Годси, корпоративным клиентам необходим определенный порог технических навыков для создания генеративного ИИ. Он ожидает, что MosaicML сможет удовлетворить потребность в более простом способе создания и обучения технологии ИИ.
«Надеюсь, в конечном итоге мы сделаем это чем-то, что вы сможете сделать несколькими щелчками мыши», — сказал Годси на саммите.
«Эта технология (генеративный ИИ) находится в зачаточном состоянии, и многое еще предстоит узнать о суверенитете данных, масштабируемости и стоимости», — сказал Сачдев в электронном письме TechRepublic. «Компании быстро делают объявления и принимают решения, но, как и в случае с большинством крупных технологических волн, возможности откроются во второй или третьей волне развития».
«Эта трансформация ИИ показывает лидерам бизнеса и технологий, каково истинное состояние их среды данных», — сказал Сайед. «Организации с платформой анализа данных и федеративным управлением данными смогут использовать возможности GenAI раньше, чем те, которые только сейчас вкладывают средства в модернизацию [своей] стратегии управления данными».
Кто является конкурентом MosaicML?
Конкуренция в области обучения ИИ очень жесткая; MosaicML конкурирует с NVIDIA, OpenAI, Anthropic и Google. В понедельник NVIDIA объявила о партнерстве со Snowflake, чтобы добавить платформу разработки NVIDIA NeMo LLM и вычисления с ускорением на графическом процессоре NVIDIA в облако данных Snowflake.
Другие новости с саммита Databricks + AI Summit
На саммите Databricks + AI появилось еще четыре важных обновления:
- Среда хранения данных с открытым исходным кодом Delta Lake теперь будет доступна в версии 3.0, в которой добавлен универсальный формат (UniForm), ядро для дельта-коннекторов и макеты данных Liquid Clustering для облегчения доступа.
LakehouseIQ — это ИИ для чата на естественном языке, работающий в каталоге Databricks Unity.
Lakehouse AI — это набор инструментов для LLM на платформе данных Lakehouse;
Lakehouse Federation — это инструмент для унификации ранее разрозненной архитектуры сетки данных.
Оригинал