hackernoon-top-story tech-stories scale-ai meta-ai meta-scale-ai-deal synthetic-ai-data ai-training-data-sources ai-data-security ai-trust-crisis

Meta на 14 млрд. Долл. США на масштаб AI.

30 июня 2025 г.

Мета, несомненно, знает, как разыграть всю отрасль. Его инвестиции в размере 14,3 млрд. Долл. США в масштаб AI усилили постоянную дискуссию о качестве и доверия данных ИИ - иногда так, что плохо отражается на мета и масштабе, но, несомненно, так, как это имеет значение.

Инвестиции, объявленные в июне 2025 года, предоставили Meta 49% не голосовавшей долю в стартапе маркировки данных AI, покаНанимать своего генерального директора, Александр Ван, чтобы возглавить новое подразделение «суперинтеллигентности». За этим последовало не что иное, как катастрофа цепочки поставок, которая обнажала фундаментальные уязвимости во всей экосистеме ИИ.

Через несколько дней крупные клиенты, включая Google, Openai и Xai, начали разорвать связи с масштабным ИИ, что вызвало то, что один конкурент описал как «эквивалент нефтяного трубопровода, взрывающегося между Россией и Европой.

Попад привлекли внимание к двум критическим областям, формирующим будущее развития ИИ: инфраструктуру траста, которая поддерживает партнерские отношения и растущую потребность в высококачественных данных обучения.

Необходимый для доверия к развитию ИИ

Scale построила свою оценку на простом, но мощном предложении: служить нейтральным арбитром на рынке маркировки данных, предоставляя услуги практически для каждой крупной лаборатории искусственного интеллекта без игры в фаворитов. Этот нейтралитет был самым ценным активом Scale, что позволило таким компаниям, как Google, Openai и Microsoft на аутсорсинг критической работы по подготовке данных, не беспокоясь о утечке конкурентной разведки соперникам.

Инвестиции Meta разбили это доверие в одночасье. Как Гаррет Лорд, генеральный директор по масштабным конкурентным рукопожатием,объяснил: «Лаборатории не хотят, чтобы другие лаборатории выясняли, какие данные они используют, чтобы улучшить свои модели. Если вы General Motors или Toyota, вы не хотите, чтобы ваши конкуренты входили на ваш производственный завод и видели, как вы запускаете свои процессы».

Исход клиента был быстрым и решительным. Google, крупнейший клиент Scale с планами потратить около 200 миллионов долларов на услуги Scale в 2025 году,сразу же начал планировать разорвать связиПолем Openai подтвердил, что это уволило отношения, которые были месяцами в создании. Xai поместил проекты.

Но кризис доверия прошел глубже, чем конкурентные проблемы. Последующее расследование Business Insider показало, что масштаб AIиспользовал публичные документы GoogleЧтобы отслеживать работу для громких клиентов, оставляя тысячи страниц конфиденциальных проектных документов, доступных для всех, у кого есть ссылка. Раскрытые материалы включали в себя конфиденциальные подробности о том, как Google использовал CHATGPT для улучшения своего борьбы с чат -ботом Bard, учебные документы для проекта XAI ксилофон и собственные конфиденциальные учебные материалы для искусственного интеллекта Meta.

Пробелы безопасности распространялись на рабочую силу Scale, с публичными документами, содержащими частные адреса электронной почты тысяч подрядчиков, информацию о заработной плате и оценку эффективности, включая списки работников, подозреваемых в «мошенничестве». Эксперты по кибербезопасности назвали практику Шкала «чрезвычайно ненадежными», предупреждая, что такие уязвимости могут подвергать как компанию, так и ее клиентов различным формам кибератак.

Шкала ответила, пообещав провести тщательное расследование и отключить обмен публичными документами,Но ущерб был нанесенПолем

Проблема качества данных

В то время как доверие доминировало в заголовках, мета-масштабная сделка освещена еще более фундаментальная проблема: растущая нехватка высококачественных учебных данных, которые угрожают ограничить развитие ИИ. Готовность Meta заплатить 14,3 миллиарда долларов за масштаб была о обеспечении доступа к тому, что стало самым ценным ресурсом ИИ.

Кризис качества данных является как количественным, так и качественным. Исследования по Epoch AI указывают на то, чтоВесь запасы общедоступных текстовых данных, сгенерированных человеком,Оценивается около 300 триллионов жетонов, может быть исчерпан в период с 2026 по 2032 год. Но проблема проходит глубже, чем простой дефицит. Исследование Amazon/AWS/UC Santa Barbara подсчитано, что57% онлайн-контента в настоящее время сгенерировано AI, создание «кризиса подлинности», который подрывает качество данных обучения.

Пролиферация синтетического содержания создает порочный цикл. Модели ИИ, обученные данным, сгенерированным ИИ, страдают от того, что называют исследователимодель коллапса, явление, когда последовательные поколения моделей теряют свою способность захватывать всю сложность и изменчивость данных реального мира. Раннее коллапс модели влияет на данные меньшинства и краевые случаи, в то время как поздний коллапс модели может сделать модели почти бесполезными, поскольку они теряют большую часть своей дисперсии и начинают путать основные концепции.

Решение состоит в том, чтобы полагаться на экспертов по предметам, которые применяют свои знания для обучения и качества проверки приложений искусственного интеллекта. Например, моделям ИИ в здравоохранении нуждается в глубоких пониманиях, которые находятся в умах практиков отрасли. Этим практикующим, в свою очередь, нужно научить, как призвать большие языковые модели, чтобы обучить их. Вы просто не найдете экспертов с полки. Они должны быть получены.Неудивительно, что 81% предприятий говорят, что у них есть серьезные проблемы с качеством данныхПолем

Бизнес -модель масштабирования AI была построена на решение этих проблем через глобальную сеть из более чем 240 000 подрядчиков, которые вручную аннотируют изображения, тексты и видео. Но внутренние документы компании выявили проблемы с контролем качества, которые вышли за пределы нарушений безопасности. Scale боролся с «спам -поведением» от неквалифицированных участников, и журналы проектов демонстрировали усилия по сокращению подрядчиков, которые представили «Прозрачно дрянная работа, которая удалось уклониться от обнаружения.

Давление, чтобы обслуживать крупных клиентов во время бум AI после Chatgpt привели к компромиссам в области контроля качества. Программы, предназначенные для укомплектования исключительно экспертами, были «затоплены спамом», согласно внутренним документам. Даже когда проекты должны были быть анонимизированы, подрядчики могли легко идентифицировать клиентов по характеру задач или формулирования инструкций, иногда просто путем непосредственного подсказования моделей.

Волновые эффекты в экосистеме ИИ

Метамасштабные противоречия ускорили фрагментацию рынка, поскольку компании пытаются снизить зависимость от отдельных поставщиков.Краткое масштаб сообщает о резком увеличении спросаПолем Это, кстати, не плохо. Конкуренция хороша. Эта фрагментация также отражает более широкое признание того, что предприятиям необходимо тщательно проверять своих поставщиков данных, особенно потому, что один промежуток может поставить под угрозу инфраструктуру ИИ. Развитие ИИ зависит от сложной паутины отношений. Целостность данных, нейтралитет поставщика и конкурентная интеллект пересекаются способами, которые могут быстро дестабилизировать все цепочки поставок. Решения об инфраструктуре ИИ несут риски, которые выходят далеко за рамки технических показателей эффективности. С другой стороны, предприятия и литейные предприятия, которые сотрудничают по обучению ИИ с экспертизой предметной области, имеют огромное преимущество прямо сейчас. Данные литейные заводы, которые укрепляют доверие и обладают проверенными процессами для обеспечения качества данных, станут в качестве любимостей ИИ.

Оригинал

Meta на 14 млрд. Долл. США на масштаб AI.

Необходимый для доверия к развитию ИИ

Проблема качества данных

Волновые эффекты в экосистеме ИИ

Recent Post

Вы теряете питание графического процессора - фиксируйте свой входной трубопровод TensorFlow сегодня

Искусство отличного развертывания

Бенчмаркинг LLM восприимчивость к генерации уязвимого кода с помощью инверсии модели с несколькими выстрелами

Вот точная настройка инди-кодирования, которую я использую в качестве менеджера продукта среднего возраста

Самый простой способ обнаружить, кодировать и поиск, используя ИИ

Categories