
Meta's Ai Boss только что назвал LLMS «упрощенным» - вот что он строит
2 августа 2025 г.В области искусственного интеллекта испытывает беспрецедентный всплеск инноваций, однако публичный дискурс часто остается зацикленным на крупных языковых моделях (LLMS). На недавнем NVIDIA GTC 2025, очаровательный разговор междуБилл ДэллииЯнн ЛекунГлавный ученый ИИ в Meta, откидывал слои современных достижений ИИ, выявляя видение, которое выходит далеко за рамки прогнозирования токнов. Понимание Лекуна бросает вызов обычной мудрости, подчеркивая сдвиг в сторону систем, которые искренне понимают, разумно и взаимодействуют с нашим сложным физическим миром.
Выход за пределы языковой границы
Янн Лекун открыто признает, что он
больше не заинтересован в LLMSПолем
В то время как они продолжают улучшаться на полях с помощью большего количества данных, вычисления и синтетических данных, Lecun рассматривает их как «упрощенный способ просмотра рассуждения». Он утверждает, что действительно захватывающие вопросы в ИИ лежат в четырех критических областях, которые определят следующую волну передового интеллекта машин (AMI):
- Понимание физического мира:Как машины могут понять нюансы реальной физики и взаимодействия?
- Постоянная память:Разработка систем ИИ с возможностями долгосрочной, доступной памяти.
- Рассуждение:Выходя за рамки текущих, часто рудиментарных форм рассуждений в LLM к более сложным, интуитивным методам.
- Планирование:Позволяя ИИ планировать последовательности действий для достижения конкретных целей, аналогично человеческому когнитивным процессам.
Лекун предполагает, что техническое сообщество, хотя и в настоящее время сосредоточенное на LLMS, скорее всего, будет взволновано этими «неясными академическими документами» через пять лет.
Задача реального мира: зачем жетоны терпят неудачу
Фундаментальное ограничение нынешних LLM, по словам Лекуна, заключается в их подходе, основанном на токенах. Токены, обычно представляющие конечный набор возможностей (около 100 000 для LLM), хорошо подходят для дискретных данных, таких как язык. Тем не менее, физический мир является «высокомерным и непрерывным».
Люди приобретают «мировые модели» в первые несколько месяцев жизни, что позволяет нам понять причину и следствие - например, как толкание бутылки с вершины может перевернуть ее, в то время как толкание снизу может сделать ее скользящим. Это интуитивное понимание физики очень трудно воспроизвести с системами, предназначенными для прогнозирования дискретных токенов.
Попытки обучать системы понимать мир, предсказав высокоразмерные непрерывные данные, такие как видео на уровне пикселей, в значительной степени не удалось. Такие системы исчерпают свои ресурсы, пытаясь изобретать непредсказуемые детали, что приводит к «полной трате ресурсов». Даже самоотверженные методы обучения, которые работают путем реконструкции изображений из поврежденных версий, не работали, а также альтернативные архитектуры. Это связано с тем, что многие аспекты реальности по своей природе непредсказуемы на гранулированном уровне, такие как точный внешний вид каждого человека в видео -продолжении.
Совместное внедрение прогнозирующих архитектур (JAPA): будущее мировых моделей
Ответ на эту проблему, утверждает Лекун, заключается в совместном встраивании прогнозной архитектуры (JAPA). В отличие от генеративных моделей, которые пытаются реконструкции на уровне пикселей, JAPA фокусируется на изучении «абстрактных представлений» данных.
Как работает джапа:
- Кусок ввода (например, кусок видео или изображения) проходит через кодировщик для создания абстрактного представления.
- Продолжение или преобразованная версия ввода также выполняется через кодировщик.
- Затем система пытается сделать прогнозы в этом «пространстве представления» (скрытое пространство), а не в необработанном входном пространстве. Это сродни «заполнению пробела» более абстрактным, семантическим способом.
Этот подход позволяет избежать проблемы обрушения, когда системы могут игнорировать вход и производить постоянные, неинформативные представления, препятствие, которое потребовалось годы для преодоления.
Джапа за рассуждение и планирование:Для агентских систем, которые могут рассуждать и планировать, Japa предлагает мощный механизм. Представьте себе предиктор, который, наблюдая за нынешним состоянием мира, может предвидеть «следующее состояние мира, учитывая, что я могу предпринять действие, которое я представляю, предпринимаю». Это позволяет планировать последовательность действий для достижения желаемого результата, отражая то, как люди по своей сути и планируют.
Лекун сильно контрастирует с текущими «агентскими системами рассуждений», которые генерируют огромное количество последовательностей токенов, а затем используют вторую нейронную сеть, чтобы выбрать лучшую. Он сравнивает это с «написанием программы, не зная, как написать программу» - метод «полностью безнадежного» для чего -либо за пределами коротких последовательностей, поскольку она масштабирует экспоненциально с длиной. Вместо этого истинные рассуждения возникают в абстрактном психическом состоянии, а не в «пинах жетонов вокруг». Например, кошка планирует сложные траектории прыжков без использования языка или токенов.
Практическим примером потенциала JAPA является проект VJA (Video Maint Encding Predictive Architecture), который в настоящее время находится в разработке в Meta. Система VJA, обученная коротким видео сегментам для прогнозирования представлений о полных видео из маскированных версий, демонстрирует способность обнаружить, является ли видео «физически возможно или нет». Измеряя ошибку прогнозирования, он может помечать «необычные» события, такие как объекты, спонтанно появляющиеся или исчезающие, или игнорировать физику. Это отражает то, как ребенок учатся интуитивно понятной физике: 9-месячный ребенок удивлен, если объект, по-видимому, плавает, что указывает на нарушение их внутренней мировой модели.
Дорога к продвинутой машинной интеллекту (AMI)
Лекун предпочитает термин «Advanced Machine Intelligence» (AMI) над искусственным общим интеллектом (AGI), ссылаясь на высокоспециализированную природу человеческого интеллекта. Он оценивает, что у нас может быть «хорошая работа по тому, чтобы заставить это [AMI] работать хотя бы в небольшом масштабе в течение трех -пяти лет
с человеческим уровнем AI потенциально прибывает в течение десяти лет или около того.
Тем не менее, он предостерегает от исторической схемы чрезмерного оптимизма в ИИ, где каждая новая парадигма провозглашается как путь к интеллекту на уровне человека в течение десятилетия. Он отклоняет идею, что просто масштабирование LLMS или создание тысяч последовательностей токенов приведут к интеллекту на уровне человека как «глупости».
Основным узким местом является данные. LLM обучаются на огромном количестве текста (например, 30 триллионов жетонов, эквивалентно 400 000 лет чтения). Напротив, 4-летний ребенок обрабатывает эквивалентное количество данных с помощью зрения всего за 16 000 часов, демонстрируя огромную эффективность визуального обучения. Это несоответствие подчеркивает, что мы «никогда не собираемся добраться до Аги ... просто тренируясь из текста».
По словам Лекуна, ключом к разблокировке AMI является обнаружение «хорошего рецепта» для обучения архитектуры JAPA в масштабе. Так же, как потребовалось время, чтобы выяснить правильную комбинацию инженерных уловок, нелинейности и инноваций, таких как Resnet (самая цитируемая статья в науке за последнее десятилетие) для эффективного обучения глубоких нейронных сетей и трансформаторов, аналогичный прорыв необходим для Japa.
Влияние ИИ: от спасения жизни до инструментов производительности
Несмотря на акцент на будущих парадигмах, Lecun подчеркивает, что AI огромного положительного воздействия уже оказывает:
- Наука и медицина:ИИ трансформирует дизайн лекарственного средства, складывание белка и понимание жизненных механизмов. При медицинской визуализации системы глубокого обучения предварительно экранируют маммограммы для опухолей, а ИИ сокращают время МРТ в четыре раза, восстанавливая изображения с высоким разрешением из меньшего количества данных.
- Автомобиль:Помощь в вождении и автоматические системы экстренного торможения, которые в настоящее время являются обязательными в Европе, сокращают столкновения на 40%, спасая жизни.
- Производительность и творчество:ИИ заменяет людей, а служит «электроинструментами», которые делают людей более продуктивными и креативными, будь то помощники по кодированию, в медицине или в художественных начинаниях.
Однако путь к широкому развертыванию не всегда гладкий. Необходимость «точности и надежности» в таких приложениях, как автономное вождение (где ошибки могут быть смертельными) делает полевые и развертывающие системы ИИ «более сложными, чем думали большинство людей». Именно здесь ИИ часто терпит неудачу - не в базовой технике или демонстрациях, а в надежности интеграции в существующие системы. Тем не менее, для многих приложений, где последствия ошибок не являются катастрофическими (например, развлечения, образование или медицинское использование, проверенное врачами), ИИ, который «правильный большую часть времени» уже является очень полезным.
Что касается «темной стороны» ИИ, таких как глубокие новость и ложные новости, Лекун выражает удивительный оптимизм. Опыт Meta предполагает, что, несмотря на наличие LLMS, они не видели «большого увеличения генеративного контента, размещенного в социальных сетях, или, по крайней мере, не гнусным образом». Он рассказывает о эпизоде «Галактики», где Meta's Open-Source LLM для научной литературы был встречен «купоросом» и снят из-за боя, только для того, чтобы ЧАТГПТ был отмечен несколько недель спустя. Лекун считает, что «контрмеза против злоупотребления - это просто лучшее ИИ» - системы со здравым смыслом, способностью рассуждать и способность оценивать свою собственную надежность. Он отклоняет катастрофические сценарии, полагая, что «люди адаптируются» и что ИИ «в основном для хорошего».
Незаменимая роль открытого исходного кода и глобального сотрудничества
Основным принципом философии Лекуна является абсолютная необходимость платформ ИИ с открытым исходным кодом. Он подчеркивает, что «хорошие идеи происходят от взаимодействия многих людей и обмена идеями». Ни одна единая организация не имеет монополии на инновации, о чем свидетельствует революционная архитектура Resnet, которая поступила от китайских ученых в Microsoft Research Pecijing.
Приверженность Meta к открытым исходным кодам, примером которого является Pytorch и Llama, обусловлена верой в то, что она способствует процветающей экосистеме стартапов и позволяет наибольшему количеству умных людей способствовать созданию основных функций. Llama, современный LLM, предлагаемый с открытыми весами, видел более миллиардов загрузок, что вызвало революцию в ландшафте ИИ.
Почему ИИ с открытым исходным кодом имеет решающее значение для будущего:
- Разнообразие помощников ИИ:В будущем, где ИИ опосредует почти каждое цифровое взаимодействие (например, умные очки), одна горстка компаний не может предоставить разнообразие необходимых помощников. Нам требуется помощники, которые понимают «все языки мира, все мировые культуры, все системы ценностей», и могут воплощать различные предубеждения и мнения, так же, как разнообразная пресса имеет жизненно важное значение для демократии.
- Распределенное обучение:Ни одна единая сущность не будет собирать все данные мира на всех языках. Будущая модель включает в себя модели фонда с открытым исходным кодом, обученные распределенным образом, с центрами обработки данных глобально доступ к подмножествам данных для обучения «консенсусной модели».
- Точная настройка проприетарных данных:Модели с открытым исходным кодом, такие как Llama, позволяют компаниям загружать и настраивать их на собственных собственных данных без необходимости загружать их, поддерживая специализированные вертикальные приложения и бизнес-модели.
Lecun подчеркивает, что компании, чьи доходы не связаны только с услугами искусственного интеллекта (например, рекламной модели Meta), могут потерять меньше, и больше, чтобы получить от открытых источников их моделей, противопоставляя это с такими компаниями, как Google, которые могут рассматривать его как угрозу для их основного поискового бизнеса.
Аппаратное обеспечение: подпитывать следующую революцию искусственного интеллекта
Путешествие к AMI и сложным мировым моделям потребует постоянно растущей вычислительной мощности. В то время как графические процессоры наблюдали невероятные достижения (5000-10 000 раз увеличиваются от Кеплер до Блэквелла), вычислительные расходы на рассуждения в абстрактном пространстве означает «нам понадобятся все конкуренты, которые мы можем получить» в аппаратном обеспечении.
Lecun в значительной степени скептически относится к нейроморфному аппаратному, оптическому вычислению и квантовому вычислению для общих задач AI в ближайшем будущем. Он отмечает, что цифровая полупроводниковая индустрия находится в таком «глубоком локальном минимуме», что альтернативные технологии сталкиваются с монументальной проблемой, чтобы наверстать упущенное. В то время как мозг общается в цифровом виде с помощью шипов, нейроморфные подходы часто борются с оборудованием повторного использования и эффективной мульти-чипной связи.
Тем не менее, он видит перспективы в технологиях процессора в памяти (PIM) или аналоговых/цифровых технологиях и технологиях памяти для конкретных сценариев «вычисления краев», таких как визуальная обработка с низкой мощью в интеллектуальных очках. Биологическая сетчатка предлагает аналогию: она обрабатывает огромные визуальные данныена датчикеЧтобы сжать его перед отправкой в зрительную кору, демонстрируя, что перетасование данных, а не само вычисления, часто потребляет наибольшую энергию. Это многообещающее направление для энергоэффективного, всегда на искусственном интеллекте.
Будущее: персонал супертезубных виртуальных людей
В конечном счете, Lecun представляет собой будущее, в котором системы ИИ являются «электроинструментами», которые расширяют человеческие возможности, а не заменяют их. Наши отношения с будущим ИИ будут одним из команд; Мы будем их «боссом» с «персоналом суперреветолетных виртуальных людей, работающих на нас». Это совместное будущее, обусловленное открытыми исследованиями и платформами с открытым исходным кодом, будет использовать вклады всех по всему миру, что приведет к разнообразным помощникам искусственного интеллекта, которые улучшают нашу повседневную жизнь.
По сути, будущее ИИ-это не монолитная сущность черного ящика, которая внезапно появляется. Вместо этого это совместный, итеративный процесс, очень похожий на создание грандиозного, запутанного города, где каждый строитель, архитектор и инженер вносят свой уникальный опыт в общий план, что приводит к оживленному и разнообразному мегаполису развитого интеллекта машин.
Оригинал