hackernoon-top-story artificial-intelligence machine-learning ai-agents ai-agents-in-production why-ai-agents-won't-work ai-hype-2025-truth ai-agent-failures-explained ai-agent-myths-debunked

Перестаньте верить ажиотанию агента - цифры не лгут

23 июля 2025 г.

Я построил 12+ производственных систем AI -агентов по развитию, DevOps и операциям данных. Вот почему нынешняя шумиха вокруг автономных агентов математически невозможна и что на самом деле работает в производстве.

Все говорят, что 2025 год - это год агентов ИИ. Заголовки повсюду: «Автономный ИИ будет преобразовать работу», «агенты - следующая граница», «будущее агент». Между тем, я провел последний год, создавая множество различных агентских систем, которые действительно работают в производстве. И именно поэтому я держу пари против нынешней ажиотажа.

Я не какое -то скептическое написание ИИ со стороны. За прошедший год я построил более десятка систем производственных агентов по всему жизненному циклу разработки программного обеспечения:

Агенты развития: Генераторы пользовательского интерфейса, которые создают функциональные компоненты реагирования из естественного языка, агенты рефакторирования кода, которые модернизируют устаревшие кодовые базы, генераторы документов, которые автоматически поддерживают API -документы, и генераторы функций, которые преобразуют спецификации в рабочие реализации.

Агенты данных и инфраструктуры: Рабочие агенты базы данных, которые обрабатывают сложные запросы и миграции, DevOps Automation Systems Управление инфраструктурой как код для нескольких облачных провайдеров.

Агенты качества и процесса: AI-мощные трубопроводы CI/CD, которые исправляют проблемы с ворсом, генерируют комплексные тестовые наборы, выполняют автоматизированные обзоры кода и создают подробные запросы на привлечение с надлежащими описаниями.

Эти системы работают. Они отправляют реальную ценность. Они экономят часы ручной работы каждый день. И именно поэтому я думаю, что многое из того, что вы слышите, что 2025 год - «Год агентов», пропускает ключевые реалии.

TL; DR: Три жесткие истины о агентах ИИ

После строительства 12+ производственных систем, вот что я узнал:

1. Ориентировочные скорости в геометрической прогрессии в многоэтапных рабочих процессах. 95% надежность за шаг = 36% успех в течение 20 шагов. Производство требует 99,9%+.

Контекст Windows создает квадратичные затраты токена. Длинные разговоры становятся чрезмерно дорогими в масштабе.
Реальная задача - это не возможности ИИ, это разработка инструментов и систем обратной связи, которые агенты могут фактически эффективно использовать.

Математическая реальность, о которой никто не говорит

Вот неудобная правда, которую каждая агентская компания AI танцует: Ошибка составления делает автономные многоэтапные рабочие процессы математически невозможными в производственной шкале.

Давайте сделаем математику. Если каждый шаг в рабочем процессе агента имеет надежность 95%, что оптимистично для текущих LLM, то:

5 шагов = 77% успеха
10 шагов = 59% успех
20 шагов = 36% успех успеха

Производственные системы нуждаются в 99,9%+ надежность. Даже если вы волшебным образом достигаете 99% надежности на шаг (что никто не имеет), вы все равно получите успех только на 82% за 20 шагов. Это не быстрая инженерная проблема. Это не проблема моделей. Это математическая реальность.

Мой агент DevOps работает именно потому, что на самом деле это не 20-ступенчатый автономный рабочий процесс. Это 3-5 дискретных, независимо проверяемых операций с явными точками отката и воротами подтверждения человека. «Агент» обрабатывает сложность генерации кода инфраструктуры, но система архизирована вокруг математических ограничений надежности.

Каждая успешная система агентов, которую я построил, следует за одной и той же шаблоном: ограниченные контексты, проверяемые операции и точки решения человека (иногда) на критических соединениях. В тот момент, когда вы пытаетесь использовать больше, чем несколько операций автономно, математика убивает вас.

Экономика токена, которая не складывается

Есть еще одна математическая реальность, которую агент евангелисты удобно игнорируют: контекстные окна создают квадратичное масштабирование затрат, что делает разговорные агенты экономически невозможными.

Вот что на самом деле происходит, когда вы создаете «разговорного» агента:

Каждое новое взаимодействие требует обработки всего предыдущего контекста
Токен стоимость в масштабе квадратично с длиной разговора
Разговор на 100 лет стоит 50-100 в токенах.
Умножьте на тысячи пользователей, и вы смотрите на неустойчивую экономику

Я узнал об этом трудном способе при прототипировании агента разговорной базы данных. Первые несколько взаимодействий были дешевыми. По 50 -м запросу в сеансе каждый ответ стоил несколько долларов - больше, чем предоставленная его стоимость. Экономика просто не работает для большинства сценариев.

Мой агент генерации функций добивается успеха, потому что он полностью без сохранности: Описание → Функция → Готово. Нет контекста для поддержания, нет разговора для отслеживания, нет квадратичного взрыва затрат. Это не опыт «чат с вашим кодом», это целенаправленный инструмент, который эффективно решает конкретную проблему.

Самые успешные «агенты» в производстве вообще не разговорны. Это умные, ограниченные инструменты, которые хорошо делают одну вещь и уходят с дороги.

Инженерная инженерная стена реальности

Даже если вы решаете математические проблемы, вы попали в другую стену: создание инструментов производства для агентов-это совершенно другая инженерная дисциплина, которую недооценивают большинство команд.

Сами инструменты сами на самом деле довольно точны. Реальная задача - дизайн инструмента. Каждый инструмент должен быть тщательно создан, чтобы обеспечить правильную обратную связь, не подавляя окно контекста. Вам нужно подумать:

Как агент узнает, что операция частично преуспела? Как вы передаете сложные изменения состояния без сжигания токенов?
Запрос базы данных может вернуть 10 000 строк, но агент должен знать только «Запрос успешного, 10 тыс. Результатов, вот первый 5.». Проектирование этих абстракций - это искусство.
Когда инструмент не стерж, какая информация необходимо восстановить агенту? Слишком мало, и это застряло; Слишком много, и вы тратите контекст.
Как вы справляетесь с операциями, которые влияют друг на друга? Транзакции базы данных, блокировки файлов, зависимости от ресурсов.

Мой агент базы данных работает не потому, что звонки инструментов ненадежны, а потому, что я потратил недели на разработку инструментов, которые эффективно общаются с ИИ. Каждый инструмент возвращает структурированную обратную связь, которую агент может фактически использовать для принятия решений, а не только необработанных ответов API.

Компании, обещающие «просто подключите ваши API, и наш агент выяснит», не выполнили эту инженерную работу. Они относятся к инструментам, таким как человеческие интерфейсы, а не интерфейсы ИИ. Результатом являются агенты, которые технически делают успешные вызовы API, но на самом деле не могут выполнить сложные рабочие процессы, потому что они не понимают, что произошло.

Грязный секрет каждой системы производственных агентов заключается в том, что ИИ делает, может быть, 30% работы. Другие 70% - это разработка инструментов: проектирование интерфейсов обратной связи, эффективное управление контекстом, обработка частичных сбоев и механизмы восстановления здания, которые ИИ действительно может понять и использовать.

Проверка интеграции реальности

Но допустим, вы решаете проблемы надежности и экономику. Вы все еще должны интегрироваться с реальным миром, а реальный мир - это беспорядок.

Корпоративные системы - это не чистые API, ожидающие их организации агентов ИИ. Они устаревшие системы с причудами, режимами частичного сбоя, потоками аутентификации, которые изменяются без уведомления, ограничения, которые варьируются в зависимости от времени суток, и требованиями к соответствию, которые не вписываются в быстрые шаблоны.

Мой агент базы данных не просто «автономно выполнять запросы». Он навигает на объединение соединений, обрабатывает откаты транзакций, уважает реплики только для чтения, управляет таймаутами запроса и регистрирует все для аудиторских троп. ИИ обрабатывает поколение запросов; Все остальное является традиционным системным программированием.

Компании, обещающие «автономные агенты, которые интегрируются со всем вашим технологическим стеком», либо чрезмерно оптимистичны, либо фактически не пытались создать производственные системы в масштабе. Интеграция - это место, где агенты ИИ умирают.

Что на самом деле работает (и почему)

Построив более десятка различных агентских систем на протяжении всего жизненного цикла разработки программного обеспечения, я узнал, что успешные из них имеют шаблон:

Мой агент поколения пользовательского интерфейса работает, потому что люди рассматривают каждый сгенерированный интерфейс перед развертыванием. ИИ обрабатывает сложность перевода естественного языка в функциональные компоненты реагирования, но люди принимают окончательные решения о пользовательском опыте.
Мой агент базы данных работает, потому что он подтверждает каждую разрушительную операцию до выполнения. ИИ обрабатывает сложность перевода бизнес -требований в SQL, но люди поддерживают контроль над целостностью данных.
Мой агент генерации функций работает, потому что он работает в четко определенных границах. Дайте ему спецификацию, верните функцию. Нет побочных эффектов, нет управления государством, нет сложности интеграции.
My DevOps Automation работает, потому что она генерирует инфраструктуру как код, который можно пересматривать, версировать и отказываться. ИИ обрабатывает сложность перевода требований в терраформ, но трубопровод развертывания поддерживает все механизмы безопасности, на которые мы научились полагаться.
Мой агент CI/CD работает, потому что на каждом этапе есть четкие критерии успеха и механизмы отката. ИИ обрабатывает сложность анализа качества кода и генерации исправлений, но трубопровод поддерживает контроль над тем, что на самом деле объединяется.

Образец ясен: ИИ обрабатывает сложность, люди поддерживают контроль, а традиционная разработка программного обеспечения справляется с надежностью.

Мои прогнозы

Вот мой конкретный прогноз о том, кто будет бороться в 2025 году:

Стартапы, финансируемые венчурными, «полностью автономный агент» сначала попадут на стену экономики. Их демонстрации отлично работают с 5-ступенчатыми рабочими процессами, но клиенты потребуют более 20 шагов, которые математически разрушают. Скоры сжигания будут вспыхнуть, когда они пытаются решить неразрешимые проблемы с надежностью.

Компании по разработке программного обеспечения для корпораций, которые прикрепили «агенты ИИ» на существующие продукты, будут застойны внедрение. Их агенты не могут интегрироваться достаточно глубоко, чтобы справиться с реальными рабочими процессами.

Между тем, победителями будут команды, строящие ограниченные, инструменты, специфичные для домена, которые используют ИИ для твердых частей, сохраняя при этом контроль человека или строгие границы по сравнению с критическими решениями. Подумайте меньше «автономно все» и больше «чрезвычайно способных помощников с четкими границами».

Рынок узнает разницу между ИИ, который хорошо демонстрирует, и ИИ, который надежно поставляется. Это образование будет дорого для многих компаний.

Я не делаю ставки против ИИ. Я держу пари против текущего подхода к архитектуре агента. Но я считаю, что будущее будет гораздо более ценным, чем предполагает ажиотаж.

Построение правильного пути

Если вы думаете о построении с агентами искусственного интеллекта, начните с этих принципов:

Определите четкие границы.Что именно может сделать ваш агент и что он передает людям или детерминированным системам?

Дизайн для неудачи.Как вы справляетесь с 20-40% случаев, когда ИИ делает ошибки? Какие у вас механизмы отката?

Решить экономику.Сколько стоит каждое взаимодействие, и как это масштабируется с использованием? Без гражданства часто бьет Stateful.

Приоритет надежности по сравнению с автономией.Пользователи доверяют инструментам, которые работают постоянно больше, чем они ценят системы, которые иногда делают магию.

Настроить на прочные основы.Используйте ИИ для жестких частей (понимание намерений, генерирование контента), но полагайтесь на традиционную разработку программного обеспечения для критических частей (выполнение, обработка ошибок, управление состоянием).

Агентная революция наступает. Это просто не будет выглядеть чем -то вроде того, что все многообещают в 2025 году. И именно поэтому это удастся.

Реальные уроки из траншей

Разрыв между «работами в демонстрации» и «работами в масштабе» огромен, и большая часть отрасли все еще выясняет это.

Если вы работаете над подобными проблемами, я бы хотел продолжить этот разговор. Проблемы, связанные с надежностью агента, оптимизацией затрат и сложностью интеграции, являются захватывающими инженерными проблемами, которые пока не имеют очевидных решений.

Я регулярно консультирую команды и компании, ориентируясь на эти точные проблемы - от решений о архитектуре до избегания ловушек, которые я узнал о первую очередь. Если вы оцениваете решения по сравнению с покупкой, отладки, почему ваши агенты не работают в производстве или просто хотите их реализовать, не стесняйтесь обратиться.

Чем больше людей строят реальные системы и делятся честным опытом, тем быстрее мы все выясним, что на самом деле работает. Вы можете найти меня по адресу utkarshkanwat@gmail.com илиХЕсли вы хотите глубже погрузиться в любую из этих тем.

Оригинал

Перестаньте верить ажиотанию агента - цифры не лгут

TL; DR: Три жесткие истины о агентах ИИ

Математическая реальность, о которой никто не говорит

Экономика токена, которая не складывается

Инженерная инженерная стена реальности

Проверка интеграции реальности

Что на самом деле работает (и почему)

Мои прогнозы

Построение правильного пути

Реальные уроки из траншей

Recent Post

Сравнение сопоставления узоров на разных языках: Java, Scala и многое другое

Скрытая стоимость AI-местных кампусов: акционерный капитал, доступ и разрыв в автоматизации в более высокой эд

Rag Systems преодолевает барьеры языковых моделей: вот как

Для вашего следующего сообщения в блоге: Начните писать через шаблоны блогов Hackernoon

Будущее хронической помощи: Генеративный прорыв АИ Бханувардхан Нун в области оказания медицинской помощи

Categories