Шокирующая правда о LLM: 7 причин, почему они могут стать тупиком

16 ноября 2025 г.

Вступление

Большие языковые модели (Large Language Models, LLM) за последние несколько лет превратились в «золотой билет» для компаний, стремящихся автоматизировать работу с текстом. От чат‑ботов до генерации кода – их возможности кажутся безграничными. Тем не менее в профессиональном сообществе уже звучат тревожные сигналы: некоторые эксперты считают, что мы уже подошли к фундаментальному пределу этих технологий. В этой статье я, как техноблогер, разберу основные аргументы, представленные в популярной дискуссии на Reddit, проанализирую их с разных точек зрения и предложу практические пути выхода из «тупика».

Тихий ветер шепчет в кронах,
Слова теряются в пустоте,
Искра гаснет в тени.

Пересказ Reddit‑поста своими словами

В ветке обсуждения несколько пользователей высказали свои мнения о текущем состоянии LLM:

  • z3r-0 сравнил API LLM с карточным домиком: слой за слоем накладываются инструкции на естественном языке, а контекст всё глубже «запутывается». По его мнению, в какой‑то момент дальнейшая оптимизация становится невозможной.
  • A_Pointy_Rock отметил, что восприятие возможностей LLM сильно отличается от реальности – то, что кажется «чудесным» инструментом, на практике часто оказывается ограниченным.
  • Moronic_Princess уверенно заявила, что LLM уже «мертвая ветка», и её окончательно раскрыли с выходом GPT‑5.
  • Vimda высказал более оптимистичный, но несколько наивный взгляд: достаточно бросить в разработку ещё один миллиард долларов, и фундаментальные ограничения будут преодолены.
  • SomeSamples разделил мир ИИ на две части: LLM – «тупик», а анализ изображений и данных – «реальная работа», где ИИ действительно превосходит человека.

Суть проблемы, хакерский подход и основные тенденции

Ключевая проблема – масштабируемость контекста. Чем длиннее вводимый текст, тем больше «памяти» требуется модели, а её архитектура (трансформер) имеет квадратичную сложность по длине последовательности. Это приводит к:

  1. Экспоненциальному росту вычислительных расходов.
  2. Ухудшению качества генерации при превышении «окна контекста».
  3. Неустойчивости к редким или противоречивым запросам.

Хакерский подход к решению – «разделяй и властвуй»: разбивать длинные запросы на более мелкие, использовать внешние базы знаний (векторные хранилища) и комбинировать LLM с другими типами ИИ (например, компьютерным зрением).

Детальный разбор проблемы с разных сторон

Техническая сторона

  • Ограничения архитектуры: трансформеры требуют O(n²) памяти, где n – длина последовательности. При n ≈ 8 000 токенов уже требуется несколько десятков гигабайт видеопамяти.
  • Проблема «запоминания»: модель «запоминает» только последние ~4 000 токенов (у большинства публичных моделей). Всё, что выходит за пределы, теряется.
  • Сложность обучения: обучение модели размером в сотни миллиардов параметров требует десятков тысяч GPU‑часов и расходов в сотни миллионов долларов.

Экономическая сторона

Согласно отчёту OpenAI 2023, стоимость обучения GPT‑4 превысила 100 млн USD, а эксплуатация (инференс) стоит от 0,02 USD за 1 000 токенов. При масштабных проектах эти цифры быстро становятся неприемлемыми для большинства компаний.

Этическая и социальная сторона

LLM часто «галлюцинируют» – генерируют правдоподобный, но неверный текст. Это создаёт риск дезинформации, особенно в сферах, где точность критична (медицина, право).

Практические примеры и кейсы

Рассмотрим два типичных сценария:

  1. Автоматический ответ в службе поддержки. LLM может быстро отвечать на простые запросы, но при сложных вопросах (например, о возврате средств) часто теряется контекст и выдаёт неполные ответы.
  2. Генерация кода. Модели вроде Codex способны писать функции, однако при необходимости учитывать несколько файлов проекта они «забывают» важные детали, что приводит к ошибкам.

Экспертные мнения из комментариев

Автор: z3r-0
I mean it makes sense. The APIs on these things are a house of cards - just layers and layers of natural language instructions. Context on context on context. At some point these limitations can’t be optimised anymore.

z3r-0 подчёркивает, что текущая архитектура API уже не позволяет эффективно масштабировать контекст.

Автор: A_Pointy_Rock
LLMs are a neat tool, but the perception versus the reality of what they are good at (/will be good at) is quite divergent.

A_Pointy_Rock указывает на разрыв между ожиданиями и реальными возможностями.

Автор: Moronic_Princess
We knew LLM is dead end when GPT5 came out

Moronic_Princess считает, что уже с GPT‑5 стало ясно, что дальнейшее развитие LLM бессмысленно.

Автор: Vimda
No you just don't understand man... Just another billion dollars man... If we throw money at it, we'll definitely get around fundamental limitations in the model man...

Vimda предлагает решить проблему финансовыми вливаниями, но такой подход часто игнорирует фундаментальные технические ограничения.

Автор: SomeSamples
LLM's are a dead end but Image or data analysis is a real thing. AI does a much better and faster job than humans do with it. But those types of AI are not LLM's.

SomeSamples разделяет ИИ на «тупиковые» LLM и «перспективные» задачи компьютерного зрения и аналитики данных.

Возможные решения и рекомендации

  • Гибридные системы: комбинировать LLM с базами знаний (RAG – Retrieval‑Augmented Generation), где модель запрашивает релевантные фрагменты из внешних источников.
  • Уменьшение окна контекста: использовать «скользящее окно» и сохранять промежуточные результаты в базе, а не держать всё в памяти модели.
  • Оптимизация архитектуры: исследовать альтернативы трансформеру, такие как линейные трансформеры (Longformer, Performer) с субквадратичной сложностью.
  • Контроль качества: внедрять пост‑обработку (фильтры фактов, проверка на галлюцинации) перед выдачей результата пользователю.
  • Экономический баланс: оценивать стоимость инференса и выбирать модели «меньшего размера», обученные на специфических доменах, вместо универсальных гигантов.

Заключение с прогнозом развития

Текущий «тупик» LLM связан в первую очередь с их архитектурой и стоимостью масштабирования. Пока исследователи не найдут радикально новых подходов к обработке длинных последовательностей, LLM будут оставаться мощным, но ограниченным инструментом. В ближайшие 3‑5 лет ожидается рост гибридных решений (LLM + векторные хранилища) и появление более экономичных моделей, специализирующихся на узких задачах. Полноценный «универсальный» ИИ, способный без потерь удерживать контекст в сотнях тысяч токенов, пока остаётся далёкой мечтой.


# Пример гибридного подхода: LLM + векторный поиск
# Библиотеки: sentence-transformers для эмбеддингов,
# faiss для быстрого поиска, openai (или аналог) для генерации.

import numpy as np
from sentence_transformers import SentenceTransformer
import faiss
import openai

# 1. Инициализируем модель эмбеддингов
embedder = SentenceTransformer('all-MiniLM-L6-v2')

# 2. Подготовим небольшую базу знаний (пример)
documents = [
    "Как вернуть товар в интернет‑магазине: заполнить форму возврата, отправить товар в течение 14 дней.",
    "Политика конфиденциальности описывает, какие данные собираются и как они хранятся.",
    "Для сброса пароля нажмите «Забыли пароль?» и следуйте инструкциям в письме."
]

# 3. Вычислим эмбеддинги и построим индекс FAISS
doc_embeddings = embedder.encode(documents, convert_to_numpy=True)
dimension = doc_embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)   # простой L2‑индекс
index.add(doc_embeddings)              # добавляем векторные представления

def retrieve_relevant(query: str, k: int = 2) -> list:
    """Ищет k наиболее релевантных документов к запросу."""
    query_vec = embedder.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_vec, k)
    return [documents[i] for i in indices[0]]

def generate_answer(query: str) -> str:
    """Генерирует ответ, используя найденные фрагменты как контекст."""
    context = "\n".join(retrieve_relevant(query))
    prompt = f"Контекст:\n{context}\n\nВопрос: {query}\nОтвет:"
    # Вызов модели LLM (здесь условный openai.Completion)
    response = openai.Completion.create(
        engine="gpt-3.5-turbo",
        prompt=prompt,
        max_tokens=150,
        temperature=0.2
    )
    return response.choices[0].text.strip()

# Пример использования
user_question = "Как мне вернуть купленный онлайн товар?"
answer = generate_answer(user_question)
print("Ответ ИИ:", answer)

В этом примере мы сначала ищем в базе знаний релевантные фрагменты с помощью векторного поиска, а затем передаём их в LLM как контекст. Такой подход позволяет сократить окно контекста модели и одновременно повысить точность ответов.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE