Цена LLM объяснил: токены, внедрения и многое другое

Цена LLM объяснил: токены, внедрения и многое другое

15 июля 2025 г.

Аннотация и 1. Введение

  1. Основные помещения для наших моделей

    2.1. Как взимаются LLM

    2.2 Анедотальная модель из промышленности

    2.3 Выбор затрат в модели

    2.4 Почему несколько сценариев

  2. Теоретическая модель решения

    3.1 Как смоделировать успех

  3. Модель для коммерческих операций на основе одной транзакции

    4.1 Пример использования модели

    4.2 Анализ модели

    4.3 Обсуждение рентабельности рентабельности по сравнению

  4. Моделирование проблемы бинарной классификации

    5.1 Локальный анализ чувствительности

    5.2 Глобальный анализ чувствительности методом SOBOL

  5. Связанная работа

  6. Будущая работа

  7. Заключение, ссылки и подтверждения

2.3 Выбор затрат в модели

Более того, поскольку в этой статье мы заинтересованы в эксплуатационных затратах на использование LLMS, мы полагаем, что компания, которая уже работает в своем бизнесе и уже решила использовать LLMS в некоторых частях своей деятельности; Тем не менее, он еще не решал, какой LLM использовать из -за разницы в затратах и производительности LLM. Мы также предполагаем, что для большинства предприятий эксплуатационные расходы будут больше, чем затраты на разработку, которые считаются постоянными затратами. Кроме того, поскольку затраты на разработку в основном одинаковы для всех LLMS, это также является моментом, который не поможет выбору LLM.

Поэтому наша предпосылка заключается в том, что нам нужно только анализировать на CLLM (T), причем все другие затраты считаются равными для одного и того же применения, в соответствии с принципом «прочислитеровку

Стоимость за токен, C, обычно очень мала и заряжается тысячами или миллионами жетонов. Согласно Openai, можно «думать о токенах как о частях слов, где 1000 жетонов составляет около 750 слов». OpenAI также заряжает токены на входе дешевле, чем токены в своем выходе [OpenAI, 2024].

Например, для 1 000 000 токенов цены на OpenaI в мае 2024 года для токенов при входе составили 5,00 долл. США для GPT-4O и 0,50 для GPT-3,5-Turbo-0125. Выходные токены обычно в три раза дороже. Наиболее дорогие модели OpenAI взимали 10 долларов США за токен входных данных и 30 долларов США за выходные токены [OpenAI, 2024].

2.3.1 Есть ли другие затраты?

Более полный анализ должен использовать влияние других затрат, даже если они одинаковы, чтобы лучше визуализировать реальное влияние на бизнес. Ниже приводится рассмотрение других затрат.

• Затраты на сеть: многие модели облачных выставлений включают в себя сетевые затраты, с различными затратами на использование внутренней сети Сервиса и использование внешней сети. Это может повлиять на выбор услуги, предоставляемой уже контролированным поставщиком облаков. Поскольку существует связь между размером транзакций и сетевыми затратами, было бы не сложно донести сетевые затраты в нашу модель.

• Затраты на включение: если необходимо использовать тряпку или другую технику, которая использует встраивание, стоимость тряпки может быть важной. Normally, the RAG cost is completely dominated by the most expensive models, but it is of the same order of magnitude as that of the cheapest models. Например, встраивание ADA-V2 имеет такую же стоимость, что и модель GPT-2 [Openai, 2024]. Внедрение затрат может быть легко добавлено в нашу модель.

• Связь между входом и выводом: как мы видели, поскольку некоторые модели имеют разные затраты на вход и вывод, возможно, что для аналогичных задач, но с разными выходами изменение отношения и выгод затрат. Это не является проблемой для наших моделей, поскольку это только влияет на расчет общей стоимости одной транзакции.

• Затраты на переработку: если вариант для задачи, когда требуется периодическое переработку, может быть интересно рассмотреть эти затраты. Это приведет к более сложной модели, включая периодические затраты, которые фактически будут фиксированными затратами в проекте. • Стратегии подкрепления обучения: наряду с стратегиями уточнения, подкрепления и обучения могут оказывать прямое влияние на стоимость. Это принесет новые переменные в модель, поскольку эти стратегии будут классифицированы как переменная стоимость.

• Скидки и «бесплатные» машины: вполне возможно, что некоторые LLMS предоставляют скидки, когда транзакции покупаются заранее или в большом количестве, и также возможно, что доступные машины недооценены, и их использование фактически снизит среднюю цену за транзакцию. Это приведет к более сложному моделированию стоимости за транзакцию.

Кроме того, существуют другие нефинансовые проблемы, которые должны учитывать, которые влияют на возврат, такие как время отклика, то есть задержка, что может привести к результату, на практике хуже, чем теоретическая, потому что модель, которая требует больше, чем ожидалось пользователем, может потерять возможность для представления своих результатов, потому что пользователь отдает навигацию, что приводит к более низкой скорости успеха, на практике, чем ожидалось.

2.4 Почему несколько сценариев

В этой статье мы решили создавать разные модели для некоторых сценариев.

Каждая компания и даже каждый проект в портфеле компании могут иметь разные данные для своих менеджеров для анализа и прогнозирования результатов проекта.

Например, в определенных проектах усиление может быть рассчитано на операцию. Например, система рекомендаций, которая рекомендует один предмет для покупки на последнем этапе продажи, может быть построена на основе предпосылки, что он увеличит билет на 10 долларов США в 10% случаев, но также потеряет полную транзакцию продажи из -за того, что он упустил внимание пользователя на продаже, в 1% случаев. Система, которая избегает токсичности в игре, может быть создана в предпосылке, что она уменьшит отток на 5 процентных пунктов. Хотя первый пример посвящен проблеме, основанной на стоимости операции, второй можно увидеть только из глобального сценария компании, поскольку каждая транзакция напрямую будет напрямую влиять на скорость оттока, а скорее глобальные изменения в духе внутриигранных разговоров, которые косвенно привлекают или отталкивают клиентов.

Авторы:

(1) Джеральдо Xexéo, Programa de Engenharia de Sistemas E Computação - Coppe, Universidade Federal Do Rio De Janeiro, Бразиль;

(2) Филипе Брайда, Destamento de Ciência da Computação, Universidade Federal Rural Do Rio de Janeiro;

(3) Маркус Паррейс, Programa de Engenharia de Sistemas e Computação - Coppe, Universidade Federal Do Rio de Janeiro, Бразил и Координадория де Энгенхария де Продушен - Coenp, Cefet/RJ, Unidade Nova Iguaçu;

(4) Пауло Ксавье, Programa de Engenharia de Sistemas E Computação - Coppe, Universidade Federal Do Rio de Janeiro, Бразил.


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE