tech-stories llm-inference decode-phase gpu-memory vattention-evaluation memory-efficiency research-methodology tensor-parallelism nvidia-a100-gpu

Оценка сосудов для вывода LLM: предварительная работа и производительность декодирования

13 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 фон

2.1 Модели больших языков

2.2 Фрагментация и Pagegataturation

3 проблемы с моделью Pagegatatturetion и 3.1 требуют переписывания ядра внимания

3.2 Добавляет избыточность в рамки порции и 3,3 накладных расходов

4 понимания систем обслуживания LLM

5 Vattument: проектирование системы и 5.1 Обзор дизайна

5.2 Использование поддержки CUDA низкого уровня

5.3 Служение LLMS с ваттенцией

6 -й ваттиция: оптимизация и 6,1 смягчения внутренней фрагментации

6.2 Скрытие задержки распределения памяти

7 Оценка

7.1 Портативность и производительность для предпочтений

7.2 Портативность и производительность для декодов

7.3 Эффективность распределения физической памяти

7.4 Анализ фрагментации памяти

8 Связанная работа

9 Заключение и ссылки

7 Оценка

Наша оценка стремится ответить на следующие вопросы:

• Как выполняется ваттция для фаз префиллы и декодирования в выводе LLM? Каковы портативность и преимущества производительности.

• Насколько эффективно ваттенция может выделить память графических процессоров для рабочих нагрузок LLM и насколько эффективно она может иметь дело с фрагментацией кв-кэша?

Модели и аппаратное обеспечение:Мы оцениваем три модели YI-6B, LLAMA-3-8B и YI-34B, с использованием одного графического процессора NVIDIA A100 для YI-6B и двух связей с NVLINK A100 для LLAMA3-8B и YI-34B (см. Таблицу 5). Каждый графический процессор имеет физическую память 80 ГБ. Мы используем тензор-параллелизм-степень двух (TP-2) как для Llama-3-8b, так и для Yi-34b. Все три модели используют GQA, который является наиболее часто используемым механизмом внимания в недавних LLMS.

Методология оценки:Расчеты и шаблон распределения памяти фаз префилля и декодирования существенно отличаются. Ядра внимания, используемые для этих двух этапов, также различны, и, следовательно, мы оцениваем их отдельно. Фаза предварительной заполнения требует одного времени распределения памяти, потенциально охватывающей несколько страниц. Для сравнения, фаза декодирования требует постепенного распределения памяти в течение времени жизни запроса. Мы измеряем пропускную способность этих этапов с точки зрения токенов, обрабатываемых (или сгенерированных) в секунду.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Рамья Прабху, Microsoft Research India;

(2) Аджай Наяк, Индийский институт науки и участвовал в этой работе в качестве стажера в Microsoft Research India;

(3) Джаяшри Мохан, Microsoft Research India;

(4) Рамачандран Рамджи, Microsoft Research India;

(5) Ашиш Панвар, Microsoft Research India.

Оригинал

Оценка сосудов для вывода LLM: предварительная работа и производительность декодирования

Таблица ссылок

7 Оценка

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

За кулисами эксперимента парного программирования

Простое руководство по измерению времени и труда в программировании

Categories