Связанная работа: ваттиция в ландшафте оптимизации вывода LLM

Связанная работа: ваттиция в ландшафте оптимизации вывода LLM

18 июня 2025 г.

Аннотация и 1 введение

2 фон

2.1 Модели больших языков

2.2 Фрагментация и Pagegataturation

3 проблемы с моделью Pagegatatturetion и 3.1 требуют переписывания ядра внимания

3.2 Добавляет избыточность в рамки порции и 3,3 накладных расходов

4 понимания систем обслуживания LLM

5 Vattument: проектирование системы и 5.1 Обзор дизайна

5.2 Использование поддержки CUDA низкого уровня

5.3 Служение LLMS с ваттенцией

6 -й ваттиция: оптимизация и 6,1 смягчения внутренней фрагментации

6.2 Скрытие задержки распределения памяти

7 Оценка

7.1 Портативность и производительность для предпочтений

7.2 Портативность и производительность для декодов

7.3 Эффективность распределения физической памяти

7.4 Анализ фрагментации памяти

8 Связанная работа

9 Заключение и ссылки

В недавней работе GMLAKE [35] показал, что использование поддержки виртуальной памяти CUDA может смягчить фрагментацию на тренировках DNN, увеличивая размер обучения. В частности, GMLAKE использует поддержку CUDA, чтобы объединить несколько меньших страниц физической памяти в один практически смежный объект, который может предотвратить ошибки в результате мемемьей для больших распределений объектов. В отличие от этого, сфокусирована на предотвращении фрагментации для вывода LLM. В отличие от тренировок, вывод LLM чувствителен к задержке и требует меньшего распределения детализации. Мы предложили различные специфические оптимизации вывода LLM для удовлетворения этих требований.

Оптимизация вывода LLM является активной областью исследований. Были предложены различные системы планирования для улучшения различных аспектов обслуживания LLM. Например, ORCA [47] и VLLM [39] направлены на повышение пропускной способности с эффективной партией. Саратхи [26] и сплит [36] разделили длинную префиллу на несколько небольших кусков и объединяют токены декодирования с каждым кусочком для улучшения использования графических процессоров. Основываясь на аналогичных методах, Sarathi-Serve [25] предлагает беззащитный пакетирование, чтобы минимизировать влияние долгосрочных итераций префиллов на задержку декодирования. Splitwise [41], Distserve [49] и Tetriinfer [38] дезагрегируют фазы предварительного и декодирования, выполняя их на различных репликах, чтобы избежать помех между запросами на предварительную работу и декодирования. Для автономного вывода на устройствах с ограниченными ресурсами Flexgen [43] предложил стратегию планирования и разгрузки для повышения пропускной способности. Fastserve [45] сводит к минимуму время завершения работы при выводе LLM с использованием превентивного планирования.

Для всех вышеперечисленных систем эффективно эффективно использование физической памяти графических процессоров имеет важное значение. С момента VLLM Pagegatattureation была принята в различных рамках обслуживания, например, Tensorrt-LLM [14], LightllM [12] и реализации ядра, например, во фантастике [9] и FlashInfer [11]. Напротив, Vattention предлагает альтернативный подход к динамическому управлению памятью к кв-кэшу. Мы показываем, что использование системной поддержки для подготовки спроса может легко добавить поддержку динамической памяти к существующим реализациям ядра.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Рамья Прабху, Microsoft Research India;

(2) Аджай Наяк, Индийский институт науки и участвовал в этой работе в качестве стажера в Microsoft Research India;

(3) Джаяшри Мохан, Microsoft Research India;

(4) Рамачандран Рамджи, Microsoft Research India;

(5) Ашиш Панвар, Microsoft Research India.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE