
Ваттиция: высокоэффективная в уменьшении фрагментации КВ-кэша LLM
18 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 фон
2.1 Модели больших языков
2.2 Фрагментация и Pagegataturation
3 проблемы с моделью Pagegatatturetion и 3.1 требуют переписывания ядра внимания
3.2 Добавляет избыточность в рамки порции и 3,3 накладных расходов
4 понимания систем обслуживания LLM
5 Vattument: проектирование системы и 5.1 Обзор дизайна
5.2 Использование поддержки CUDA низкого уровня
5.3 Служение LLMS с ваттенцией
6 -й ваттиция: оптимизация и 6,1 смягчения внутренней фрагментации
6.2 Скрытие задержки распределения памяти
7 Оценка
7.1 Портативность и производительность для предпочтений
7.2 Портативность и производительность для декодов
7.3 Эффективность распределения физической памяти
7.4 Анализ фрагментации памяти
8 Связанная работа
9 Заключение и ссылки
7.4 Анализ фрагментации памяти
В таблице 8 показан размер блока (определяемый как минимальное количество токенов на странице), и сколько физической памяти может быть (теоретически) впустую из -за чрезмерного распределения в худшем случае. Худший случай возникает, когда выделяется новая страница, но остается совершенно неиспользованным. Кроме того, мы показываем каждую модель под двумя конфигурациями TP-TP-1 и TP-2-чтобы выделить влияние измерения TP на размер блока.
Слива выделяет физическую память, эквивалентную размеру страницы на каждом работнике TP, тогда как потребность в физической памяти работника в отношении ток-тока снижается по мере увеличения измерения TP (потому что головки КВ расщепляются на работников TP).
Следовательно, размер блока увеличивается пропорционально размеру TP. В таблице 8 показано, что это приводит к наименьшим размерам блоков 32 (YI-34B TP-1) до 128 (YI-6B TP-2). С точки зрения количества физической памяти, размер страниц 64 КБ приводит к максимальной теоретической отходе всего 4-15 МБ на запрос, который увеличивается до 16-60 МБ для размера страницы 256 КБ. В целом, важным моментом является то, что, контролируя гранулярность распределения физической памяти, ваттация делает фрагментацию памяти незначительным. Напомним, что подача пропускной способности насыщает примерно 200 партий для всех наших моделей (рис. 6). Следовательно, даже при таких больших размерах партии максимальные теоретические отходы памяти составляют не более нескольких ГБ. Следовательно, аналогично VLLM, судация очень эффективна для уменьшения фрагментации и позволяет подавать с использованием больших размеров партий. Однако, если это необходимо, размер страницы может быть уменьшен в дальнейшем до 4 КБ, что является минимальным размером страницы, поддерживаемым почти во всех архитектурах сегодня, включая графические процессоры NVIDIA [28].
Усилия по реализации
Основным преимуществом совокупности является портативность: он позволяет беспрепятственно интегрировать новые ядра внимания без необходимости писать ее версию или менять рамку порции. Например, переключение между ядрами предварительного или декодирования флэш -осведомленности и FlashInfer требует лишь нескольких строк изменений кода, как показано на рисунке 12. Напротив, в Pagegatatuention разработчикам сначала необходимо написать ядро для внимания, а затем внести значительные изменения в рамке обслуживания. Например, интеграция ядра декодирования FlashInfer в VLLM потребовало более 600 строк изменений кода, разбросанных по 15 файлам [21, 22, 24]. Реализация первоначальной поддержки пейджинга в ядре графического процессора Flashatting также потребовала около 280 строк изменений кода [20] и дополнительных усилий, чтобы обеспечить поддержку меньших размеров блоков [16]. Учитывая быстрые темпы инноваций в LLMS, мы считаем, что важно снизить бремя программирования: производственные системы должны иметь возможность использовать новые оптимизации оператора внимания без повторного выписания кода-аналогично тому, как оптимизированные реализации GEMM используются глубокомум обучением без вмешательства программиста.
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Оригинал