Где происходит контекстный перевод в больших языковых моделях: эффективность вывода

Где происходит контекстный перевод в больших языковых моделях: эффективность вывода

2 сентября 2024 г.

Авторы:

(1) Сюзанна Сиа, Университет Джонса Хопкинса;

(2) Дэвид Мюллер;

(3) Кевин Да.

  • Аннотация и 1. Фон
  • 2. Данные и настройки
  • 3. Где происходит контекстный машинный перевод?
  • 4. Характеристика избыточности в слоях
  • 5. Эффективность вывода
  • 6. Дальнейший анализ
  • 7. Заключение, благодарности и ссылки
  • А. Приложение

5. Эффективность вывода

Ускорение вывода трансформатора представляет большой интерес для сообщества (Fournier et al., 2023). Мы подчеркиваем потенциал ускорения времени вывода как прямое следствие определения того, где в модели происходит распознавание задачи, и избыточности обработки собственного внимания. Наши результаты показывают, что мы можем достичь значительного ускорения вывода, полностью удалив обработку маркеров контекста после определенной точки в модели, с небольшим или нулевым влиянием на производительность ниже по потоку.

Тогда для модели с nℓ слоями объем обработки с точки зрения скорости и сэкономленной памяти составит приблизительно (nℓ − r)/nℓ × (k/k + 1).

Используя пример LLAMA7B (32 слоя), мы видим на рисунке 2, что модель очень близка к своему предельному значению после обработки примеров на уровне 14 (ℓ = 14). Если нам больше не нужно обрабатывать примеры после ℓ = 14,под быстрым размером5экономия составляет около 45%.

Для моделей с настроенными инструкциями, которые обычно развертываются в производстве, даже если предположить, что примеры не предоставляются, экономия может быть нетривиальной, поскольку модели обычно предоставляются очень длинные инструкции в попытке контролировать ее поведение (оперативное проектирование).

Эта статьядоступно на arxivпо лицензии CC BY 4.0 DEED.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE