machine-learning fine-tuning-llms large-language-models context-masking-experiments in-context-learning machine-translation translation-models supervised-neural-mt-models gpt-models

Где происходит контекстный перевод в больших языковых моделях: эффективность вывода

2 сентября 2024 г.

Авторы:

(1) Сюзанна Сиа, Университет Джонса Хопкинса;

(2) Дэвид Мюллер;

(3) Кевин Да.

Таблица ссылок

Аннотация и 1. Фон
2. Данные и настройки
3. Где происходит контекстный машинный перевод?
4. Характеристика избыточности в слоях
5. Эффективность вывода
6. Дальнейший анализ
7. Заключение, благодарности и ссылки
А. Приложение

5. Эффективность вывода

Ускорение вывода трансформатора представляет большой интерес для сообщества (Fournier et al., 2023). Мы подчеркиваем потенциал ускорения времени вывода как прямое следствие определения того, где в модели происходит распознавание задачи, и избыточности обработки собственного внимания. Наши результаты показывают, что мы можем достичь значительного ускорения вывода, полностью удалив обработку маркеров контекста после определенной точки в модели, с небольшим или нулевым влиянием на производительность ниже по потоку.

Тогда для модели с nℓ слоями объем обработки с точки зрения скорости и сэкономленной памяти составит приблизительно (nℓ − r)/nℓ × (k/k + 1).

Используя пример LLAMA7B (32 слоя), мы видим на рисунке 2, что модель очень близка к своему предельному значению после обработки примеров на уровне 14 (ℓ = 14). Если нам больше не нужно обрабатывать примеры после ℓ = 14,под быстрым размером5экономия составляет около 45%.

Для моделей с настроенными инструкциями, которые обычно развертываются в производстве, даже если предположить, что примеры не предоставляются, экономия может быть нетривиальной, поскольку модели обычно предоставляются очень длинные инструкции в попытке контролировать ее поведение (оперативное проектирование).

Эта статьядоступно на arxivпо лицензии CC BY 4.0 DEED.

Оригинал

Где происходит контекстный перевод в больших языковых моделях: эффективность вывода

Таблица ссылок

5. Эффективность вывода

Recent Post

Традиционные хранилища данных пожирают агентским ИИ?

Ложные позитивы, ушли! Skycurtains очищает небо для охотников за галактическим потоком

Двухэтапный секрет ML за Skycurtains

Как Skycurtains находит галактическую иглу в данных сена данных

ИИ и прогнозирующая аналитика: видение Закеры Ясмин для более умного, управляемого данными здравоохранения

Categories