tech-stories llm-finetuning low-rank-adaptation full-finetuning parameter-efficient-finetuning instruction-finetuning continued-pretraining code-domain-performance llm-training-strategies

Как тип модуля и эффективность ранга

17 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 фон

3 Экспериментальная настройка и 3,1 наборов данных для продолжения предварительной подготовки (CPT) и создания инструкций (IFT)

3.2 Измерение обучения с помощью кодирования и математических показателей (оценка целевой области)

3.3 Забыть метрики (оценка доменов источника)

4 Результаты

4.1 Lora Underperforms Полное создание в программировании и математических задачах

4.2 Лора забывает меньше, чем полное создание

4.3 Обмен на обучение

4.4 Свойства регуляризации Лоры

4.5 Полная производительность на коде и математике не изучает низкие возмущения

4.6 Практические выводы для оптимальной настройки LORA

5 Связанная работа

6 Обсуждение

7 Заключение и ссылки

Приложение

А. Экспериментальная установка

B. Поиски скорости обучения

C. Обучающие наборы данных

D. Теоретическая эффективность памяти с LORA для однократных и мульти-GPU настройки

4.5 Полная производительность на коде и математике не изучает низкие возмущения

Далее мы спрашиваем, когда во время тренировки возмущение становится высоким рангом, и варьируется ли оно между типами модулей и слоями. Мы оцениваем ранг, необходимый для объяснения 90% дисперсии в матрице. Результаты показаны на рисунке 7. Мы обнаруживаем, что: (1) самая ранняя контрольная точка в 0,25B токенах CPT демонстрирует ∆-матрицы с рангом, который в 10-100 раз больше, чем типичные ранги LORA; (2) ранг ∆ увеличивается при обучении по большему количеству данных; (3) модули MLP имеют более высокие ранги по сравнению с модулями внимания; (4) Первые и последние слои, по -видимому, ниже ранга по сравнению со средними слоями.

Figure 7: Dynamics of rank for Llama-2-7b trained on the Starcoder (CPT) data. In each panel, the x-axis denotes layer number and the y-axis denotes rank needed to explain at least 90% of the variance (maximal dimensionality is 4096). Colors denote CPT tokens, with lighter colors trained for longer.

Figure 8: LoRA is more sensitive to learning rates compared to full finetuning. LLaMA-2-7B models (A) trained on Magicoder-Evol-Instruct-110k (Wei et al., 2023) and evaluated on HumanEval, (B) trained on MetaMathQA (Yu et al., 2023) and evaluated on GSM8K. Experiments here are performed with LionW; see Fig. S1 for a comparion to AdamW.

Figure 9: The improvement from targeting more modules (shown as different colors) is more substantial than from increasing the rank by 16× (x-axis). Different points indicate different training durations.

4.6 Практические выводы для оптимальной настройки LORA

Хотя оптимизация гиперпараметров Lora не закрывает пробелы с полным созданием, некоторые варианты гиперпараматора значительно более эффективны, чем другие, как мы выделяем ниже.

4.6.1 Лора очень чувствительна к ставкам обучения

4.6.2 Выбор целевых модулей значит больше, чем ранга

С лучшими показателями обучения, на рис. 9 мы приступаем к анализу эффекта ранга (r = 16, 256) и целевых модулей. Мы находим, что «все»> «MLP»> «Внимание» и что, хотя эффекты ранга более тонкие, r = 256> r = 16. Поэтому мы заключаем, что нацеливание на модули «все» с относительно низким рангом (например, R = 16) обеспечивает хороший компромисс между производительностью и точностью.

В целом, мы рекомендуем использовать LORA для IFT, а не CPT; определение самого высокого уровня обучения, которая обеспечивает стабильную подготовку; нацеливание на «все» модули и выбор ранга в соответствии с ограничениями памяти, причем 16 - хороший выбор; Изучение обучения как минимум для четырех эпох.

Авторы:

(1) Дэн Бидерман, Колумбийский университет и Databricks Mosaic AI (db3236@columbia.edu);

(2) Хосе Гонсалес Ортис, DataBricks Mosaic AI (j.gonzalez@databricks.com);

(3) Джейкоб Портес, DataBricks Mosaic AI (jportes@databricks.com);

(4) Mansheej Paul, DataBricks Mosaic AI (mansheej.paul@databricks.com);

(5) Филип Грингард, Колумбийский университет (pg2118@columbia.edu);

(6) Коннор Дженнингс, DataBricks Mosaic AI (connor.jennings@databricks.com);

(7) Даниэль Кинг, DataBricks Mosaic AI (daniel.king@databricks.com);

(8) Сэм Хейвенс, DataBricks Mosaic AI (sam.havens@databricks.com);

(9) Vitaliy Chiley, DataBricks Mosaic AI (vitaliy.chiley@databricks.com);

(10) Джонатан Франкл, DataBricks Mosaic AI (jfrankle@databricks.com);

(11) Коди Блакни, DataBricks Mosaic AI (Cody.blakeney);

(12) Джон П. Каннингем, Колумбийский университет (jpc2181@columbia.edu).

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Как тип модуля и эффективность ранга

Таблица ссылок

4.5 Полная производительность на коде и математике не изучает низкие возмущения

4.6 Практические выводы для оптимальной настройки LORA

4.6.1 Лора очень чувствительна к ставкам обучения

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

Как я сокращаю задержку рабочего процесса агента в 3-5 раз без увеличения затрат на модель

За кулисами эксперимента парного программирования

Categories