Производительность кода в реальном мире: Multi-Token Cenetuning на кодеконтах

Производительность кода в реальном мире: Multi-Token Cenetuning на кодеконтах

22 июля 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

4. Абляции на синтетических данных

5. Почему это работает? Некоторые предположения

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

F. Подробности о CodeContests Manetuning

Мы используем подмножество Python кодеконтов (Li et al., 2022) разделение поезда с аннотациями вознаграждения («Правильно» / «неверно») и условием на правильных решениях во время оценки. Для оценки мы генерируем 1000 образцов на проблему из тестового разделения для каждой температуры t ∈ {0,5, 0,6, 0,7, 0,8, 0,9} и вычисляем объективную оценку для Pass@K из Chen et al. (2021) Для каждого значения K и T. Возможно, что модели, которые были предварительно проведены с различными потери, имеют различные соответствующие оптимальные температуры для Pass@K, поэтому мы вычисляем и показываем K 7 → Maxt pass_at (k, t) на рисунке 4. Другими словами, мы предоставляем Pass@k доступ к температуре Oracle. Для небольших значений k Pass@K измеряет способность понимания и решения задач, в то время как для большого k это дополнительно способствует разнообразию результатов. Согласно результатам на рисунке 4, предварительное предварительное предсказание многоцветного прогнозирования приводит к созданным моделям, которые лучше на обеих токах.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и равный вклад;

(2) Badr Youbi Idrissi, Fair at Meta, Lisn Université Paris-Saclayand и равный вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Meta и последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE