Как подсказка и в контекстное обучение улучшают производительность LLM

Как подсказка и в контекстное обучение улучшают производительность LLM

11 июня 2025 г.

Авторы:

(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);

(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);

(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).

Аннотация и 1 введение

1.1 Мотивация

2 Связанная работа и 2,1 методы подсказки

2.2 Внутреннее обучение

2.3 модели интерпретируемость

3 Метод

3.1 Создание вопросов

3.2 Подсказка LLM

3.3. Сорбализация ответов и 3.4 Обучение классификатора

4 данные и 4.1 клинические испытания

4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата

4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)

4.6 Набор данных Necure-Tos

5 экспериментов

6 результатов

7 Обсуждение

7.1 Последствия для интерпретации модели

7.2 Ограничения и будущая работа

Воспроизводимость

Подтверждение и ссылки

Вопросы, используемые в методе ICE-T

Наше предлагаемое решение рассматривает три основных аспекта использования крупных языковых моделей для вывода: подсказка, встроенное обучение и интерпретируемость. Он построен на вершине постоянно растущего знания, который поступает из этих областей.

2.1 Призывники

Были разработаны многочисленные методы для улучшения фундаментального подхода с нулевым выстрелом. Среди них подсказка «цепочка размышлений» (COT) особенно примечательно. Этот метод используется для того, чтобы пошагнуть модель систематически сформулировать свой процесс рассуждения пошаговым образом, прежде чем прийти к выводу. Исследования показали, что побуждение к цепочке, повышает производительность по ряду задач арифметики, здравого смысла и символических рассуждений (Wei et al., 2022b, C; Wang et al., 2022a). Даже простые изменения, такие как добавление «давайте подумаем шаг за шагом» перед каждым ответом, могут значительно превзойти характеристики LLM с нулевым выстрелом по различным задачам рассуждений (Kojima et al., 2022; Nye et al., 2021). Такие сгенерированные цепи, которые бывают нагрузки на языковые модели, чтобы разбить их рассуждения на шаги, часто вызывают ошибки во время вывода. Чтобы уменьшить эти ошибки, некоторые исследователи используют метод, известный как автоматическая цепочка подсказки мысли. Этот метод, который генерирует очевидные примеры, оказалась более эффективной, чем раньше, более простые подходы Cot (Zhang et al., 2022b). Наконец, «итеративное уточнение» включает в себя неоднократно побуждение модели слегка измененными версиями исходного текста или вопроса, оттачивая более точный или нюансированный ответ посредством последовательных итераций. Каждая из этих стратегий может быть адаптирована к конкретным потребностям задачи, используя возможности модели различными способами для достижения оптимальной производительности.

Несколько подходов включают в себя использование нескольких подсказок в цепочке, где вывод одного шага становится входом для следующего, таким образом, агрегируя прирост на этап (Wu et al., 2022a) или разлагая сложные задачи в более мелкие, управляемые компоненты (Trautmann, 2023). Кроме того, может использоваться «SelfInStruct» (Wang et al., 2022b; Yang et al., 2024), где модель генерирует свои собственные инструкции или разъяснения на основе первоначальной подсказки, пытаясь уточнить или лучше понять задачу перед генерированием ответа. Другой набор подходов использует несколько моделей или несколько экземпляров одной и той же модели для улучшения производительности. Дополнительно обученные модели, называемые «проверщиками», используются для оценки правильности завершений модели. Во время вывода проверки выберут наиболее вероятный ответ (Cobbe et al., 2021).

2.2 Внутреннее обучение

Большие языковые модели обладают замечательными способностями к обучению в контексте (ICL), в которой они приобретают знания из нескольких контекстных примеров либо во время вывода, либо во время обучения. Многочисленные исследования показали, что через ICL LLMS может эффективно обрабатывать разнообразный набор сложных задач (Wei et al., 2022a). ICL предлагает несколько преимуществ, в частности, его легкость в включении человеческих знаний в LLMS с использованием различных демонстраций и шаблонов (Liu et al., 2021; Wu et al., 2022b). Кроме того, в отличие от традиционных методов обучения, ICL работает без необходимости дополнительного обучения, значительно снижая вычислительные затраты при использовании моделей для решения новых задач (Dong et al., 2022).

Одним из наиболее узнаваемых методов для обучения в контексте является «несколько выстрелов» (Schick and Schütze, 2022, 2020; Gu et al., 2021; Perez et al., 2021) во время вывода [2]. Используя этот подход, модель предоставлена ​​с несколькими примерами текста и соответствующими этикетками или желаемыми выходами в самой подсказке. Этот метод учит модели контексту процесса принятия решений, повышая ее точность в аналогичных задачах.

Многочисленные другие исследования способствовали уточнению методов ICL, сосредоточенному на автоматизации, упорядочении и выборе подсказок. Zhou et al. (2022) представил автоматического инженера -быстрого инженера (APE), который автоматизирует генерацию учебных подсказок, значительно сокращая ручные усилия и улучшая масштабируемость (Zhou et al., 2022). Одновременно Lu et al. (2021) разработал метод оптимизации упорядочения подсказок. Они использовали статистику энтропии для оценки и идентификации наиболее эффективных быстрых последовательностей (Lu et al., 2021). Rubin et al. (2021) и Liu et al. (2021) Оба способствуют этой области, но с разных точек зрения. Rubin et al. (2021) разработал метод для эффективного извлечения подсказок с использованием аннотированных данных, оптимизируя процесс выбора (Rubin et al., 2021). С другой стороны, Liu et al. (2021) исследовали методы стратегического отбора, которые выходят за рамки случайной выборки для использования нескольких выстрелов LLM, стремящихся повысить производительность модели за счет выбора примера (Liu et al., 2021). В дополнение к обсуждению стратегий отбора, Zhang et al. (2022) подошел к выбору примера в качестве последовательной проблемы принятия решения. Они предложили использовать алгоритм подкрепления обучения для обнаружения политики, которые улучшают обобщаемость языковых моделей (Zhang et al., 2022a). Эта перспектива вводит динамический элемент для процесса отбора, согласуясь со стратегиями, обсуждаемыми Рубином и Лю, но с помощью адаптивного, управляемого политикой подходом.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE