Улучшение бинарной классификации с помощью LLM-генеральных вопросов

Улучшение бинарной классификации с помощью LLM-генеральных вопросов

11 июня 2025 г.

Авторы:

(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);

(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);

(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).

Аннотация и 1 введение

1.1 Мотивация

2 Связанная работа и 2,1 методы подсказки

2.2 Внутреннее обучение

2.3 модели интерпретируемость

3 Метод

3.1 Создание вопросов

3.2 Подсказка LLM

3.3. Сорбализация ответов и 3.4 Обучение классификатора

4 данные и 4.1 клинические испытания

4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата

4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)

4.6 Набор данных Necure-Tos

5 экспериментов

6 результатов

7 Обсуждение

7.1 Последствия для интерпретации модели

7.2 Ограничения и будущая работа

Воспроизводимость

Подтверждение и ссылки

Вопросы, используемые в методе ICE-T

5 экспериментов

Мы выполнили эксперименты по набору бинарных задач классификации на наборах данных из различных доменов, как описано в предыдущем разделе.

Чтобы создать вторичные вопросы, мы использовали большую языковую модель. Подсказывая его только один раз, мы получили набор N вторичных вопросов, которые мы приняли в соответствии с указаниями, без какого -либо выбора или модификации. Более конкретно, мы использовали следующую подсказку для создания всех второстепенных вопросов:

Вернуть {n} да/нет вопросов, которые были бы полезны, чтобы спросить, пытались ли вы определить ответ на следующий вопрос: "{primary_question}"

где n - это количество дополнительных вопросов, которые мы хотим сгенерировать, и Primary_question является основным вопросом, используемым для получения основной информации из документа. Обратите внимание, что во всех наших экспериментах n = 4. Это означает, что для каждого документа мы используем один первичный и четыре вторичного вопроса, которые обращаются одинаково при подъеме LLM. Таким образом, для каждого документа мы собираем пять ответов из LLM, которые затем вербализируются (присваивают числовое значение) на следующем шаге. Чтобы создать вторичные вопросы для всех наших экспериментов, мы используем модель OpenAI GPT-4-0125-Preview. Чтобы собрать ответы в наших экспериментах, мы используем два поколения моделей OpenAI: GPT-4-0125-Preview (Achiam et al., 2023) и GPT-3,5-Turbo-0125 (Brown et al., 2020).

Чтобы выбрать лучший классификатор, мы тренируем несколько различных алгоритмов классификации. К ним относятся K-ближайшие соседи, деревья решений, случайный лес, гауссовая наивная байеса, мультиномиальная наивная байеса, Adaboost и Xgboost. Мы используем 5-кратную перекрестную проверку на наших учебных данных, а также выполняем поиск сетки, чтобы точно настроить параметры для каждого классификатора. После обучения мы проверяем их на наборе тестовых испытаний и выбираем классификатор, который дает нам самый высокий показатель Micro F1 (µF1). Обратите внимание, что можно также настроить учебный процесс для оптимизации для определенной метрики производительности, если это необходимо для конкретного приложения. Чтобы провести эти эксперименты, мы использовали библиотеку Scikit-Learn в Python.

Микро F1 Оценка особенно полезна в наборах данных, где некоторые классы значительно недопредставлены, и где традиционные метрики могут дать вводящую в заблуждение картину производительности модели. Он рассматривает каждый экземпляр как одинаково важный, тем самым давая более точную меру производительности модели по всем направлениям. Для расчета µF1 мы используем следующую формулу:

и T P, F P и F P представляют собой количество истинных положительных результатов, ложных срабатываний и ложных отрицательных соответственно

Кроме того, мы провели анализ чувствительности, чтобы улучшить наше понимание взаимосвязи между количеством особенностей и улучшением µF1. Этот анализ помогает определить необходимое количество вторичных вопросов для достижения желаемого µF1. Для каждого набора данных мы начали с создания n = 9 вторичных вопросов и используя модель GPT-3.5-Turbo-0125 для создания ответов для каждого образца. Выходы из модели большого языка были затем преобразованы в 10-мерные векторы признаков. Впоследствии мы построили серию простых случайных лесных классификаторов, начиная с одной функции и постепенно добавляя больше функций до десяти. Учитывая случайный выбор функций для классификации, мы повторили эксперимент 100 раз. Мы вычислили µF1 для каждой итерации и набора данных. Результаты подробно описаны в разделе 6 и показаны на рисунке 3.

Table 1: Comparison of µF1 scores between zeroshot setting and ICE-T method. The values in bold represent the µF1 score of the winning approach for a specific task and a language model. Horizontal line in the middle splits the clinical trial datasets and other datasets. All tasks solve the binary classification problem.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE