
Ice-T служит AI Prame Cold-с несколькими подсказками и стороной ясности
11 июня 2025 г.Авторы:
(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);
(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);
(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).
Таблица ссылок
Аннотация и 1 введение
1.1 Мотивация
2 Связанная работа и 2,1 методы подсказки
2.2 Внутреннее обучение
2.3 модели интерпретируемость
3 Метод
3.1 Создание вопросов
3.2 Подсказка LLM
3.3. Сорбализация ответов и 3.4 Обучение классификатора
4 данные и 4.1 клинические испытания
4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата
4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)
4.6 Набор данных Necure-Tos
5 экспериментов
6 результатов
7 Обсуждение
7.1 Последствия для интерпретации модели
7.2 Ограничения и будущая работа
Воспроизводимость
Подтверждение и ссылки
Вопросы, используемые в методе ICE-T
Абстрактный
В этой статье мы вводим методику интерпретируемого перекрестного допроса (ICE-T), новый подход, который использует структурированные методы многопрофессионала с большими языковыми моделями (LLMS) для улучшения производительности классификации по нулевым выстрелу и нескольким выстрелам. В областях, где интерпретируемость имеет решающее значение, например, медицина и закон, стандартные модели часто не хватают из-за их «черного ящика». ICE-T обращается к этим ограничениям, используя серию сгенерированных подсказок, которые позволяют LLM подходить к проблеме с разных направлений. Ответы от LLM затем преобразуются в числовые векторы функций и обрабатываются традиционным классификатором. Этот метод не только поддерживает высокую интерпретацию, но также позволяет более низким и менее способным моделям для достижения или превышения производительности более крупных, более продвинутых моделей в условиях нулевого выстрела. Мы демонстрируем эффективность ICE-T в различных источниках данных, включая медицинские карты и юридические документы, последовательно превосходя базовую линию с нулевым выстрелом с точки зрения показателей классификации, таких как баллы F1. Наши результаты показывают, что ICE-T можно использовать для повышения как производительности, так и прозрачности приложений искусственного интеллекта в сложных средах принятия решений.
1 Введение
Существует множество стратегий побуждения для достижения хорошей производительности с использованием генеративных моделей крупных языков (LLMS). Возьмем, к примеру, проблему бинарной классификации, когда система должна классифицировать заданный текст в один из двух классов. Типичным подходом с нулевым выстрелом является предложение модели с данным текстом и тщательно разработанным вопросом, который даст соответствующий ответ. Существует также множественные вариации этого подхода, которые включают в себя побуждение «цепь размышлений» (Wei et al., 2022c; Wang et al., 2022a; Kojima et al., 2022), «Несколько выстрелов» (Schick and Schütze, 2022; Gu et al., 2021), «самоинструк» (Wang et al., 2022. подсказка и «итеративное уточнение» (Wu et al., 2022a; Trautmann, 2023). Эта тактика используется, чтобы лучше понять основные рассуждения модели или превзойти производительность, достигнутую стандартным методом с нулевым выстрелом.
Эти варианты обычно используются в тех случаях, когда использование высокоспециализированных тонких настраиваемых LLM не является жизнеспособным вариантом, потому что часто очень важно понять, как принимаются решения. Это особенно верно в таких областях, как медицина, где решения, основанные на непрозрачных моделях «черного ящика», обычно не приемлемы. Хотя нулевые или меньшие методы подсказования могут потенциально предложить объяснения их рассуждения, эти объяснения часто неструктурированы и не имеют количественной оценки. С другой стороны, в то время как тонко настроенные модели могут достичь превосходной производительности, они часто изо всех сил пытаются сформулировать обоснование, стоящее за своими результатами, если только явно обученные для этой цели, процесс, который является трудоемким. Кроме того, выходы из таких моделей также могут страдать от отсутствия структурированного представления рассуждений.
В тех случаях, когда использование моделей «черного ящика» не является практичным, и если важна интерпретируемость, пользователи могут разработать процесс структурированного рассуждения, задавая несколько вопросов для достижения желаемого вывода. Есть три основные проблемы, которые возникают при таком подходе: 1) не эксперты имеют мало шансов разработать хороший набор вопросов и правил, которые обеспечивают оптимальную производительность модели; 2) проектирование точного набора правил становится сложной, поскольку отдельные экземпляры могут не совсем соответствовать всем желаемым критериям, что приводит к сочетанию положительных и отрицательных ответов на различные правила; и 3) потенциальные комбинации этих правил могут стать в подавляющем большинстве случаев, что делает их непрактичным для жесткого кода всех возможных сценариев.
В статье мы предлагаем метод, который пытается преодолеть три вопроса, изложенные выше. Мы называем метод как интерпретируемый CrossArxiv: 2405.06703V1 [Cs.Cl] 8 мая 2024 г. Техника осмотра или ICE-T для краткости. Наш подход демонстрирует сильную производительность, последовательно превосходит эталон, установленную базовой линией с нулевым выстрелом, а также предлагает высокий уровень интерпретации. Основная концепция здесь заключается в том, что вместо того, чтобы использовать одну подсказку для получения ответа от LLM и принятия решения, основанного на этом единственном выходе, мы включаем LLM с несколькими подсказками, охватывая различные вопросы. Затем мы объединяем ответы от всех этих подсказок и используем выходы, чтобы принять решение. По сравнению с другими методами, основанными на нескольких раздвигании, наш подход принципиально отличается в том, как принимаются решения. В частности, мы принимаем ответы из LLM, преобразуем их в числовые значения, чтобы создать вектор функций, а затем вводим этот вектор в традиционный классификатор, чтобы определить окончательный результат. Поскольку в этом процессе мы создаем низкоразмерный вектор функций с очень информативными функциями, мы можем затем использовать относительно небольшие классификаторы для принятия решения.
Мы установили экспериментальную установку, в которой мы проверили нашу интерпретируемую методику перекрестного допроса по простой бинарной классификационной задаче. Мы проверили наш подход на наборе нескольких наборов данных, разделенных на 17 различных задач, и показываем, что:
ICE-T последовательно превосходит базовую модель с нулевым выстрелом в большинстве показателей классификации
Использование меньшей модели с ICE-T мы можем достичь сопоставимых или лучших результатов, чем использование более крупной и по существу более способной модели с нулевым выстрелом подходом
Кроме того, этот подход может быть очень интерпретируемым, что позволяет экспертам четко понять обоснование процесса принятия решений [1]. Кроме того, инструменты, обычно используемые для табличного машинного обучения, могут быть использованы для улучшения понимания данных. Хотя этот метод специально оценивается для бинарной классификации в этой статье, его применимость потенциально распространяется на широкий спектр сценариев.
1.1 Мотивация
Метод ICE-T был первоначально задуман в Inferlink в коммерческом консалтинговом проекте, где мы 1 грамотная интерпретация может варьироваться в зависимости от метода машинного обучения, выбранного для конечной задачи классификации. Решение, в котором метод использовать, должно руководствоваться с учетом компромиссов между интерпретацией и эффективностью, адаптированными к уникальным требованиям каждой задачи, необходимой для решения сложной задачи в классификации биомедицинских текстов. Цели проекта состояли в том, чтобы разработать модель, которая может работать на уровне, сравнимом с экспертами -людьми, обеспечить интерпретируемые результаты и обеспечить обнаружение потенциально неправильных данных. Первоначально, обычные модели «черного ящика», такие как мелко настроенные на основе BERT. Это привело к созданию ICE-T, что улучшило производительность классификации, одновременно получая интерпретацию и позволяя исправить ошибки маркировки. ICE-T был первоначально использован для классификации биомедицинских данных для конкретной коммерческой цели. Хотя специфика этой первоначальной задачи и данных остается конфиденциальной, мы провели дальнейшее тестирование на дополнительные общедоступные наборы данных и решили сделать этот метод общедоступным.
Эта статья есть
[1] Степень интерпретации может варьироваться в зависимости от метода машинного обучения, выбранного для конечной задачи классификации. Решение, в котором метод использовать, должно руководствоваться с учетом компромиссов между интерпретацией и эффективностью, адаптированными к уникальным требованиям каждой задачи
Оригинал