Почему интерпретация LLMS все еще такая тяжелая

Почему интерпретация LLMS все еще такая тяжелая

11 июня 2025 г.

Авторы:

(1) Горан Мурич, Inferlink Corporation, Лос -Анджелес, (Калифорния gmuric@inferlink.com);

(2) Бен Зал, Inferlink Corporation, Лос -Анджелес, Калифорния (bdelay@inferlink.com);

(3) Стивен Минтон, корпорация Inferlink, Лос -Анджелес, Калифорния (sminton@inferlink.com).

Аннотация и 1 введение

1.1 Мотивация

2 Связанная работа и 2,1 методы подсказки

2.2 Внутреннее обучение

2.3 модели интерпретируемость

3 Метод

3.1 Создание вопросов

3.2 Подсказка LLM

3.3. Сорбализация ответов и 3.4 Обучение классификатора

4 данные и 4.1 клинические испытания

4.2 Корпус независимости Каталонии и 4.3 Корпус обнаружения климата

4.4 Данные по медицинскому здоровью и 4.5 Данные Европейского суда по правам человека (ECTHR)

4.6 Набор данных Necure-Tos

5 экспериментов

6 результатов

7 Обсуждение

7.1 Последствия для интерпретации модели

7.2 Ограничения и будущая работа

Воспроизводимость

Подтверждение и ссылки

Вопросы, используемые в методе ICE-T

2.3 модели интерпретируемость

Задача интерпретации сложных процессов принятия решений, сделанных LLMS, препятствовала их применению в критических областях, таких как медицина, где существуют серьезные опасения по поводу регулирования (Goodman and Flaxman, 2017) и безопасность (Amodei et al., 2016). Кроме того, эта сложность в понимании работы моделей крупных языков (LLMS) и аналогичных моделей нейронной сети ограничила их использование в таких областях, как наука и анализ данных (Kasneci et al., 2023). В таких областях основной целью является то, чтобы получить надежную интерпретацию, а не просто реализовать LLM (Singh et al., 2024).

Выражение неопределенности в языковых моделях имеет решающее значение для надежного использования LLM, однако оно остается сложной областью из -за неотложной уверенности в ответах на моделях. Xiong et al. (2023) и Zhou et al. (2024) Оба выделяют проблему самоуверенности в LLMS. Xiong et al. Вопрос о том, может ли LLMS выразить свою неопределенность, наблюдая за тенденцией в LLM к имитированию человеческих закономерностей выражения уверенности (Xiong et al., 2023). Cimlarly, Zhou et al. Обратите внимание, что, хотя LLMS может быть предложено выразить уровень доверия, они остаются чрезмерно уверенными и не могут эффективно передавать неопределенности, а также при предоставлении неправильных ответов (Zhou et al., 2024). Ye et al. (2022) Добавьте, что даже когда LLM генерируют объяснения, они могут не точно отражать прогнозы модели и не быть фактически заземленными на входе, особенно в задачах, требующих добывающих объяснений (Ye and Durrett, 2022). Тем не менее, все упомянутые выше исследования отмечают, что эти ошибочные объяснения все еще могут служить цели, предлагая средства для проверки прогнозов LLM.

Стоит упомянуть методы приписывания функций, используемые за пределами сферы LLM в нескольких приложениях Deeplearing. Атрибуты функций в машинном обучении обеспечивают актуальную оценку для каждой входной функции, отражая ее влияние на вывод модели. Эта методология помогает понять, как и почему определенные решения или прогнозы принимаются моделью.

Подходы, разработанные Lundberg et al. (2017) и Sundararajan et al. (2017) оба углубляются в эту тему, но предлагают различные методологии и теоретические основы. Lundberg et al. (Lundberg and Lee, 2017) представили Shap (Additive Additials Shapley), которая предоставляет единую основу для интерпретации прогнозов. Shap присваивает значение важности для каждой функции для конкретного прогноза, используя концепцию значений Shapley из теории кооперативных игр. Напротив, Sundararajan et al. (Sundararajan et al., 2017) разработали интегрированные градиенты, еще один метод, посвященный приписыванию прогнозов к входным характеристикам глубоких сетей. В отличие от Shap, который использует значения Shapley, интегрированные градиенты опираются на интеграцию градиентов вдоль пути от выбранного базового уровня до фактического ввода. Дополняя эти подходы, Ribeiro et al. (2016) предложил извести (локально интерпретируемая модель-алкогольная объяснения), целью которого является предсказания любого классификатора понятным и надежным, изучая интерпретируемую модель, локализованную вокруг прогноза (Ribeiro et al., 2016).

Другим популярным методом понимания представлений о нейронных сетевых сетях является расследование. Cononeau et al. (2018) первоначально ввел несколько задач исследования, предназначенные для захвата простых лингвистических особенностей предложений, создав основу для понимания того, как нейронные сети кодируют лингвистические свойства (Conneau et al., 2018).

Clark et al. (2019) сосредоточились в первую очередь на поведении глаз внимания в трансформаторах. Они заметили, что эти головы часто широко посещают целые предложения, и что паттерны внимания в одном слое имеют тенденцию проявлять подобное поведение. Важно отметить, что их исследования связывают конкретное внимание к традиционным лингвистическим концепциям, таким как синтаксис и основной способность, предполагая прямую связь между механизмами внимания модели и лингвистическими структурами (Clark et al., 2019), хотя продолжаются дебаты о объяснительной силе внимания в нейронной сети (Bibal et al., 2022). В отличие от Clark et al., Которые изучают, что посещает модель, Morris et al. (Morris et al., 2023) Исследуйте, как сохраняется информация и может быть извлечена из Entgeddings, предлагая представление о обратимости и верности процесса кодирования. Их метод включает в себя многоэтапный процесс, который итеративно исправляет и вновь вновь введите текст, демонстрируя возможность восстановить большинство исходных текстовых вводов. Belrose et al. (2023) ввели метод, называемый причиной извлечения, который направлен на выявление влиятельных особенностей в нейронных сетях (Belrose et al., 2023). Этот метод выделяется, сосредотачиваясь на причинности в сетевых решениях.

Таким образом, в то время как подсказка в цепочке мыслей может генерировать ошибки во время вывода, требуя сложных корректирующих подходов, методы обучения в контексте также сталкиваются с проблемами при быстрой оптимизации и эффективном поиске. Кроме того, интерпретация моделей крупных языков остается проблематичной, усугубленной тенденцией моделей проявлять чрезмерную уверенность и предоставлять ненадежные или не поддающиеся проверке объяснения.

Эта статья естьДоступно на Arxivв соответствии с CC по 4.0 Deed (Attribution 4.0 International) лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE