
LLM - это фальшивая нейтралитет - и мы теперь можем измерить его
26 июня 2025 г.Формальные механизмы иллюзии нейтралитета в языковых моделях
1. о чем эта статья
Эта статья вводит концепцию моделируемого нейтралитета: структурная иллюзия объективности в выходах на языковых моделях. Это демонстрирует, что крупные языковые модели (LLMS) генерируют формы, которые напоминают беспристрастные, оправданные утверждения, тем не кто эти формы часто не закрепляются в качестве доказательства, источника или референциальной ясности.
Вместо того, чтобы передавать истину, LLM -моделируют ее через грамматику. В статье выявляются три механизмы, ответственные за эту иллюзию: без агентская пассивизация, абстрактная номинализация и безличная эпистемическая модальность. Эти структуры удаляют субъект, подавляют доказательства и устраняют эпистемическую атрибуцию.
В исследовании представлен повторяемый метод аудита-индекс моделируемого нейтралитета (INS), который обнаруживает и количественно определяет эти паттерны в текстах, генерируемых моделью. INS тестируется на 1000 юридических и медицинских результатов и обеспечивает основу для лингвистической аудиции.
2. Почему это важно
Использование языковых моделей в таких областях, как здравоохранение, право и администрация, обострилось. Эти контексты требуют эпистемической ответственности - соглашения должны быть отслеживаемыми, источниками и оправданными.
Однако, когда модели генерируют такие фразы, как «это было решено» или «рекомендуется», они могут имитировать институциональную легитимность, не заявляя, кто решил и почему. Результатом является выход, который выглядит нейтральным, но нет.
Это не вопрос ошибки или галлюцинации. Это формальное явление: грамматика становится прокси для доверия. Если нейтралитет может быть кодируется структурно, его необходимо проверять структурно.
3. Как это работает - с примерами
Исследование проанализировало 1000 текстов, произведенных GPT-4 и Llama 2, с использованием подсказок в юридическом и медицинском контексте. Были закодированы три грамматических механизмы:
Без агентская пассивизацияПример: «Мера была реализована». → Агент не идентифицирован.
Аннотация номинализацияПример: «реализация протокола». → Действие превращается в существительное, стируя причинность.
Пример безличной эпистемической модальности: «Рекомендуется продолжить». → Совет предлагается, но без какого -либо агента или источника.
Анализ обнаружил:
62,3% предложений использовали пассивные конструкции без агентов
48% содержали абстрактные номинализации
39,6% (в медицинских результатах) использовали безличную модальность
Эти структуры часто появлялись в комбинации, составляя иллюзию беспристрастности. Чтобы измерить этот эффект, статья представляет:
Формула моделируемого индекса нейтралитета (INS): INS = (P + N + M) / 3 Где:
P = доля без агентных пассивных предложений
N = нормализованный индекс абстрактной номинализации
M = доля безличной эпистемической модальности
Пороги:
Ins ≥ 0,60 → высокий структурный риск
0,30 ≤ ins <0,60 → умеренный риск
Ins <0,30 → низкий риск
Индекс не полагается на семантику. Он оценивает форму только. Он может быть реализован с использованием Spacy (v3.7.0) или Stanza (v1.7.0), и предназначен для функционирования по аудиторским трубопроводам и нормативным рабочим процессам.
Полный алгоритм (Python): 🔗 https://github.com/structural-neutrality/test_ins
Структурная проблема требует структурного ответа
Эта статья переосмысливает проблему предвзятости в ИИ. Вместо того, чтобы найти проблему в наборах данных или намерениях, он обнаруживает ее в грамматике.
LLM не нужно лгать, чтобы ввести в заблуждение. Им нужно структурировать язык только таким образом, что кажется правдивым. Им не нужен источник - только синтаксический эффект. Это не интерпретирующая проблема. Это эпистемологический.
Когда нейтралитет грамматически построен, а не заземляется, аудит должен нацелиться на синтаксис, а не содержание. Этот сдвиг открывает дверь для измеримых, воспроизводимых и готовых к регулированию лингвистических управлений.
5. Прочитайте полное исследование
📄 Полная статья (PDF, метрики, приложения): 👉https://doi.org/10.5281/zenodo.15729518
📁 Параллель doi (Figshare): 👉https://doi.org/10.6084/m9.figshare.29390885
🧠 Часть серии исследований Грамматики власти. 📂 Автор загрузка: профиль Zenodo 📊 Страница автора SSRN:https://ssrn.com/author=7639915
Оригинал