LLM - это фальшивая нейтралитет - и мы теперь можем измерить его

LLM - это фальшивая нейтралитет - и мы теперь можем измерить его

26 июня 2025 г.

Формальные механизмы иллюзии нейтралитета в языковых моделях

1. о чем эта статья

Эта статья вводит концепцию моделируемого нейтралитета: структурная иллюзия объективности в выходах на языковых моделях. Это демонстрирует, что крупные языковые модели (LLMS) генерируют формы, которые напоминают беспристрастные, оправданные утверждения, тем не кто эти формы часто не закрепляются в качестве доказательства, источника или референциальной ясности.

Вместо того, чтобы передавать истину, LLM -моделируют ее через грамматику. В статье выявляются три механизмы, ответственные за эту иллюзию: без агентская пассивизация, абстрактная номинализация и безличная эпистемическая модальность. Эти структуры удаляют субъект, подавляют доказательства и устраняют эпистемическую атрибуцию.

В исследовании представлен повторяемый метод аудита-индекс моделируемого нейтралитета (INS), который обнаруживает и количественно определяет эти паттерны в текстах, генерируемых моделью. INS тестируется на 1000 юридических и медицинских результатов и обеспечивает основу для лингвистической аудиции.

2. Почему это важно

Использование языковых моделей в таких областях, как здравоохранение, право и администрация, обострилось. Эти контексты требуют эпистемической ответственности - соглашения должны быть отслеживаемыми, источниками и оправданными.

Однако, когда модели генерируют такие фразы, как «это было решено» или «рекомендуется», они могут имитировать институциональную легитимность, не заявляя, кто решил и почему. Результатом является выход, который выглядит нейтральным, но нет.

Это не вопрос ошибки или галлюцинации. Это формальное явление: грамматика становится прокси для доверия. Если нейтралитет может быть кодируется структурно, его необходимо проверять структурно.

3. Как это работает - с примерами

Исследование проанализировало 1000 текстов, произведенных GPT-4 и Llama 2, с использованием подсказок в юридическом и медицинском контексте. Были закодированы три грамматических механизмы:

Без агентская пассивизацияПример: «Мера была реализована». → Агент не идентифицирован.

Аннотация номинализацияПример: «реализация протокола». → Действие превращается в существительное, стируя причинность.

Пример безличной эпистемической модальности: «Рекомендуется продолжить». → Совет предлагается, но без какого -либо агента или источника.

Анализ обнаружил:

62,3% предложений использовали пассивные конструкции без агентов

48% содержали абстрактные номинализации

39,6% (в медицинских результатах) использовали безличную модальность

Эти структуры часто появлялись в комбинации, составляя иллюзию беспристрастности. Чтобы измерить этот эффект, статья представляет:

Формула моделируемого индекса нейтралитета (INS): INS = (P + N + M) / 3 Где:

P = доля без агентных пассивных предложений

N = нормализованный индекс абстрактной номинализации

M = доля безличной эпистемической модальности

Пороги:

Ins ≥ 0,60 → высокий структурный риск

0,30 ≤ ins <0,60 → умеренный риск

Ins <0,30 → низкий риск

Индекс не полагается на семантику. Он оценивает форму только. Он может быть реализован с использованием Spacy (v3.7.0) или Stanza (v1.7.0), и предназначен для функционирования по аудиторским трубопроводам и нормативным рабочим процессам.

Полный алгоритм (Python): 🔗 https://github.com/structural-neutrality/test_ins

  1. Структурная проблема требует структурного ответа

    Эта статья переосмысливает проблему предвзятости в ИИ. Вместо того, чтобы найти проблему в наборах данных или намерениях, он обнаруживает ее в грамматике.

LLM не нужно лгать, чтобы ввести в заблуждение. Им нужно структурировать язык только таким образом, что кажется правдивым. Им не нужен источник - только синтаксический эффект. Это не интерпретирующая проблема. Это эпистемологический.

Когда нейтралитет грамматически построен, а не заземляется, аудит должен нацелиться на синтаксис, а не содержание. Этот сдвиг открывает дверь для измеримых, воспроизводимых и готовых к регулированию лингвистических управлений.

5. Прочитайте полное исследование

📄 Полная статья (PDF, метрики, приложения): 👉https://doi.org/10.5281/zenodo.15729518

📁 Параллель doi (Figshare): 👉https://doi.org/10.6084/m9.figshare.29390885

🧠 Часть серии исследований Грамматики власти. 📂 Автор загрузка: профиль Zenodo 📊 Страница автора SSRN:https://ssrn.com/author=7639915


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE