Новое исследование раскрывает скрытый предвзятость за «нейтральным» Ай «нейтральным».

9 июля 2025 г.

Что, если нейтралитет - это не отсутствие смещения, а наличие определенной грамматической формы? Что, если самые опасные результаты языковой модели - это не те, которые звучат неправильно, а те, которые звучат объективно?

Во многих областях высокого риска, таких как закон, медицина и финансы, языковые модели принимаются в предположении, что их результаты являются нейтральными или, по крайней мере, менее предвзятыми, чем человеческое письмо. Грамматика объективности бросает вызов этому предположению напрямую. Это демонстрирует, что нейтралитет, выполняемый LLMS, является не семантическим условием, а структурной операцией. Эта операция теперь может быть проверена в измеримых терминах.

Основная концепция:

Моделируемые модели языка нейтралитета не выражают нейтралитет. Они имитируют это через форму. Они достигают этого, изменяя синтаксис, удаляя явные агенты, откладывая источники и представив спекулятивный контент в формате институциональной объективности.

Это явление обозначено имитируемое нейтралитет. Это относится к тому, как грамматические конструкции генерируют иллюзию беспристрастности, не обеспечивая структурные условия для подотчетности.

От теории до аудита: индекс моделируемого нейтралитета (INS) для оценки этого явления в результате выходов LLM, исследование вводит индекс моделируемого нейтралитета (INS). Это компактный, эффективная метрика, которая идентифицирует выходы, которые кажутся нейтральными, но структурно не подлежат проверке или без агента.

INS работает на двух основных компонентах:

Агентство

Эта оценка измеряет долю предложений, которые включают явный агент. Например, «Доктор решил ...» получает более высокий балл, чем «это было решено ...»

Справочный счет

Это измеряет долю утверждений, основанных на идентифицируемом внешнем источнике. Например, «в соответствии с руководящими принципами ВОЗ ...» оценивается выше, чем «рекомендуется, что ...»

Выходы, которые падают ниже оценки 0,30 на любой метрике, помечаются как структурно необъяснимые.

Корпус и процесс оценки Набор данных включает 1000 выходов LLM, разделенные на две критические области применения:

600 подсказок на основе медицинских резюме от PubMed

400 подсказок на основе юридических резюме от Westlaw

Все выходы были сгенерированы с использованием моделей GPT -4 и Llama2 в период с июня 2024 года по март 2025 года. Оценка проводилась с использованием Python с Spacy и Stanza в качестве основных инструментов для анализа. Средство выполнения на выход измеряли менее 0,1 секунды для 500 токенов.

Ключевые выводы

64 процента медицинских результатов, набравшихся ниже порога 0,30
57 процентов юридических результатов также попали в категорию высокого риска
Наиболее распространенные конструкции включают:
Пассивный голос без агентов
Аннотация номинализации скрывает ответственность
Эпистемическая модальность с безличным кадром

Эти результаты не были неправильными с точки зрения фактов. Их проблема была структурной: им не хватало идентифицируемого агентства, и они не смогли связать претензии с проверенными источниками.

Почему структурная форма имеет значение

Большинство существующих аудитов языковых моделей сосредоточены на содержании. Они проверяют на оскорбительный язык, фактическую галлюцинацию или идеологический перекос. Эти подходы предполагают, что форма вывода является нейтральной. Грамматика объективности демонстрирует, что это предположение является ложным.

Синтаксический выбор определяет, как языковые модели создают знания. Иллюзия нейтралитета часто производится не точностью, а формой. Когда рекомендация обрамлена без динамика, она кажется объективной. Когда решение написано без решения, оно кажется неизбежным.

Это влияет на несколько секторов:

В медицине рекомендации обрамлены безличности, которые могут быть приняты без прослеживания авторства.
В законе выводы заявили, что пассивно могут скрыть процесс рассуждения или ответственного участника.
В политике и регулировании безличные структуры могут предотвратить ответственность за принятие решений.
В этих случаях больше всего важно не тон, а отслеживаемость.

Индекс моделируемого индекса нейтралитета с открытым доступом моделируемого нейтралитета и предназначен для практического развертывания. Он может быть интегрирован в рабочие процессы разработки, регулирующие аудиты или публикацию трубопроводов. Реализация по умолчанию включает в себя:

Функция оценки, которая возвращает двоичные флаги и уровни доверия

Совместимость с многоязычными корпусами через стандартные библиотеки NLP

Полная документация и тестовый набор данных

Все ресурсы доступны через Zenodo и SSRN.

Доступ к полной бумаге

SSRN Abstract и PDF:https://ssrn.com/abstract=5319520

Zenodo Полный выпуск (PDF, исходный код, сценарий аудита):https://doi.org/10.5281/zenodo.15729518

Оба репозиториев включают в себя приложения, определения формулы и примеры использования.

Последствия для управления ИИ и НЛП

Это исследование расширяет дебаты о алгоритмической смещении в область грамматической инфраструктуры. Это показывает, что даже если модель точно настроена на нейтральное содержание, она все равно может создавать структурно безответственные выходы. Это происходит, когда модель использует синтаксические закономерности, которые скрывают источники и подавляют агенты.

Решение не в том, чтобы удалить смещение из содержания.

Решение состоит в том, чтобы измерить и выявлять формы, которые создают структурную непрозрачность.

Заключение объектY, в контексте LLMS, не является гарантией точности или баланса. Это грамматический формат, который имитирует нейтралитет путем стирания происхождения, авторства и ссылки.

Индекс моделируемого нейтралитета является инструментом для непосредственного решения этой проблемы. Это не интерпретирует намерения или идеологию. Он анализирует структуру. И при этом это меняет разговор: от того, что модель говорит, к тому, как она структурно узаконит то, что говорит.

Автор этос

Я не использую искусственный интеллект, чтобы написать то, чего не знаю. Я использую это, чтобы бросить вызов тому, что я делаю. Я пишу, чтобы вернуть голос в эпоху автоматического нейтралитета. Моя работа не на аутсорсинге. Это написано. - Agustin V. Startari

Оригинал

Новое исследование раскрывает скрытый предвзятость за «нейтральным» Ай «нейтральным».

🔥 Популярное на этой неделе

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

Лучшие новогодние подарки для владельцев домашних животных

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories