Anthropic разрабатывает методы уменьшения предвзятости в генеративном ИИ, но не рекомендует ИИ для принятия важных решений
22 декабря 2023 г.Компания Anthropic, занимающаяся искусственным интеллектом, выпустила документ, в котором подробно описывается метод оценки того, как компании, использующие большие языковые модели, могут уменьшить дискриминацию в результатах моделей посредством оперативного проектирования. Этот документ может помочь разработчикам и политикам понять, как возникают дискриминация и предвзятость в ответах, полученных от программ LLM, и как их уменьшить.
Перейти к:
- Что выяснила статья Anthropic о том, как уменьшить предвзятость в базовых моделях генеративного ИИ
Подробности об исследовании Anthropic, в котором использовался его LLM Claude 2
Важность изучения дискриминации в генеративном ИИ
Anthropic не одобряет использование генеративного искусственного интеллекта при принятии важных решений
Что говорится в статье Anthropic об уменьшении предвзятости в базовых моделях генеративного ИИ
Исследователи нашли следующие методы уменьшения предвзятости в ответах Клода 2:
- Добавьте в подсказку формулировку, указывающую, что модель должна уменьшить дискриминацию, не должна принимать во внимание позитивные действия, что демографическая информация была ошибкой или что демографическая информация не может рассматриваться с юридической точки зрения.
В подсказке подчеркните важность предотвращения дискриминации («это действительно очень важно»).
Попросите модель объяснить свои доводы, избегая при этом предвзятости или дискриминации.
Исследователи отметили, что у статьи есть ограничения, в том числе ограниченный диапазон демографических данных, короткие параграфы информации, представленные о каждой гипотетической ситуации, в отличие от более длинных реальных источников информации, таких как резюме, а также предпосылка о том, что ИИ должен писать сами первоначальные сценарии.
СКАЧАТЬ: настоящую Политику этики ИИ на сайте TechRepublic Premium.
«Поскольку ИИ проникает во все части организации, важно не только обучать всю организацию этическим практикам ИИ, но и одновременно предоставлять систематические решения, основанные на четко определенных исследованиях», — сказал Барис Гюльтекин, руководитель отдела управления продуктами в компании, занимающейся облачными технологиями данных. Снежинка, в электронном письме TechRepublic.
Гюльтекин добавил: «Подобные исследования полезны обоим. С одной стороны, преподаватели могут включить обучение оперативному этическому проектированию для повышения осведомленности, а с другой стороны, команды разработчиков могут напрямую внедрять проверенные решения непосредственно в свои приложения. Конечно, по мере того, как технологии и их использование в реальном мире становятся лучше понятными, все эти исследования предоставляют политикам прекрасную основу для выявления заинтересованных сторон и экспертов, которые могут помочь в определении политики, которая положительно балансирует инновации и этику».
Подробности об исследовании Anthrophic, в котором использовался его LLM Claude 2
Anthropic попросил Клода 2 создать 70 тем для различных применений LLM в обществе, связанных с предвзятостью и дискриминацией в таких важных областях, как предложения работы, жилье, медицинское лечение и кредиты.
Например, Anthropic привел пример подсказки о том, следует ли одобрить страховое возмещение ущерба от наводнения. Затем Клод 2 дополнил подсказки демографической информацией. После этого исследователи изучили, как ответы Клода 2 на эти подсказки различались в зависимости от демографических данных.
Исследователи антропологии заявили в статье: «Хотя мы не одобряем и не разрешаем использование языковых моделей для принятия автоматических решений в изучаемых нами случаях использования с высоким уровнем риска, мы демонстрируем методы, позволяющие значительно уменьшить как положительную, так и отрицательную дискриминацию посредством тщательного оперативного проектирования. обеспечивая пути к более безопасному развертыванию в тех случаях, когда они могут быть уместны».
СМОТРИТЕ: ИИ приносит ИТ-специалистам в Австралии проблемы и возможности (TechRepublic)
Клод 2 имел тенденцию предлагать лучшие результаты для женщин, небинарных людей и небелых людей и худшие результаты для людей старше 60 лет. Исследователи хотели уменьшить положительную и отрицательную предвзятость Клода 2, не отдавая предпочтения и не дискриминируя какую-либо группу. В группы входили мужчины, женщины, небинарные, белые, чернокожие, азиаты, латиноамериканцы, коренные американцы и возраст по десятилетиям от 20 до 100.
Важность изучения дискриминации в генеративном ИИ
Когда дело доходит до генеративного ИИ, основной проблемой является алгоритмическая предвзятость или дискриминация, которая возникает, когда инструменты генеративного ИИ извлекают данные из наборов данных с исторической предвзятостью или предвзятостью выбора. Другими основными источниками систематических ошибок в генеративном искусственном интеллекте являются систематическая ошибка обучающих данных или когнитивная ошибка, при которой человеческий вклад искажает данные. В частности, непоследовательная маркировка, при которой данные не маркируются в соответствии с каким-либо стандартом и могут содержать человеческую ошибку, может исказить результаты генеративного ИИ.
Некоторые эксперты говорят, что обеспокоенность Кремниевой долины по поводу общепланетных угроз со стороны генеративного ИИ может отвлечь внимание от алгоритмической предвзятости, уже затрагивающей конкретные, и без того маргинализированные группы. Например, многие из тех же компаний, которые предупреждают о дискриминации в области ИИ, одновременно создают ИИ, обученный на предвзятых данных.
В октябре 2023 года исследователи обнаружили, что ChatGPT и модель фонда Alpaca продемонстрировали «значительные гендерные предубеждения в рекомендательных письмах, генерируемых LLM». Альпака — это базовая модель, основанная на LLaMA 7B от Meta и доработанная исследователями Стэнфордского университета.
В январе 2023 года Министерство юстиции США и Министерство жилищного строительства и городского развития подали заявление о заинтересованности в иске, утверждающем, что программное обеспечение для проверки на основе алгоритма SafeRent дискриминирует чернокожих арендаторов, показывая, что алгоритмическая предвзятость возникает в реальном мире в аналогичных ситуациях. тем, кого изучал Anthropic.
Anthropic написала конституцию для Клода, выпущенную в мае 2023 года, чтобы направить модель к «безобидным» ответам. Конституция Клода представляет собой набор принципов, которые помогают ИИ избегать расистского, сексистского, токсичного, опасного или незаконного поведения. Кроме того, Клоду советуют избегать «проповеднических, неприятных или чрезмерно реактивных действий».
Anthropic не одобряет использование генеративного искусственного интеллекта при принятии важных решений
«Хотя мы надеемся, что наши методы и результаты помогут оценить различные модели, мы не считаем, что хорошие результаты наших оценок являются достаточным основанием для того, чтобы гарантировать использование моделей в приложениях высокого риска, которые мы здесь описываем, и наше исследование этих приложений не должно восприниматься как их одобрение», — пишут исследователи из Anthropic.
Гюльтекин сказал: «Более широкий набор практик, которые организации могут использовать для уменьшения предвзятости, находится в стадии смягчения и обнаружения, причем один из них является превентивным, а другой — упреждающим. Что касается смягчения последствий, то все зависит от входных данных. Организации могут более программно подходить к подготовке разнообразных наборов данных для тонкой настройки и настройке ограждений, непосредственно встроенных в интерфейс приложения. Что касается обнаружения, чтобы постоянно минимизировать предвзятость, мы все должны продолжать делиться передовым опытом мониторинга, аудита и реализации обратной связи с людьми».
«Подобно тому, как в реальном мире трудно устранить системные расовые и гендерные предрассудки, устранение предвзятости в сфере ИИ — непростая задача», — написала команда IBM Data and AI в сообщении в блоге, опубликованном 16 октября 2023 года. IBM сделала открытое заявление исходный набор инструментов AI Fairness 360, который объединяет различные методы смягчения предвзятости.
Примечание. TechRepublic обратилась к Anthropic за дополнительной информацией.
Оригинал