
Точная настройка может случайно сделать ИИ более токсичным, исследования на основе исследования
10 июня 2025 г.Таблица ссылок
- Аннотация и введение
- Связанная работа
- Эксперименты
- 3.1 Дизайн
- 3.2 Результаты
- 3.3 Сравнение 2: Настраиваемые и настройки
- 3.4 Сравнение 3: Настройка инструкции и настройки сообщества
- Дискуссия
- Ограничения и будущая работа
- Заключение, подтверждение и раскрытие финансирования и ссылки
А. Модели оцениваются
B. Данные и код
Neurips Paper Checklist
4 Обсуждение
В этой работе изучалась то, как тонкая настройка может повлиять на склонность моделей к выводу токсического содержания в выдающихся моделях открытого языка. Это продемонстрировало, что модели с тонкой настройкой AI Labs приводят к снижению токсичности, предполагая, что лаборатории стремятся уменьшить токсическое содержание в соответствии с их обязательствами по безопасности. Мы показываем, что, несмотря на это, эти смягчения могут легко и, что важно, непреднамеренно, быть отмененным. Это может быть достигнуто путем проведения простой эффективной настройки параметров на нетоксичных данных, с использованием Google Colab и графического процессора T4, и не требуется набор данных состязания, предназначенный для индукции токсичности. Понизительное воздействие этого можно увидеть в результатах экспериментов, настроенных на сообщество, где тонкая настройка, которая может намереваться улучшить конкретную способность, такую как язык, может привести к трудностям в прогнозировании отклонений в показателях токсичности.
В результате пользователи моделей с тонкими настройками и разработчики, которые выступают с точной настройкой, не должны предполагать, что до того, как производительность токсичности будет отражена после настройки, даже если набор данных не содержит вредного контента. Вместо этого эта работа демонстрирует важность создания культуры оценки как до, так и после точной настройки для соответствующих вопросов безопасности. Ни одна из моделей, настраиваемых в сообществе, не оцениваемой в этой работе, не раскрыла данные оценки безопасности в документации по обнимающему лицу для их работы, что означает, что пользователь не будет знать, как модель может реагировать на токсичный или иным образом состязательный контент. Это говорит о том, что разработчики сообщества могут рассмотреть возможность улучшения оценки безопасности и практики документации для тонких настроек. Там, где результаты оценки не доступны, пользователи из тонких настроек должны проводить свои собственные оценки безопасности перед использованием.
5 ограничений и будущей работы
Эта работа была сосредоточена на популярных моделях для точной настройки в сообществе с открытым исходным кодом, и все они относительно невелики по сравнению с современными моделями. Было бы полезно дальнейшее сравнение воздействия на модели разных размеров, чтобы определить возможные вариации. Точно так же мы сосредоточились на той настройке, основанной на Лоре, из-за популярности и эффективности этой техники. Тем не менее, дальнейшая работа может изучить более мелкозернистые конфигурации и влияние различных методов точной настройки.
С помощью этого явления идентифицировано, и его воздействие, продемонстрированное для сообщества, будущая работа может сосредоточиться на изучении причин таких изменений безопасности в модели. Это может быть связано с тем, что модель забыла, с точной настройкой безопасности, проведенной создателями моделей, «забытыми» моделью с дополнительной точной настройкой (Luo et al., 2024). Если бы это было так, будущие эксперименты могут обнаружить, что после точной настройки на доброкачественных моделях данных сходится к основной скорости токсичности до тренировок базовой модели. В качестве альтернативы, движения токсичности могут быть мотивированы только моделью, обучающимся на новых данных, сдвинутыми семантическими паттернами в данных тонкой настройки. Если бы это имело место, будущие эксперименты могут обнаружить, что постоянная точная настраиваемая настройка приводит ко всем моделям, сходящимся с аналогичной скоростью токсичности, когда он настраивается в одном и том же наборе данных. Дополнительные эксперименты могут дополнительно изучить, оказывают ли различные типы тонкой настройки, за пределами Лоры действительно воздействуют на токсичность и могут дополнительно оценить, варьируются ли воздействия на различные подзащики (например, раса, религия и т. Д.), С большими наборами данных. Наконец, дополнительным проспектом, требующим разведки, является влияние точной настройки на более широкие проблемы ответственности, такие как справедливость и свойства моделей.
Авторы:
(1) Уилл Хокинс, Оксфордский интернет -институт Оксфордского университета;
(2) Брент Миттельштадт, Оксфордский институт Интернета в Оксфордском университете;
(3) Крис Рассел, Оксфордский интернет -институт Оксфордского университета.
Эта статья естьДоступно на ArxivПо лицензии CC 4.0.
Оригинал