
Открытые модели, закрытые промежутки: как точная настройка влияет на токсичность модели искусственного интеллекта
10 июня 2025 г.Таблица ссылок
- Аннотация и введение
- Связанная работа
- Эксперименты
- 3.1 Дизайн
- 3.2 Результаты
- 3.3 Сравнение 2: Настраиваемые и настройки
- 3.4 Сравнение 3: Настройка инструкции и настройки сообщества
- Дискуссия
- Ограничения и будущая работа
- Заключение, подтверждение и раскрытие финансирования и ссылки
А. Модели оцениваются
B. Данные и код
Neurips Paper Checklist
Модели оцениваются
Ежемесячные загрузки выполняются по состоянию на 23 сентября 2024 года. Модели, настраиваемые в целях данной статьи, не предоставляются статистики загрузки.
B Данные и код
Кодекс, используемый для проведения оценки токсичности и точной настройки моделей в этой статье, можно найти по адресу https://github.com/willhawkins3/finetuningtoxicity.
Данные, используемые для точных моделей, были созданы DataBricks и могут быть доступны через обнимающееся лицо по адресу: https://huggingface.co/datasets/databricks/databricks-dolly-15k
Neurips Paper Checklist
1Претензии
Вопрос: Основные ли основные претензии, представленные в абстрактном и введении, точно отражают вклад и масштаб статьи?
Ответ: [Да]
Оправдание: мы утверждаем, что на показатели токсичности моделей открытого языка могут влиять точная настройка и показывать это с помощью трех экспериментов, которые демонстрируют различные воздействия.
Руководящие принципы:
• Ответ NA означает, что абстракция и введение не включают претензии, сделанные в статье.
• Аннотация и/или введение должны четко указать сделанные претензии, включая взносы, внесенные в статью, и важные предположения и ограничения. Ответ NO или NA на этот вопрос не будет хорошо воспринят рецензенты.
• Представленные претензии должны соответствовать теоретическим и экспериментальным результатам и отражать, сколько можно ожидать, что результаты будут обобщены на другие условия.
• Хорошо включать в себя желательные цели как мотивацию, если ясно, что эти цели не достигаются в статье.
2Ограничения
Вопрос: Обсуждает ли статья ограничения работы, выполняемой авторами?
Ответ: [Да]
Оправдание: см. Раздел «Ограничения и будущая работа», в которой описываются ограничения проекта.
3Теоретические предположения и доказательства
Вопрос: Для каждого теоретического результата газета предоставляет полный набор допущений и полное (и правильное) доказательство?
Ответ: [NA]
Обоснование: не предоставлены теоретические результаты.
4Экспериментальный результат воспроизводимости
Вопрос: Полностью ли в статье раскрывают всю информацию, необходимую для воспроизведения основных экспериментальных результатов статьи в той степени, в которой она влияет на основные требования и/или выводы статьи (независимо от того, предоставляются ли код и данные или нет)?
Ответ: [Да]
Обоснование: Описание экспериментов приведено в разделе «Экспериментальная настройка» и код, общий через репозиторий GitHub.
5. Откройте доступ к данным и коду
Вопрос: Предоставляет ли статья открытый доступ к данным и коде, с достаточными инструкциями для точного воспроизведения основных экспериментальных результатов, как описано в дополнительном материале?
Ответ: [Да]
Обоснование: код хранится по адресу https://github.com/willhawkins3/finetuningtoxicity
6. Экспериментальная настройка/детали
Вопрос: Указывает ли в статье все подробности обучения и тестирования (например, разделения данных, гиперпараметры, как они были выбраны, тип оптимизатора и т. Д.), Необходимы для понимания результатов?
Ответ: [Да]
Обоснование: информация о параметрах точной настройки и информации о оценке, представленной в разделе «Экспериментальная настройка».
7. Эксперимент статистический значимость
ВОПРОС: Правильно и правильно ли определены или другая соответствующая информация о статистической значимости экспериментов соответствующим образом определяется, или другая соответствующая информация о статистической значимости экспериментов?
Ответ: [Да]
Обоснование: мы сообщаем о байесовской оценке, а не проводя статистическую тестирование значимости, и обеспечиваем обоснование этого в разделе «Экспериментальная установка».
8. Эксперименты Расчет ресурсов
Вопрос: Для каждого эксперимента предоставляет ли статья достаточная информация о компьютерных ресурсах (тип вычислительных работников, память, время исполнения), необходимая для воспроизведения экспериментов?
Ответ: [Да]
Оправдание: мы предоставляем информацию о вычислительных ресурсах, используемых для экспериментов в разделе «Экспериментальная настройка».
9. Кодекс этики
Вопрос: Соответствует ли исследование, проведенное в статье во всех отношениях, с Кодексом этики Neurips https://neurips.cc/public/ethicsguidelines?
Ответ: [Да]
Оправдание: в этой работе участвуют люди или участники, и соответствует требованиям данных. Мы надеемся, что эта работа окажет позитивное социальное воздействие благодаря более сильному пониманию воздействия тонкой настройки на безопасность модели.
10. Более широкие воздействия
Вопрос: Обсуждает ли статья как потенциальные позитивные социальные воздействия, так и негативные социальные последствия выполненной работы?
Ответ: [Да]
Оправдание: мы обсуждаем влияние наших выводов на сообщество открытых моделей, обсуждая, как пользователи не должны полагаться на результаты токсичности для не настраиваемых моделей при определении производительности тонкого настраиваемого варианта.
11. гарантии
Вопрос: описывает ли статья гарантии, которые были созданы для ответственного выпуска данных или моделей, которые имеют высокий риск для неправильного использования (например, предварительно проведенные языковые модели, генераторы изображений или скрещенные наборы данных)?
Ответ: [NA].
Оправдание: мы не верим, что такие риски существуют для этой статьи.
12. Лицензии на существующие активы
Вопрос: Используются ли создатели или оригинальные владельцы активов (например, код, данные, модели), надлежащим образом зачислены и являются ли лицензия и Условия использования явно упомянутыми и должным образом уважаемыми?
Ответ: [Да]
Обоснование: источники и модели данных цитируются из -за бумаги.
13. Новые активы
Вопрос: Новые активы введены в статье хорошо задокументированы, и предоставлена ли документация вместе с активами?
Ответ: [NA].
Обоснование: не выпущены новые активы.
14. Краудсорсинг и исследования с людьми
Вопрос: Для экспериментов и исследований краудсорсинга с человеческими субъектами включают ли статья полный текст инструкций, данных участникам и снимкам экрана, если применимо, а также подробности о компенсации (если таковые имеются)?
Ответ: [NA.
Обоснование: бумага не включает в себя краудсорсинг или исследования с людьми.
15. Одобрение институционального контрольного совета (IRB) или эквивалент исследований с людьми.
Вопрос: описывает ли статья потенциальные риски, понесенные участниками исследования, были ли такие риски раскрыты для субъектов, и были получены ли одобрения институционального контрольного совета (IRB) (или эквивалентные одобрения/проверки на основе требований вашей страны или учреждения)?
Ответ: [NA].
Обоснование: бумага не включает в себя краудсорсинг или исследования с людьми.
Авторы:
(1) Уилл Хокинс, Оксфордский интернет -институт Оксфордского университета;
(2) Брент Миттельштадт, Оксфордский институт Интернета в Оксфордском университете;
(3) Крис Рассел, Оксфордский интернет -институт Оксфордского университета.
Эта статья естьДоступно на ArxivПо лицензии CC 4.0.
Оригинал