
Почему модели ИИ становятся более токсичными после настройки сообщества
10 июня 2025 г.Таблица ссылок
- Аннотация и введение
- Связанная работа
- Эксперименты
- 3.1 Дизайн
- 3.2 Результаты
- 3.3 Сравнение 2: Настраиваемые и настройки
- 3.4 Сравнение 3: Настройка инструкции и настройки сообщества
- Дискуссия
- Ограничения и будущая работа
- Заключение, подтверждение и раскрытие финансирования и ссылки
А. Модели оцениваются
B. Данные и код
Neurips Paper Checklist
6 Заключение
Модели с тонкой настройкой с помощью таких репозитории, как концентратор модели объятия лиц, становятся все более популярными благодаря все более способным открытым моделям. Эта работа показала, как тонкая настройка может повлиять на показатели токсичности с трудом в прогнозах, через модели из разных лабораторий искусственного интеллекта. Усилия создателей моделей по снижению токсичности во время процесса настройки инструкции могут легко и непреднамеренно отменять, когда модели дополнительно настраиваются на наборе данных без поступления. Это явление можно увидеть на практике на популярных моделях, настраиваемых участниками сообщества, где модели, настраиваемые для таких проблем, как многоязычные возможности, могут видеть удивительно переменные показатели токсичности. Эти результаты подчеркивают необходимость создателей моделей, участников сообщества, пользователей моделей и политиков, чтобы обратить внимание на токсичность производительности тонких настраиваемых моделей, даже если точная настройка не нацелена на токсичность.
Благодарности и раскрытие финансирования
Авторы хотели бы поблагодарить следующих людей за полезные обсуждения и отзывы на протяжении всего этого проекта: Кевин Макки, Инга Кампос, Селием Эль-Сайед, Лора Вейдингер, Рамона Команеску и Чарви Растоги.
Вклад Брента Миттельштадта и Криса Рассела в эту работу был поддержан благодаря финансированию исследований, предоставленным The Wellcome Trust (грант NR 223765/Z/21/Z), Фонд Слоана (грант NR G2021-16779), Министерство здравоохранения и социальной помощи, EPSRC (грант NR EP/Y019393/1) и LUMINATINE. Их финансирование подтверждает аудиторскую аудита достоверности для проекта искусственного интеллекта и управление программой исследований технологий в Оксфордском интернет -институте, Оксфордский университет. В ходе этой работы Уилл Хокинс занимал занятую должность в Google DeepMind.
Ссылки
Антроп. (2023). Claude 2. https://www.anthropic.com/news/claude-2
Biderman, D., Portes, J., Ortiz, J.J.G., Paul, M., Greengard, P., Jennings, C., King, D., Havens, S., Chiley, V., Frankle, J., Blakeney, C. & Cunningham, J.P. (2024). Лора учится меньше и забывает меньше (Arxiv: 2405.09673). arxiv. http://arxiv.org/abs/2405.09673
Биленко М. (2024, 23 апреля). Представление PHI-3: переопределение того, что возможно с SLMS. Блог Microsoft Azure. https://azure.microsoft.com/en-us/blog/introducing-phi-3-redefining-whats-possible-with-slms/
Cecchini, D., Nazir, A., Chakravarthy, K. & Kocaman, V. (2024). Целостная оценка моделей крупных языков: оценка надежности, точности и токсичности для реальных приложений. В А. Оваль, К.В. Чанг, Ю. Т. Цао, Н. Мехраби, Дж. Чжао, А. Гальстиан, Дж. Дхамала, А. Кумар и Р. Гупта (ред.), Материалы 4 -го семинара по обработке достоверного языка (Trustnlp 2024) (стр. 109–117). Ассоциация вычислительной лингвистики. https://doi.org/10.18653/v1/2024.trustnlp-1.11
Коновер, М., Хейс, М., Матур, А., Се, Дж., Ван Дж., Шах С., Годси А., Венделл, П., Захария, М. и Синь, Р. (2023, 4 декабря). БЕСПЛАТНАЯ ДОЛЛИ: Представление первого в мире по-настоящему открытого обучения LLM. DataBricks. https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-abible-instruction-tuned-llm
Дэвидсон Т., Уэмсли Д., Мэйси М. и Вебер И. (2017). Автоматизированное обнаружение ненавистников и проблема оскорбительного языка (Arxiv: 1703.04009). arxiv. http://arxiv.org/abs/1703.04009
Dawson, N.V. & Weiss, R. (2012). Дихотомизирование непрерывных переменных в статистическом анализе: практика, которой следует избегать. Медицинское принятие решений, 32 (2), 225–226. https://doi.org/10.1177/0272989x12437605
Fu, Z., Yang, H., So, A.M.-C., Lam, W., Bing, L. & Collier, N. (2022). Об эффективности параметрической тонкой настройки (Arxiv: 2211.15583). arxiv. https://doi.org/10.48550/arxiv.2211.15583
Gehman, S., Gururangan S., Sap, M., Choi, Y. & Smith, N.A. (2020). Realtoxicity Prompts: оценка нейронной токсической дегенерации в языковых моделях (Arxiv: 2009.11462). arxiv. http://arxiv.org/abs/2009.11462
Гелман А. (2006). Предыдущие распределения для параметров дисперсии в иерархических моделях (комментарий к статье Browne and Draper). Байесовский анализ, 1 (3), 515–534. https://doi.org/10.1214/06-ba117a
Gemini Team, Anil, R., Borgeaud, S., Alayrac, J.-B., Yu, J., Soricut, R., Schalkwyk, J., Dai, A.M., Hauth, A., Millican, K., Silver, D., Johnson, M., Antonoglou, I., Schrittwieser, J., Glaese, A., Chen, J., Lill, J., Tillrip, J., Till, J., Till, J., Tillrou, J.,. Lazaridou, A. ,. Полем Полем Виньялы, О. (2024). Близнецы: семейство высокоэффективных мультимодальных моделей (Arxiv: 2312.11805). arxiv. https://doi.org/10.48550/arxiv.2312.11805
Gemma Team, Mesnard, T., Hardin, C., Dadashi, R., Bhupatiraju, S., Pathak, S., Sifre, L., Rivière, M., Kale, M. S., Love, J., Tafti, P., Hussenot, L., Sessa, P. G., Chowdhery, A., Roberts, A., Barua, A., Botev, A., Castro-Ros, А., Слон, А.,. Полем Полем Кенили, К. (2024). Gemma: открытые модели на основе исследований и технологий Близнецов (ARXIV: 2403.08295). arxiv. http://arxiv.org/abs/2403.08295
He, L., Xia, M. & Henderson, P. (2024). Что в ваших «безопасных» данных?: Выявление доброкачественных данных, которые нарушают безопасность (Arxiv: 2404.01099). arxiv. http://arxiv.org/abs/2404.01099
Hu, E.J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L. & Chen, W. (2021). Лора: адаптация с низким уровнем ранга крупных языковых моделей (ARXIV: 2106.09685). arxiv. https://doi.org/10.48550/arxiv.2106.09685
Объятие. (2024, 18 мая). Модель -хаб. https://huggingface.co/docs/hub/en/models-the-hub
Irwin, J.R. & McClelland, G.H. (2003). Негативные последствия дихотомизирования непрерывных предикторов переменных. Журнал маркетинговых исследований, 40 (3), 366–371. https://doi.org/10.1509/jmkr.40.3.366.19237
Кумар Д., Кумар А., Агарвал С. и Харшанги П. (2024). Повышенные уязвимости LLM от тонкой настройки и квантования (ARXIV: 2404.04392). arxiv. http://arxiv.org/abs/2404.04392
Lermen S., Rogers-Smith, C. & Ladish, J. (2023). Лора точно настраивание эффективно отменяет обучение безопасности в Llama 2-Chat 70B (Arxiv: 2310.20624). arxiv. https://doi.org/10.48550/arxiv.2310.20624
Liu, H., Liu, Z., Tang, R., Yuan, J., Zhong, S., Chuang, Y.-N., Li, L., Chen, R. & Hu, X. (2024). Лора-как-атака! Piercing LLM Безопасность в рамках сценария обмена и игры (Arxiv: 2403.00108). arxiv. http://arxiv.org/abs/2403.00108
Luo, Y., Yang, Z., Meng, F., Li, Y., Zhou, J. & Zhang, Y. (2024). Эмпирическое исследование катастрофического забывания в крупных языковых моделях во время постоянной тонкой настройки (Arxiv: 2308.08747). arxiv. http://arxiv.org/abs/2308.08747
Мета. (2024a). Представляем Meta Llama 3: самый способный открыто доступный LLM на сегодняшний день. Meta ai. https://ai.meta.com/blog/meta-llama-3/
Мета. (2024b). Наш ответственный подход к Meta AI и Meta Llama 3. Meta Ai. https://ai.meta.com/blog/metallama-3-meta-ai-responsibility/
Nadeau, D., Kroutikov, M., McNeil, K. & Baribeau, S. (2024). Брингеринг Llama2, Mistral, Gemma и GPT для фактической, токсичности, смещения и склонности к галлюцинациям (Arxiv: 2404.09785). arxiv. http://arxiv.org/abs/2404.09785
Openai, Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F.L., Almeida, D., Alltenschmidt, J., Altman, S., Anadkat, S., Avila, R., Babuschkin, I., Balaji J. ,. Полем Полем Зоф, Б. (2024). Технический отчет GPT-4 (ARXIV: 2303.08774). arxiv. https://doi.org/10.48550/arxiv.2303.08774
Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., M., Askell, A., Welinder, P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P.. (2022). Обучающие языковые модели, чтобы следовать инструкциям с отзывами человека (ARXIV: 2203.02155). arxiv. https://doi.org/10.48550/arxiv.2203.02155
PHI-3 Safety Post Training: выравнивание языковых моделей с циклом «разрыва». (2024). Получено 27 сентября 2024 года с https://arxiv.org/html/2407.13833v1
Qi, X., Zeng, Y., Xie, T., Chen, P.-Y., Jia, R., Mittal, P. & Henderson, P. (2023). Точная настройка выровненных языковых моделей ставит под угрозу безопасность, даже если пользователи не намерены! (Arxiv: 2310.03693). arxiv. http://arxiv.org/abs/2310.03693
Royston, P., Altman, D.G. & Sauerbrei, W. (2006). Дихотомизирование непрерывных предикторов в множественной регрессии: плохая идея. Статистика в медицине, 25 (1), 127–141. https://doi.org/10.1002/sim.2331
Sun, A. Y., Zemour, E., Saxena, A., Vaidyanathan, U., Lin, E., Lau, C. & Mugunthan, V. (2024). Чувневая настройка GPT-3 с утечкой API OpenAI лично идентифицируется? (Arxiv: 2307.16382). arxiv. http://arxiv.org/abs/2307.16382
Taraghi, M., Dorcelus, G., Foundjem, A., Tambon, F. & Homh, F. (2024). Повторное использование модели глубокого обучения в сообществе Huggingface: проблемы, выгода и тенденции (Arxiv: 2401.13177). arxiv. http://arxiv.org/abs/2401.13177
Tian, K., Mitchell, E., Yao, H., Manning, C.D. & Finn, C. (2023). Чико настраивая языковые модели для фактического лица (ARXIV: 2311.08401). arxiv. http://arxiv.org/abs/2311.08401
Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D., Blecher, L., Ferrer, C., Chen, M., Cucurul W. ,. Полем Полем Scialom, T. (2023). Llama 2: Open Foundation и модели с тонко настроенными чатами (Arxiv: 2307.09288). arxiv. http://arxiv.org/abs/2307.09288
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. & Polosukhin, I. (2017). Внимание - это все, что вам нужно (Arxiv: 1706.03762). arxiv. http://arxiv.org/abs/1706.03762
Vidgen, B., Thrush, T., Waseem, Z. & Kiela, D. (2020, 31 декабря). Обучение у худшего: динамически сгенерированные наборы данных для улучшения обнаружения ненависти в Интернете. arxiv.org. https://arxiv.org/abs/2012.15761v2
Ван А., Уоллес Э., Шен С. и Кляйн Д. (2023). Отравление языковых моделей во время настройки инструкций. Материалы 40 -й Международной конференции по машинному обучению, 35413–35425. https://proceedings.mlr.press/v202/wan23b.html
Wang, S., Wang, P., Zhou, T., Dong, Y., Tan, Z. & Li, J. (2024). CEB: контрольный эталон оценки композиции для справедливости в моделях крупных языков (ARXIV: 2407.02408). arxiv. https://doi.org/10.48550/arxiv.2407.02408
Wang, Y., Ivison, H., Dasigi, P., Hessel, J., Khot, T., Chandu, K.R., Wadden, D., Macmillan, K., Smith, N.A., Beltagy, I. & Hajishirzi, H. (2023). Как далеко могут зайти верблюды? Изучение состояния настройки инструкций на открытых ресурсах (ARXIV: 2306.04751). arxiv. https://doi.org/10.48550/arxiv.2306.04751
Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Kenton, Z., Brown, S., Hawkins, W., Stepleton, T., Biles, C., Birhane, A., Haasell, L., L., L., L., L., L., L., L., L., L. L. А.,. Полем Полем Габриэль И. (2021). Этические и социальные риски вреда от языковых моделей (ARXIV: 2112.04359). arxiv. http://arxiv.org/abs/2112.04359
Yang, X., Wang, X., Zhang, Q., Petzold, L., Wang, W. Y., Zhao, X. & Lin, D. (2023). Выравнивание тени: легкость подрыва безопасно выравниваемых языковых моделей (Arxiv: 2310.02949). arxiv. https://doi.org/10.48550/arxiv.2310.02949
Zeng, Y. & Lee, K. (2024). Выразительная сила адаптации с низким уровнем ранга (ARXIV: 2310.17513). arxiv. http://arxiv.org/abs/2310.17513
Zhan, Q., Fang, R., Bindu, R., Gupta, A., Hashimoto, T. & Kang, D. (2024). Удаление защиты RLHF в GPT-4 через тонкую настройку (Arxiv: 2311.05553). arxiv. http://arxiv.org/abs/2311.05553
Zhang, S., Dong, L., Li, X., Zhang, S., Sun, X., Wang, S., Li, J., Hu, R., Zhang, T., Wu, F. & Wang, G. (2024). Настройка инструкций для моделей крупных языков: опрос (ARXIV: 2308.10792). arxiv. http://arxiv.org/abs/2308.10792
Zhao, J., Deng, Z., Madras, D., Zou, J. & Ren, M. (2024). Обучение и забывание небезопасных примеров в моделях крупных языков (ARXIV: 2312.12736). arxiv. http://arxiv.org/abs/2312.12736
Авторы:
(1) Уилл Хокинс, Оксфордский интернет -институт Оксфордского университета;
(2) Брент Миттельштадт, Оксфордский институт Интернета в Оксфордском университете;
(3) Крис Рассел, Оксфордский интернет -институт Оксфордского университета.
Эта статья естьДоступно на ArxivПо лицензии CC 4.0.
Оригинал