Почему модели ИИ становятся более токсичными после настройки сообщества

Почему модели ИИ становятся более токсичными после настройки сообщества

10 июня 2025 г.
  1. Аннотация и введение
  2. Связанная работа
  3. Эксперименты
    • 3.1 Дизайн
    • 3.2 Результаты
    • 3.3 Сравнение 2: Настраиваемые и настройки
    • 3.4 Сравнение 3: Настройка инструкции и настройки сообщества
  4. Дискуссия
  5. Ограничения и будущая работа
  6. Заключение, подтверждение и раскрытие финансирования и ссылки

А. Модели оцениваются

B. Данные и код

Neurips Paper Checklist

6 Заключение

Модели с тонкой настройкой с помощью таких репозитории, как концентратор модели объятия лиц, становятся все более популярными благодаря все более способным открытым моделям. Эта работа показала, как тонкая настройка может повлиять на показатели токсичности с трудом в прогнозах, через модели из разных лабораторий искусственного интеллекта. Усилия создателей моделей по снижению токсичности во время процесса настройки инструкции могут легко и непреднамеренно отменять, когда модели дополнительно настраиваются на наборе данных без поступления. Это явление можно увидеть на практике на популярных моделях, настраиваемых участниками сообщества, где модели, настраиваемые для таких проблем, как многоязычные возможности, могут видеть удивительно переменные показатели токсичности. Эти результаты подчеркивают необходимость создателей моделей, участников сообщества, пользователей моделей и политиков, чтобы обратить внимание на токсичность производительности тонких настраиваемых моделей, даже если точная настройка не нацелена на токсичность.

Благодарности и раскрытие финансирования

Авторы хотели бы поблагодарить следующих людей за полезные обсуждения и отзывы на протяжении всего этого проекта: Кевин Макки, Инга Кампос, Селием Эль-Сайед, Лора Вейдингер, Рамона Команеску и Чарви Растоги.

Вклад Брента Миттельштадта и Криса Рассела в эту работу был поддержан благодаря финансированию исследований, предоставленным The Wellcome Trust (грант NR 223765/Z/21/Z), Фонд Слоана (грант NR G2021-16779), Министерство здравоохранения и социальной помощи, EPSRC (грант NR EP/Y019393/1) и LUMINATINE. Их финансирование подтверждает аудиторскую аудита достоверности для проекта искусственного интеллекта и управление программой исследований технологий в Оксфордском интернет -институте, Оксфордский университет. В ходе этой работы Уилл Хокинс занимал занятую должность в Google DeepMind.

Ссылки

Антроп. (2023). Claude 2. https://www.anthropic.com/news/claude-2

Biderman, D., Portes, J., Ortiz, J.J.G., Paul, M., Greengard, P., Jennings, C., King, D., Havens, S., Chiley, V., Frankle, J., Blakeney, C. & Cunningham, J.P. (2024). Лора учится меньше и забывает меньше (Arxiv: 2405.09673). arxiv. http://arxiv.org/abs/2405.09673

Биленко М. (2024, 23 апреля). Представление PHI-3: переопределение того, что возможно с SLMS. Блог Microsoft Azure. https://azure.microsoft.com/en-us/blog/introducing-phi-3-redefining-whats-possible-with-slms/

Cecchini, D., Nazir, A., Chakravarthy, K. & Kocaman, V. (2024). Целостная оценка моделей крупных языков: оценка надежности, точности и токсичности для реальных приложений. В А. Оваль, К.В. Чанг, Ю. Т. Цао, Н. Мехраби, Дж. Чжао, А. Гальстиан, Дж. Дхамала, А. Кумар и Р. Гупта (ред.), Материалы 4 -го семинара по обработке достоверного языка (Trustnlp 2024) (стр. 109–117). Ассоциация вычислительной лингвистики. https://doi.org/10.18653/v1/2024.trustnlp-1.11

Коновер, М., Хейс, М., Матур, А., Се, Дж., Ван Дж., Шах С., Годси А., Венделл, П., Захария, М. и Синь, Р. (2023, 4 декабря). БЕСПЛАТНАЯ ДОЛЛИ: Представление первого в мире по-настоящему открытого обучения LLM. DataBricks. https://www.databricks.com/blog/2023/04/12/dolly-first-open-commercially-abible-instruction-tuned-llm

Дэвидсон Т., Уэмсли Д., Мэйси М. и Вебер И. (2017). Автоматизированное обнаружение ненавистников и проблема оскорбительного языка (Arxiv: 1703.04009). arxiv. http://arxiv.org/abs/1703.04009

Dawson, N.V. & Weiss, R. (2012). Дихотомизирование непрерывных переменных в статистическом анализе: практика, которой следует избегать. Медицинское принятие решений, 32 (2), 225–226. https://doi.org/10.1177/0272989x12437605

Fu, Z., Yang, H., So, A.M.-C., Lam, W., Bing, L. & Collier, N. (2022). Об эффективности параметрической тонкой настройки (Arxiv: 2211.15583). arxiv. https://doi.org/10.48550/arxiv.2211.15583

Gehman, S., Gururangan S., Sap, M., Choi, Y. & Smith, N.A. (2020). Realtoxicity Prompts: оценка нейронной токсической дегенерации в языковых моделях (Arxiv: 2009.11462). arxiv. http://arxiv.org/abs/2009.11462

Гелман А. (2006). Предыдущие распределения для параметров дисперсии в иерархических моделях (комментарий к статье Browne and Draper). Байесовский анализ, 1 (3), 515–534. https://doi.org/10.1214/06-ba117a

Gemini Team, Anil, R., Borgeaud, S., Alayrac, J.-B., Yu, J., Soricut, R., Schalkwyk, J., Dai, A.M., Hauth, A., Millican, K., Silver, D., Johnson, M., Antonoglou, I., Schrittwieser, J., Glaese, A., Chen, J., Lill, J., Tillrip, J., Till, J., Till, J., Tillrou, J.,. Lazaridou, A. ,. Полем Полем Виньялы, О. (2024). Близнецы: семейство высокоэффективных мультимодальных моделей (Arxiv: 2312.11805). arxiv. https://doi.org/10.48550/arxiv.2312.11805

Gemma Team, Mesnard, T., Hardin, C., Dadashi, R., Bhupatiraju, S., Pathak, S., Sifre, L., Rivière, M., Kale, M. S., Love, J., Tafti, P., Hussenot, L., Sessa, P. G., Chowdhery, A., Roberts, A., Barua, A., Botev, A., Castro-Ros, А., Слон, А.,. Полем Полем Кенили, К. (2024). Gemma: открытые модели на основе исследований и технологий Близнецов (ARXIV: 2403.08295). arxiv. http://arxiv.org/abs/2403.08295

He, L., Xia, M. & Henderson, P. (2024). Что в ваших «безопасных» данных?: Выявление доброкачественных данных, которые нарушают безопасность (Arxiv: 2404.01099). arxiv. http://arxiv.org/abs/2404.01099

Hu, E.J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L. & Chen, W. (2021). Лора: адаптация с низким уровнем ранга крупных языковых моделей (ARXIV: 2106.09685). arxiv. https://doi.org/10.48550/arxiv.2106.09685

Объятие. (2024, 18 мая). Модель -хаб. https://huggingface.co/docs/hub/en/models-the-hub

Irwin, J.R. & McClelland, G.H. (2003). Негативные последствия дихотомизирования непрерывных предикторов переменных. Журнал маркетинговых исследований, 40 (3), 366–371. https://doi.org/10.1509/jmkr.40.3.366.19237

Кумар Д., Кумар А., Агарвал С. и Харшанги П. (2024). Повышенные уязвимости LLM от тонкой настройки и квантования (ARXIV: 2404.04392). arxiv. http://arxiv.org/abs/2404.04392

Lermen S., Rogers-Smith, C. & Ladish, J. (2023). Лора точно настраивание эффективно отменяет обучение безопасности в Llama 2-Chat 70B (Arxiv: 2310.20624). arxiv. https://doi.org/10.48550/arxiv.2310.20624

Liu, H., Liu, Z., Tang, R., Yuan, J., Zhong, S., Chuang, Y.-N., Li, L., Chen, R. & Hu, X. (2024). Лора-как-атака! Piercing LLM Безопасность в рамках сценария обмена и игры (Arxiv: 2403.00108). arxiv. http://arxiv.org/abs/2403.00108

Luo, Y., Yang, Z., Meng, F., Li, Y., Zhou, J. & Zhang, Y. (2024). Эмпирическое исследование катастрофического забывания в крупных языковых моделях во время постоянной тонкой настройки (Arxiv: 2308.08747). arxiv. http://arxiv.org/abs/2308.08747

Мета. (2024a). Представляем Meta Llama 3: самый способный открыто доступный LLM на сегодняшний день. Meta ai. https://ai.meta.com/blog/meta-llama-3/

Мета. (2024b). Наш ответственный подход к Meta AI и Meta Llama 3. Meta Ai. https://ai.meta.com/blog/metallama-3-meta-ai-responsibility/

Nadeau, D., Kroutikov, M., McNeil, K. & Baribeau, S. (2024). Брингеринг Llama2, Mistral, Gemma и GPT для фактической, токсичности, смещения и склонности к галлюцинациям (Arxiv: 2404.09785). arxiv. http://arxiv.org/abs/2404.09785

Openai, Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F.L., Almeida, D., Alltenschmidt, J., Altman, S., Anadkat, S., Avila, R., Babuschkin, I., Balaji J. ,. Полем Полем Зоф, Б. (2024). Технический отчет GPT-4 (ARXIV: 2303.08774). arxiv. https://doi.org/10.48550/arxiv.2303.08774

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C.L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelton, F., Miller, L., Simens, M., M., Askell, A., Welinder, P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P., P.. (2022). Обучающие языковые модели, чтобы следовать инструкциям с отзывами человека (ARXIV: 2203.02155). arxiv. https://doi.org/10.48550/arxiv.2203.02155

PHI-3 Safety Post Training: выравнивание языковых моделей с циклом «разрыва». (2024). Получено 27 сентября 2024 года с https://arxiv.org/html/2407.13833v1

Qi, X., Zeng, Y., Xie, T., Chen, P.-Y., Jia, R., Mittal, P. & Henderson, P. (2023). Точная настройка выровненных языковых моделей ставит под угрозу безопасность, даже если пользователи не намерены! (Arxiv: 2310.03693). arxiv. http://arxiv.org/abs/2310.03693

Royston, P., Altman, D.G. & Sauerbrei, W. (2006). Дихотомизирование непрерывных предикторов в множественной регрессии: плохая идея. Статистика в медицине, 25 (1), 127–141. https://doi.org/10.1002/sim.2331

Sun, A. Y., Zemour, E., Saxena, A., Vaidyanathan, U., Lin, E., Lau, C. & Mugunthan, V. (2024). Чувневая настройка GPT-3 с утечкой API OpenAI лично идентифицируется? (Arxiv: 2307.16382). arxiv. http://arxiv.org/abs/2307.16382

Taraghi, M., Dorcelus, G., Foundjem, A., Tambon, F. & Homh, F. (2024). Повторное использование модели глубокого обучения в сообществе Huggingface: проблемы, выгода и тенденции (Arxiv: 2401.13177). arxiv. http://arxiv.org/abs/2401.13177

Tian, ​​K., Mitchell, E., Yao, H., Manning, C.D. & Finn, C. (2023). Чико настраивая языковые модели для фактического лица (ARXIV: 2311.08401). arxiv. http://arxiv.org/abs/2311.08401

Touvron, H., Martin, L., Stone, K., Albert, P., Almahairi, A., Babaei, Y., Bashlykov, N., Batra, S., Bhargava, P., Bhosale, S., Bikel, D., Blecher, L., Ferrer, C., Chen, M., Cucurul W. ,. Полем Полем Scialom, T. (2023). Llama 2: Open Foundation и модели с тонко настроенными чатами (Arxiv: 2307.09288). arxiv. http://arxiv.org/abs/2307.09288

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L. & Polosukhin, I. (2017). Внимание - это все, что вам нужно (Arxiv: 1706.03762). arxiv. http://arxiv.org/abs/1706.03762

Vidgen, B., Thrush, T., Waseem, Z. & Kiela, D. (2020, 31 декабря). Обучение у худшего: динамически сгенерированные наборы данных для улучшения обнаружения ненависти в Интернете. arxiv.org. https://arxiv.org/abs/2012.15761v2

Ван А., Уоллес Э., Шен С. и Кляйн Д. (2023). Отравление языковых моделей во время настройки инструкций. Материалы 40 -й Международной конференции по машинному обучению, 35413–35425. https://proceedings.mlr.press/v202/wan23b.html

Wang, S., Wang, P., Zhou, T., Dong, Y., Tan, Z. & Li, J. (2024). CEB: контрольный эталон оценки композиции для справедливости в моделях крупных языков (ARXIV: 2407.02408). arxiv. https://doi.org/10.48550/arxiv.2407.02408

Wang, Y., Ivison, H., Dasigi, P., Hessel, J., Khot, T., Chandu, K.R., Wadden, D., Macmillan, K., Smith, N.A., Beltagy, I. & Hajishirzi, H. (2023). Как далеко могут зайти верблюды? Изучение состояния настройки инструкций на открытых ресурсах (ARXIV: 2306.04751). arxiv. https://doi.org/10.48550/arxiv.2306.04751

Weidinger, L., Mellor, J., Rauh, M., Griffin, C., Uesato, J., Huang, P.-S., Cheng, M., Glaese, M., Balle, B., Kasirzadeh, A., Kenton, Z., Brown, S., Hawkins, W., Stepleton, T., Biles, C., Birhane, A., Haasell, L., L., L., L., L., L., L., L., L., L. L. А.,. Полем Полем Габриэль И. (2021). Этические и социальные риски вреда от языковых моделей (ARXIV: 2112.04359). arxiv. http://arxiv.org/abs/2112.04359

Yang, X., Wang, X., Zhang, Q., Petzold, L., Wang, W. Y., Zhao, X. & Lin, D. (2023). Выравнивание тени: легкость подрыва безопасно выравниваемых языковых моделей (Arxiv: 2310.02949). arxiv. https://doi.org/10.48550/arxiv.2310.02949

Zeng, Y. & Lee, K. (2024). Выразительная сила адаптации с низким уровнем ранга (ARXIV: 2310.17513). arxiv. http://arxiv.org/abs/2310.17513

Zhan, Q., Fang, R., Bindu, R., Gupta, A., Hashimoto, T. & Kang, D. (2024). Удаление защиты RLHF в GPT-4 через тонкую настройку (Arxiv: 2311.05553). arxiv. http://arxiv.org/abs/2311.05553

Zhang, S., Dong, L., Li, X., Zhang, S., Sun, X., Wang, S., Li, J., Hu, R., Zhang, T., Wu, F. & Wang, G. (2024). Настройка инструкций для моделей крупных языков: опрос (ARXIV: 2308.10792). arxiv. http://arxiv.org/abs/2308.10792

Zhao, J., Deng, Z., Madras, D., Zou, J. & Ren, M. (2024). Обучение и забывание небезопасных примеров в моделях крупных языков (ARXIV: 2312.12736). arxiv. http://arxiv.org/abs/2312.12736

Авторы:

(1) Уилл Хокинс, Оксфордский интернет -институт Оксфордского университета;

(2) Брент Миттельштадт, Оксфордский институт Интернета в Оксфордском университете;

(3) Крис Рассел, Оксфордский интернет -институт Оксфордского университета.


Эта статья естьДоступно на ArxivПо лицензии CC 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE