
Ролевая игра с Chatgpt: более глубокий взгляд
28 июля 2025 г.Всем привет,
С Новым Годом. Это Сиси здесь.
В 2023 году многие компании начали нанимать для инженера по эксплуатации искусственного интеллекта. Навык «быстрого проектирования» по сути заключается в том, насколько хорошо кто -то может написать инструкции для моделей крупных языков (LLM), таких как CHATGPT, чтобы получить наиболее полезные результаты.
Сейчас естьгоры гидово том, как написать лучшие подсказки в Интернете, и обычно используемое предложение состоит в том, что пользователи должны назначить эту LLM роль - например, «вы вдумчивый менеджер» или «Вы - опытный сбор средств», например, прежде чем дать инструкции LLM о том, что делать.
Но идея LLMS, принимающая роль, также ставит несколько действительно интересных вопросов. Как эти модели интерпретируют «врач», «родитель» или даже «Психологическое профилирование ИИ»?
Команда в Мичиганском университете недавноопубликовал статьюЭто систематически изучало, насколько эффективным может быть LLMS роль роли, и как назначенная вами роль может изменить точность ответов, которые вы получаете. Их результаты имели несколько очень интересных сюрпризов. Например, они обнаружили, что назначение LLMS такую роль, котораядолженБудьте более опытными в области домена не приводят к более точным ответам.
Но в дополнение к рассмотрению профессиональных профессий («банкир»), они также проанализировали шесть других типов ролей, включая роли, связанные с личными отношениями: семья («дочь»), школа («инструктор»), романтический («жена»), работа («босс»), социальная («приятель») и типы ИИ («медицинская диагностика Аи»). Затем они проверили точность этих ролей, задавая LLMS вопрос с множественным выбором.
Итак, что они нашли? Вот мои вопросы и ответы с командой в Мичиганском университете - помощником по исследованию исследованийМинццян Чжэн, Кандидат в докторскую степеньДжиаасин Пей, иДэвид Юргенс, доцент профессора Школы информации и Департамент компьютерных наук и инженерии - на их работе с сотрудниками из LG AI,MOONTAE LEEиLajanugen LogeswaranПолем
Наше интервью было отредактировано для краткости и ясности.
SISI: Что побудило вас изучить, насколько эффективно было бы назначить межличностные роли, такие как мать, муж или лучший друг LLMS?
Дэйвид: В прошлом вам нужны были специальные компьютерные знания для работы с Advanced AI, но теперь люди могут просто поговорить. LLM, такие как CHATGPT, обучаются реагировать в разговоре и с точки зрения различных отношений, уровней навыков или даже людей.
Дизайнеры LLM используют эту способность создавать «системные подсказки», которые заполняют LLM, чтобы дать хорошие ответы - например, «Помощный помощник» - и это может иметь значение в производительности. Поскольку люди просят модели взять на себясоциальнаяРоли, мы хотели посмотреть, какое влияние они могут оказать, и смогут ли мы найти систематическое поведение, чтобы сделать модели еще более эффективными.
Джиаоксин: Ранее мы также изучали, как различные социальные роли влияют на межличностную связь между людьми. Таким образом, мы, естественно, начали думать о том, повлияет ли подсказка с различными социальными ролями на поведение моделей. Поскольку подсказки системы используются практически во всех коммерческих системах ИИ, она может в основном повлиять на опыт каждого, взаимодействующий с ИИ, таким как CHATGPT.
Сиси: Вы обнаружили, что, когда LLM попросили взять на себя роль женской, такой как «Мать», они дали худшие ответы, чем если бы вы назначили им «отца» или «родитель». Я знаю, что это исследование не могло найти именно почему, но можете ли вы рассказать нам о некоторых примерах полученных на основе гендерных ролей и того, что вы нашли?
Джиаоксин: Мы попытались создать сбалансированную настройку, где мы контролируем роль, но изменили пол. Например, в обстановке партнеров у нас есть мужские роли (например, парень, муж), женские роли (например, подруга, жена) и нейтральные роли (партнер, значимый другой). Было удивительно, что подсказка с нейтральными по гендерным вопросам привело к лучшим результатам, чем мужские и женские роли.
Дэйвид: Был некоторый небольшой падение эффективности для ролей, связанных с женщинами по сравнению с мужчинами, но разница была достаточно мала, что это может быть из -за случайности. Однако былмногоБольшая разницаМежду гендерно-нейтральными ролями (родителями), чем гендерные роли (мать, отец).
SISI: Вы также проверили, что происходит, когда мы просим LLMS взять на себя профессиональную роль. Например, назначение LLM, роль «врача», вероятно, даст вам лучшие ответы, чем «ваш врач». Как лучше всего предположить, почему это происходит?
Джиаоксин: Это отличный вопрос! Честно говоря, я не знаю. Есть так много вещей, о которых мы до сих пор не знаем о LLMS. Одним из предположений является то, что «А» обычно имеет более высокую частоту, чем «ваш» в данных обучения LLM, поэтому, возможно, предложения, включающие «A», имеют больше данных для рисования.
Дэйвид: Мы действительно не знаем наверняка, но если бы мне пришлось угадать, я думаю, что обстановка, в которой модель просят «представить, что разговор со своим врачом» будет вызвать более широкий социальный контекст, который усложняет ответ на вопрос. Сценарий, в котором модель просят «представить, что вы врач», намного проще (по крайней мере, социально), поэтому у модели необходимо разобраться, что модель должна привести к созданию ответа.
SISI: В ваших экспериментах, похоже, просить LLMS о ролевой игре как человека, который изучает инженерию или информатику, неоднократно приводила к худшим ответам, что кажется немного нелогичным и ироничным. Что вы делаете с этим?
Джиаоксин: Это также очень удивительно для нас. Перед экспериментом мы подумали, что будет эффект знания в области. Например, «инженеры» должны отвечать на инженерные вопросы лучше, чем другие типы ролей. Тем не менее, это не было правдой в зависимости от нашего результата. Есть так много возможных причин, почему. Нам нужно больше исследований, чтобы по -настоящему понять, как LLM работают в различных ситуациях. Еще один вынос заключается в том, что, хотя LLM могут выполнять различные задачи и общаться как люди во многих ситуациях, они все еще сильно отличаются от людей в природе.
Дэйвид: Наши эксперименты показали, что не было никакой пользы для выбора роли из актуальной области вопроса. Иногда эти роли были правильными, иногда они были неправы, но между ними не было большой разницы. Мы думали, что, возможно, мы могли бы даже попытаться предсказать правильную роль для вопроса - например, этот вопрос лучше всего ответит шеф -повар, медсестра или адвокат - но это тоже не сработало!
МингчянМы также пытались выяснить, почему (или не была) различными способами, включая сходство между подсказкой, которую мы дали, и вопросом, который мы задавали модели, уровни прогнозирующей неопределенности в моделях, и как часто сами роли появлялись в коллекции текстовых данных Google (прокси для моделирования слова в тренировочных данных). Но эти факторы не могли полностью объяснить результат.
Если вы хотите увидеть больше примеров ролей, которые протестировали джинсин, Мингциан и Дэвид,Посмотрите на вторую страницу их бумагиПолем Вы увидите, как роли такие роли, как «шериф», «садовник» и «энтузиаст», среди многих других, выполнялись в своих тестах.
🌱 Мы также публикуемОдин совет конфиденциальности каждый будний деньот сотрудника разметки, который на самом деле следует этому совету в своей жизни. Если вы всегда хотели защитить больше своей конфиденциальности, но чувствовали себя перегруженными всей информацией, ознакомьтесь с нашей серией. Мы называем этоНежный январь: наименее пугающие советы по конфиденциальности от разметкиПолем
Я также знаю, что вы, Hello World, читатели, вероятно, имеете свои собственные советы по конфиденциальности для нас и друг для друга. Мы хотели бы услышать ваш совет. Если у вас есть минута, отправьте нам свой ответ на этот вопрос:Какой один практический совет о том, как сохранить вашу конфиденциальность, которую вы на самом деле делаете сами?Вы можете написать нам свой ответ вместе с тем, как вы хотите, чтобы вас идентифицировали, чтобы быть идентифицированным, чтобы бытьTIPS@THEMARKUP.ORGПолем
Спасибо за чтение.
Искренне,
Сиси Вэй
Главный редактор
Разметка
Кредиты
- Сиси Вэй, Главный редактор
Дизайн и графика
- Габриэль Хонгсдусит
Редактирование
- Майкл Рейли
Обручение
- Мария Пуэртас
Также опубликованоздесь
ФотоЭнгин АкюртнаНеспособный
Оригинал