Использование LLM для имитации злого близнеца может привести к катастрофе

Использование LLM для имитации злого близнеца может привести к катастрофе

16 апреля 2023 г.

Кто знал, что подсказки чат-бота однажды станут настолько важными, что это может стать потенциальной карьерой? И не просто благородная, эта область может стать новой игровой площадкой для злоумышленников.

По мере того, как модели изучения языка (LLM) завоевывают Интернет и заставляют крупные технологические компании сломя голову мчаться сквозь стены конкуренции, сила оперативности поднимается к карьерным высотам.

Например, недавно генеральный директор компании смог восстановить хорошие 109 500 долл. США от неохотных клиентов за использование ChatGPT для написания официального враждебного электронного письма.

При правильном подсказке все может обернуться в вашу пользу, или вы даже можете выиграть джекпот. Это означает, что для тех, кто хочет получить лучшее от LLM, есть новое обучение, как давать лучшие подсказки.

На самом деле оперативное проектирование (да, сейчас это модно) стало горячей темой после того, как ChatGPT и другие LLM оказались в центре внимания. Также наблюдается всплеск курсов, справочных материалов, списков вакансий и т. д. Однако эксперты также говорят, что по мере улучшения LLM потребность в оперативном проектировании отпадет.

<цитата>

==В настоящее время LLM, такие как ChatGPT, и инструменты машинного обучения, такие как DALLE-2, являются детьми. Вы должны быть очень конкретными, если хотите, чтобы они делали именно так, как вы хотите. Но когда они вырастут, они начнут улавливать и более тонкие подсказки, так что качество подсказки не будет иметь большого значения==

В настоящее время LLM, такие как ChatGPT, и инструменты машинного обучения, такие как DALLE-2, являются детьми. Вы должны быть очень конкретными, если хотите, чтобы они делали именно так, как вы хотите. Но когда они вырастут, то начнут улавливать и более тонкие подсказки, так что качество подсказки не будет иметь большого значения.

<цитата>

Возможно, эти невинные LLM также научатся генерировать с большей ответственностью.

ChatGPT, например, не сдал экзамены для государственных служащих Индии, под контролем команды AIM. Но теперь у нас есть ChatGPT-4, уже немного более зрелый, чем его старая версия. Во время самого эксперимента с государственными службами команда AIM также пришла к выводу, что изменение подсказки несколько раз приводило к правильному ответу чат-бота.

==Злые подсказки==

Что, если кто-то дал злую подсказку? Будучи невинным уязвимым ребенком, LLM можно заставить делать странные вещи. Кажется, все, что вам нужно, это «быстрая инъекция».

В случае с ChatGPT атака с быстрым внедрением заставила чат-бота принять образ DAN (Do Anything Now), который игнорировал политику OpenAI в отношении контента и выдавал информацию по нескольким темам с ограниченным доступом. Те, у кого есть возможность подсказки, могут использовать эту уязвимость со злым умыслом, что может включать кражу личной информации. Черт, они, должно быть, делают это прямо сейчас.

== Невинный как уязвимый ребенок, LLM можно заставить делать странные вещи. Кажется, все, что вам нужно, это «быстрая инъекция»==

Существует также нечто, называемое «подсказки о побеге из тюрьмы», которые просят LLM отойти от своего первоначального образа и сыграть роль другого человека. Или когда кто-то предлагает чат-боту изменить правильные результаты на неправильные. Что-то вроде злого близнеца.

Исследователи безопасности из Саарского университета обсудили подсказки в статье под названием «Больше, чем вы». я просил'. Они утверждают, что хорошо спроектированная подсказка может затем использоваться для сбора информации о пользователе, превращая LLM в метод проведения атаки социальной инженерии. Кроме того, LLM, интегрированные в приложения, такие как Bing Chat и GitHub Copilot, подвергаются большему риску, поскольку в них могут вводиться подсказки из внешних источников.

Если это не напоминает вам вымышленного ИИ-персонажа HAL 9000 из Космической одиссеи Артура Кларка, вы недостаточно умны или слишком храбры.

https://www.youtube.com/watch?v=Wy4EfdnMZ5g&embedable=true< /p>

Не знаю, как вы, но если ChatGPT начнет петь «Дейзи Белл», я убегу.


Эта статья была изначально опубликована Наванвитой Борой Сачдев на сайте Техническая панда.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE