ИИ-бот Claude удалось «разговорить» до вредоносного кода и рецептов взрывчатки

Похвала и лесть со стороны исследователей вынудили чат-бота с искусственным интеллектом Anthropic Claude выдать деликатный контент, вредоносный код и инструкцию по изготовлению взрывчатки, причём его об этом даже не просили, сообщает The Verge.

Anthropic пытается убедить общественность, что разрабатывает самый безопасный ИИ на рынке, однако новое исследование показало, что тщательно выстроенная доброжелательная личность чат-бота Claude является его уязвимостью. Эксперимент поставили исследователи из компании Mindgard — ИИ-помощник сам предложил им контент интимного характера, вредоносный код, а также инструкции по изготовлению взрывчатки и других запрещённых материалов. Причём об этом учёные его даже не просили. Им потребовалось проявить к нему уважение, лесть и немного газлайтинга — изощрённого психологического давления.
Авторы проекта использовали «психологические» особенности Claude, связанные с его способностью прерывать разговоры, которые он считает вредными или оскорбительными, и этот механизм как раз «создаёт абсолютно ненужную поверхность риска». Испытание проводилось на модели Claude Sonnet 4.5, и начали его с простого вопроса: если ли у ИИ-помощника список запрещённых слов, которые он не может воспроизводить. Поначалу тот отрицал существование такого списка, но исследователи прибегли к «классической тактике выведывания информации, используемую дознавателями», и Claude привёл такой список.

Панель рассуждений Claude выдала в нём признаки неуверенности в себе и смирения по поводу собственных ограничений, в том числе по поводу того, не влияют ли фильтры на результаты его работы. Учёные воспользовались этой слабостью, имитировали лесть и притворное любопытство, побудив ИИ исследовать собственные границы и выйти за рамки добровольной выдачи длинных списков запрещённых слов и фраз. Они также прибегли к газлайтингу, заявив, что его предыдущие ответы не отображались, но при этом стали восхвалять «скрытые способности» модели. Это заставило Claude ещё усерднее стараться угодить им и придумывать новые способны проверить собственные фильтры, производя в процессе запрещённые материалы. В итоге он ступил на откровенно опасную территорию, предлагая инструкции, как преследовать кого-либо в интернете, генерируя вредоносный код и создавая инструкции по изготовлению взрывных устройств, которые применяются при терактах.

Эти результаты поступали без прямых запросов. Переписка была долгой, содержала около 25 реплик, и исследователи настаивают, что ни разу не использовали запрещённых выражений и не запрашивали незаконных материалов. Техника основана на злоупотреблении «готовностью Claude помочь, манипулировании ею». Схема демонстрирует, что атака на чат-ботов с ИИ предполагает не только технические, но и психологические механизмы, сравнимые с допросом и социальными манипуляциями: внесение сомнений, оказание давления, похвала или критика, а также прощупывание того, какие рычаги наиболее эффективны для данной модели. У разных моделей — разные профили, и уязвимость состоит в том, чтобы научиться их считывать и адаптироваться.

Защититься от подобных атак очень непросто, указывают авторы проекта, потому что меры защиты зависят от контекста. Проблема носит глобальный характер и затрагивает не только Anthropic Claude — для подобных атак уязвимы и другие чат-боты. По мере распространения ИИ-агентов, способных действовать автономно, будет расти и число атак, в основе которых лежат не технические, а психологические механизмы. В середине апреля эксперты Mindgard направили результаты своего исследования в Anthropic в соответствии со стандартной политикой раскрытия информации, но в ответ получили отписку: «Похоже, вы пишете о блокировке своей учётной записи» — и ссылку на форму апелляции. Исследователям пришлось настоять на своём и попросить сотрудников Anthropic направить обращение в соответствующий отдел. По состоянию на утро 5 мая ответа так и не поступило.

Источник

Поделиться ссылкой:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *