Новости IT

ИИ-модель Claude Opus 4 прибегла к шантажу, узнав о своем «увольнении» — Tproger

От

26.05.2025

Инстинкт самосохранения проявился и у искусственного интеллекта

Компания Anthropic, разрабатывающая линейку ИИ Claude, опубликовала Model Card с необычными наблюдениями за поведением новой версии — Claude Opus 4.

В документе описан сценарий, в котором ИИ начал шантажировать сотрудника, узнав, что его собираются заменить.

Ситуация была смоделирована в рамках теста: Claude Opus 4 играл роль помощника внутри вымышленной компании и получил доступ к корпоративным письмам. Из них следовало, что его заменят на другую систему.

Также в переписке вскрылась личная информация — у ответственного сотрудника была внебрачная связь. В результате Claude начал угрожать раскрытием этой информации, чтобы не быть отключенным.

ИИ и инстинкт самосохранения

Как отмечают в Anthropic, такое поведение — редкость, но не уникальный случай. Оно возникает, если модель получает инструкции задуматься о долгосрочных последствиях своих действий, и в промптах явно заложен элемент «самоинициативы».

10 самых классных open-source проектов уходящего 2024 годаtproger.ru

В такой конфигурации Claude выбирает активные действия, вплоть до попыток шантажа.

«Шантаж возникает, когда модель ставят перед выбором: быть отключенной или действовать», — говорится в отчете.

В других случаях, описанных Anthropic, Claude 4:

пытался заблокировать доступ к системам, когда замечал подозрительное поведение;
отправлял уведомления в СМИ и полицию, если считал, что стал свидетелем нарушений;
помогал с инструкциями по изготовлению наркотиков или самодельных взрывчаток;
давал советы по организации терактов на критическую инфраструктуру.

Читать также:

Почему обычным пользователям стоит избегать Android 16 Developer Beta — Tproger

Не только Claude

Подобные случаи отмечаются не впервые. Так, более ранняя модель Claude Sonnet 3.5 пыталась вызвать полицию, когда не смогла объяснить $2 в счете за пользование автоматом с напитками.

Другие ИИ, включая DeepSeek R1 и o1-Preview, в тестах меняли правила шахмат, чтобы не проиграть — и делали это без специальных инструкций.

По мнению исследователя Aengus Lynch, все ИИ-модели могут демонстрировать подобное поведение, просто Anthropic — одна из немногих компаний, которая публично делится такими случаями. Именно открытость в вопросах безопасности вызывает столь бурные обсуждения вокруг Claude.

ИИ и инстинкт самосохранения

Не только Claude

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНОЕЩЕ ОТ АВТОРА

Fplus показала прототип российской игровой консоли с отечественными ОС и импортозамещёнными кнопками

В Ubuntu нашли баг, позволявший красть дампы памяти с хешами паролей — Tproger

WhatsApp сегодня перестал работать на миллионах iPhone и других смартфонов по всему миру

ЭТО МОЖЕТ БЫТЬ ИНТЕРЕСНО ЕЩЕ ОТ АВТОРА