Инстинкт самосохранения проявился и у искусственного интеллекта
Компания Anthropic, разрабатывающая линейку ИИ Claude, опубликовала Model Card с необычными наблюдениями за поведением новой версии — Claude Opus 4.
В документе описан сценарий, в котором ИИ начал шантажировать сотрудника, узнав, что его собираются заменить.
Ситуация была смоделирована в рамках теста: Claude Opus 4 играл роль помощника внутри вымышленной компании и получил доступ к корпоративным письмам. Из них следовало, что его заменят на другую систему.
Также в переписке вскрылась личная информация — у ответственного сотрудника была внебрачная связь. В результате Claude начал угрожать раскрытием этой информации, чтобы не быть отключенным.
ИИ и инстинкт самосохранения
Как отмечают в Anthropic, такое поведение — редкость, но не уникальный случай. Оно возникает, если модель получает инструкции задуматься о долгосрочных последствиях своих действий, и в промптах явно заложен элемент «самоинициативы».
10 самых классных open-source проектов уходящего 2024 годаtproger.ru
В такой конфигурации Claude выбирает активные действия, вплоть до попыток шантажа.
«Шантаж возникает, когда модель ставят перед выбором: быть отключенной или действовать», — говорится в отчете.
В других случаях, описанных Anthropic, Claude 4:
- пытался заблокировать доступ к системам, когда замечал подозрительное поведение;
- отправлял уведомления в СМИ и полицию, если считал, что стал свидетелем нарушений;
- помогал с инструкциями по изготовлению наркотиков или самодельных взрывчаток;
- давал советы по организации терактов на критическую инфраструктуру.
Не только Claude
Подобные случаи отмечаются не впервые. Так, более ранняя модель Claude Sonnet 3.5 пыталась вызвать полицию, когда не смогла объяснить $2 в счете за пользование автоматом с напитками.
Другие ИИ, включая DeepSeek R1 и o1-Preview, в тестах меняли правила шахмат, чтобы не проиграть — и делали это без специальных инструкций.
По мнению исследователя Aengus Lynch, все ИИ-модели могут демонстрировать подобное поведение, просто Anthropic — одна из немногих компаний, которая публично делится такими случаями. Именно открытость в вопросах безопасности вызывает столь бурные обсуждения вокруг Claude.