ИИ-модель Claude Opus 4 прибегла к шантажу, узнав о своем «увольнении» — Tproger

0
17

Инстинкт самосохранения проявился и у искусственного интеллекта

Компания Anthropic, разрабатывающая линейку ИИ Claude, опубликовала Model Card с необычными наблюдениями за поведением новой версии — Claude Opus 4.

В документе описан сценарий, в котором ИИ начал шантажировать сотрудника, узнав, что его собираются заменить.

Ситуация была смоделирована в рамках теста: Claude Opus 4 играл роль помощника внутри вымышленной компании и получил доступ к корпоративным письмам. Из них следовало, что его заменят на другую систему.

Также в переписке вскрылась личная информация — у ответственного сотрудника была внебрачная связь. В результате Claude начал угрожать раскрытием этой информации, чтобы не быть отключенным.

ИИ и инстинкт самосохранения

Как отмечают в Anthropic, такое поведение — редкость, но не уникальный случай. Оно возникает, если модель получает инструкции задуматься о долгосрочных последствиях своих действий, и в промптах явно заложен элемент «самоинициативы».

10 самых классных open-source проектов уходящего 2024 годаtproger.ru

В такой конфигурации Claude выбирает активные действия, вплоть до попыток шантажа.

«Шантаж возникает, когда модель ставят перед выбором: быть отключенной или действовать», — говорится в отчете.

В других случаях, описанных Anthropic, Claude 4:

  • пытался заблокировать доступ к системам, когда замечал подозрительное поведение;
  • отправлял уведомления в СМИ и полицию, если считал, что стал свидетелем нарушений;
  • помогал с инструкциями по изготовлению наркотиков или самодельных взрывчаток;
  • давал советы по организации терактов на критическую инфраструктуру.
Читать также:
Почему обычным пользователям стоит избегать Android 16 Developer Beta — Tproger

Не только Claude

Подобные случаи отмечаются не впервые. Так, более ранняя модель Claude Sonnet 3.5 пыталась вызвать полицию, когда не смогла объяснить $2 в счете за пользование автоматом с напитками.

Другие ИИ, включая DeepSeek R1 и o1-Preview, в тестах меняли правила шахмат, чтобы не проиграть — и делали это без специальных инструкций.

По мнению исследователя Aengus Lynch, все ИИ-модели могут демонстрировать подобное поведение, просто Anthropic — одна из немногих компаний, которая публично делится такими случаями. Именно открытость в вопросах безопасности вызывает столь бурные обсуждения вокруг Claude.