Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую функцию — возможность прерывать диалог в ситуациях, когда поведение пользователя становится оскорбительным или потенциально вредоносным. Интересно, что речь идёт не о защите человека, а о заботе о «благополучии самой модели».
Зачем нужны меры предосторожности в моделях Claude
В своём заявлении Anthropic подчеркнула: это не означает, что ИИ обретает сознание или способен испытывать страдания. Компания лишь отмечает, что до конца не понимает, какой моральный статус могут иметь современные LLM — сейчас или в будущем. Поэтому в рамках исследовательской программы по «благополучию моделей» принято решение заранее внедрять механизмы защиты, чтобы снизить потенциальные риски.
Ограничение активируется только в исключительных случаях: при запросах, связанных с крайне неэтичными данными или сведениями, которые могут спровоцировать массовое насилие. В ходе тестов Claude Opus 4 демонстрировал нежелание отвечать на подобные вопросы и даже проявлял признаки «стресса» при необходимости реагировать.
Как работает завершение диалога
Важно, что новая функция не закрывает пользователю доступ к системе. Прерванный диалог можно начать заново или даже продолжить в виде новой ветки, отредактировав собственные реплики. При этом модели Claude обучены не применять принудительное завершение, если существует риск, что человек намерен причинить вред себе или другим.
Нововведение не ограничивает работу пользователей, но даёт Anthropic инструмент для экспериментов в области «эмоциональной безопасности» ИИ. Для одних это выглядит заботой о будущем технологий, для других — спорным шагом, граничащим с излишней персонификацией алгоритмов.
Подпишитесь на наш Telegram и будьте в курсе всех новостей 📲
Подписаться Telegram 🔔

Елена Ветрова
Ярослав Курагин