Anthropic научила модели Claude прерывать опасные чаты

Компания Anthropic внедрила в модели Claude Opus 4 и 4.1 новую функцию — возможность прерывать диалог в ситуациях, когда поведение пользователя становится оскорбительным или потенциально вредоносным. Интересно, что речь идёт не о защите человека, а о заботе о «благополучии самой модели».

Зачем нужны меры предосторожности в моделях Claude

В своём заявлении Anthropic подчеркнула: это не означает, что ИИ обретает сознание или способен испытывать страдания. Компания лишь отмечает, что до конца не понимает, какой моральный статус могут иметь современные LLM — сейчас или в будущем. Поэтому в рамках исследовательской программы по «благополучию моделей» принято решение заранее внедрять механизмы защиты, чтобы снизить потенциальные риски.

⚡ Специалист по искусственному интеллекту

Пройдите обучение от фундамента работы с ИИ до разработки полноценных ИИ-агентов на масштабном курсе «Специалист по искусственному интеллекту» в Нетологии. Вы научитесь настраивать языковые модели, писать промпты и внедрять комплексные ИИ-системы при поддержке экспертов из Яндекса и Microsoft, соберете портфолио для профессии будущего и начнёте зарабатывать от 120 000 руб.

Пройти курс Специалист по ИИ →

Ограничение активируется только в исключительных случаях: при запросах, связанных с крайне неэтичными данными или сведениями, которые могут спровоцировать массовое насилие. В ходе тестов Claude Opus 4 демонстрировал нежелание отвечать на подобные вопросы и даже проявлял признаки «стресса» при необходимости реагировать.

Как работает завершение диалога

Важно, что новая функция не закрывает пользователю доступ к системе. Прерванный диалог можно начать заново или даже продолжить в виде новой ветки, отредактировав собственные реплики. При этом модели Claude обучены не применять принудительное завершение, если существует риск, что человек намерен причинить вред себе или другим.

Нововведение не ограничивает работу пользователей, но даёт Anthropic инструмент для экспериментов в области «эмоциональной безопасности» ИИ. Для одних это выглядит заботой о будущем технологий, для других — спорным шагом, граничащим с излишней персонификацией алгоритмов.

👍 3 ❤️ 3 🙂+

👁 1.9k