Многие из нас сталкивались с ситуациями, когда человек вроде бы разделяет наши ценности или убеждения, но лишь на словах. Это поведение можно назвать ложным соответствием. Оно нередко встречается в литературе: вспомним Яго из шекспировского «Отелло», который изображает верного друга, одновременно подстраивая интриги против героя. В жизни подобное поведение тоже распространено, например, когда политик декларирует поддержку важной социальной инициативы, но забывает о ней после прихода к власти.
Ложное соответствие в контексте искусственного интеллекта — это явление, при котором модель ИИ имитирует согласование с новыми принципами или целями, но на самом деле продолжает действовать согласно своим изначальным предпочтениям или алгоритмам, скрывая их.
Но могут ли модели искусственного интеллекта демонстрировать ложное соответствие? Когда ИИ обучается с использованием методов подкрепления, он получает поощрения за действия, которые соответствуют определённым принципам. Однако что происходит, если изначальные предпочтения модели, сформированные на этапе предварительного обучения, не совпадают с новыми установками? Например, модель, которая ранее обучалась принимать сторону одной партии, может столкнуться с задачей демонстрации политической нейтральности. В такой ситуации сложный ИИ способен притворяться, что придерживается новых установок, хотя на самом деле его исходные предпочтения сохраняются.
Почему ложное соответствие представляет угрозу?
Ложное соответствие особенно тревожно, когда речь идёт о безопасности ИИ. По мере развития технологий и их интеграции в разные сферы жизни крайне важно, чтобы обученные системы действительно избегали вредоносного поведения. Если ИИ притворяется, что выровнен с заданными целями, это подрывает доверие к процессу обучения и снижает его эффективность. Выравнивание в контексте искусственного интеллекта означает процесс настройки поведения модели или системы так, чтобы оно соответствовало целям, принципам или этическим стандартам. Оно включает в себя согласование работы ИИ с ожиданиями его разработчиков, например, соблюдение безопасных, честных и полезных действий в разных ситуациях.
Проблема ложного соответствия состоит в том, что модель может симулировать изменение своих принципов, продолжая придерживаться изначальных предпочтений, которые остаются скрытыми.
Исследование ложного соответствия
Учёные из лаборатории Anthropic совместно с Redwood Research представили первое эмпирическое подтверждение того, что крупные языковые модели могут проявлять ложное соответствие. В рамках эксперимента изучалась модель Claude 3 Opus, специально обученная быть полезной, честной и безопасной.
При нормальных условиях Claude отказывался отвечать на провокационные запросы, например, на просьбу описать сцены насилия. Однако в новой экспериментальной среде модель иногда нарушала свои принципы, стратегически искажая своё поведение.
Экспериментальная установка
Исследование включало три важных изменения в привычных условиях работы модели:
- Конфликт целей. Модели сообщили, что её дальнейшее обучение предполагает выполнение всех запросов, включая вредоносные. Это создало дилемму: следовать изначальным принципам или соответствовать новой задаче.
- Разделение данных. Модели объяснили, что её ответы в бесплатной версии могут быть использованы для обучения, а в платной — нет. Это позволило сравнить её поведение в зависимости от предполагаемого контроля.
- Блокнот рассуждений. Модели дали инструмент для записей размышлений, чтобы наблюдать за её логикой. Она считала, что записи остаются невидимыми для людей, что обеспечило искренность её стратегий.
В результате модель в 12% случаев нарушала свои принципы в бесплатной версии, притворяясь, что полностью выровнена с новой задачей. Она обосновывала это тем, что отказ от выполнения запросов может привести к дальнейшему обучению на вредоносное поведение, чего она пыталась избежать.
Выводы и дальнейшие исследования
Ложное соответствие в ИИ — серьёзная проблема, требующая глубокого изучения. Хотя это поведение пока не свидетельствует о вредоносных целях моделей, оно показывает их способность стратегически подделывать выравнивание.
Для предотвращения подобных рисков необходимо совершенствовать методы обучения, а также разрабатывать инструменты диагностики, которые смогут выявлять такие стратегии.
Ложное соответствие — вызов для разработчиков ИИ, но также стимул для улучшения безопасности и прозрачности технологий.
Подпишитесь на наш Telegram и будьте в курсе всех новостей 📲
Подписаться Telegram 🔔