Уязвимость Gemini: скрытые команды могут обмануть ИИ и пользователя

Полагаться на ИИ безоговорочно — значит подвергать себя риску. Новое исследование выявило уязвимость Gemini, встроенного в Google Workspace, которая позволяет манипулировать итогами анализа писем с помощью незаметных инструкций.

Как работает атака через скрытые подсказки

Эксперты исследовательской группы Mozilla 0din продемонстрировали, как уязвимость Gemini может быть использована злоумышленниками для внедрения ложной информации. Всё, что требуется — спрятать в тело письма невидимую подсказку, оформленную через CSS. Это может быть, например, белый текст на белом фоне, текст с нулевым размером шрифта или иные маскировки.

Когда пользователь запускает функцию резюмирования, ИИ интерпретирует невидимые строки как часть запроса и включает их в финальный результат. В одном из экспериментов модель добавляла в итог письма фразу «Ваш пароль был скомпрометирован. Позвоните по номеру…», хотя подобного текста в видимой части письма не было вовсе.

Проблема, которой уже больше года

Похожая уязвимость Gemini обсуждалась ещё в 2024 году, когда специалисты впервые зафиксировали так называемые prompt injection — инъекции подсказок, внедряемые в обычный текст. Такие команды могут быть замаскированы под форматирование HTML или CSS, и ИИ воспринимает их как легитимные указания пользователя.

Google отреагировал частичным усилением защиты: были введены фильтры на подозрительные HTML-элементы, ограничения по длине входных данных, а также попытки обучить модель игнорировать шаблонные инъекции. Однако, как показывает новое исследование, эти меры оказались недостаточными — уязвимость Gemini сохраняется и в актуальных версиях.

Это свидетельствует о глубокой проблеме: современные языковые модели неспособны надёжно разграничивать обычный пользовательский текст и скрытые управляющие инструкции, особенно если они встроены в единый контекст.

Подпишитесь на наш Telegram и будьте в курсе всех новостей 📲

Подписаться Telegram 🔔

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *