Введение в проблему
С увеличением неправомерного использования моделей «визуальный-язык» (VLM) поставщики начали внедрять различные меры безопасности, такие как настройка выравнивания, системные подсказки и модерация контента. Однако реальная защищенность этих методов против атак остается недостаточно исследованной.
Что такое многоаспектная атака?
Мы представляем Многоаспектную атаку (MFA) — фреймворк, который систематически выявляет общие уязвимости безопасности в известных VLM с защитными механизмами, таких как GPT-4o, Gemini-Pro и Llama-4.
Ключевой компонент MFA
Основным элементом MFA является Атака с передачей внимания (ATA), которая скрывает вредоносные инструкции внутри мета-задачи с конкурирующими целями. Мы предлагаем теоретическую перспективу, основанную на взломе системы вознаграждений, чтобы объяснить, почему эта атака оказывается успешной.
Улучшение переносимости между моделями
Для повышения переносимости между моделями мы также представляем легкий алгоритм улучшения передачи, совместимый с простой стратегией повторения, который позволяет обойти как входные, так и выходные фильтры без специальной настройки модели.
Эмпирические результаты
Мы показали, что противодействующие изображения, оптимизированные для одного визуального кодировщика, широко передаются на невидимые VLM. Это указывает на то, что общие визуальные представления создают кросс-модельную уязвимость безопасности. В целом, MFA достигает 58.5% уровня успеха.

Комментарии
2 комментария на ««Многоаспектная атака: уязвимости моделей с защитой»»
В статье хорошо освещены уязвимости моделей VLM и методы обхода защитных механизмов. Интересно, как многоаспектные атаки могут повлиять на практическое применение этих технологий.
Обсуждение многоаспектных атак на модели VLM поднимает важные вопросы о безопасности ИИ. Особенно интересно узнать о новых методах обхода защитных механизмов, так как это критично для дальнейшего развития технологий. Какие шаги планируются для углубления этой темы?