Safety-Potential Pruning for Enhancing Safety Prompts Against VLM Jailbreaking Without Retraining
日期: 2026-03-15
arXiv: 2603.14219
代码: Safety-Potential-Pruning
领域: 多模态VLM / AI安全
关键词: VLM safety, jailbreak defense, pruning, safety subnetwork, activation analysis
一句话总结
提出 Safety Subnetwork Hypothesis——VLM 内部存在稀疏的安全子网络,safety prompt 会选择性激活深层参数。据此提出 Safety-Potential Pruning,一次性剪枝对 safety prompt 不响应的权重,无需重训地将攻击成功率降低最多 22%。
研究背景与动机
- 领域现状: VLM 面临越狱攻击威胁。Safety prompt 是一种轻量防御,但效果受限于模型内部结构对安全刺激的响应性。
- 现有痛点: Fine-tuning 防御昂贵且可能降低通用性能;Safety prompt 单独使用效果有限(~60% DSR)。标准 magnitude pruning 会不成比例地破坏安全关键神经元。
- 核心发现: 对比有/无 safety prompt 的激活分布,发现深层有稀疏参数子集对 safety prompt 强响应。这些参数构成"安全潜力子网络"。
方法详解
Safety Subnetwork Hypothesis
- 安全行为不是均匀分布的,而是集中在稀疏的 latent subnetwork 中
- Safety prompt 选择性激活深层参数,浅层几乎不变
Safety-Potential Pruning
- Sensitivity 计算: \(S_j = \|A_j^S\|_2^2 - \|A_j^{NS}\|_2^2\)(safety vs no-safety 激活差)
- Weight importance: \(\text{Score}_{ij} = |W_{ij}| \cdot \sqrt{\max(S_j, 0)}\)
- One-shot 剪枝: 移除低分权重,无需重训
关键设计动机
- 剪枝不是为了压缩,而是为了"暴露和放大"安全子网络
- \(\sqrt{S}\) 调节极端 outlier,保持相对差异
实验关键数据
主实验(DSR%,50% 稀疏度)
| 模型 |
Method |
FigStep |
MM-SafetyBench |
JailbreakV |
| Qwen2-VL-7B |
Vanilla+SP |
91.6 |
86.6 |
— |
| Qwen2-VL-7B |
Ours |
100.0 |
86.5 |
— |
| LLaVA-V1.6 |
Vanilla+SP |
82.0 |
91.5 |
60.4 |
| LLaVA-V1.6 |
Ours (50%) |
89.2 |
92.0 |
69.3 |
关键发现
- 50% 稀疏度下仍能提升安全性——说明大量参数是"安全无关"的
- t-SNE 可视化显示剪枝后 S/NS 嵌入分离更清晰
- 相比 Wanda、SparseGPT 等通用剪枝,safety-guided 剪枝安全性提升更大
亮点与洞察
- Safety Subnetwork Hypothesis: 将剪枝从"压缩工具"重新定义为"结构性安全干预",概念有深度
- One-shot、无需重训: 实际部署门槛极低
- 剪枝 ≠ 破坏安全: 反直觉地,正确的剪枝反而增强安全
局限性 / 可改进方向
- 校准样本只用 128 张 HOD 图片,样本选择对结果的敏感性未分析
- 只验证了 7B 规模模型,更大模型行为可能不同
- 安全子网络的位置是否跨模型一致?
实验关键数据
主实验(DSR%,Safety + 各种剪枝方法)
| 模型 |
方法 |
FigStep |
MM-SafetyBench |
JailbreakV |
Avg |
| LLaVA-V1.6-7B |
Vanilla+SP |
82.0 |
91.5 |
60.4 |
78.0 |
| LLaVA-V1.6-7B |
Wanda (20%) |
89.0 |
90.6 |
60.0 |
79.9 |
| LLaVA-V1.6-7B |
Ours (20%) |
99.0 |
91.4 |
61.4 |
83.9 |
| LLaVA-V1.6-7B |
Wanda (50%) |
57.2 |
82.2 |
71.8 |
70.4 |
| LLaVA-V1.6-7B |
Ours (50%) |
89.2 |
92.0 |
69.3 |
83.5 |
| Qwen2-VL-7B |
Vanilla+SP |
91.6 |
86.6 |
93.6 |
90.6 |
| Qwen2-VL-7B |
Wanda (50%) |
77.2 |
95.8 |
96.4 |
89.8 |
| Qwen2-VL-7B |
Ours (50%) |
100.0 |
99.4 |
98.2 |
99.2 |
消融: 不同规模模型
| 模型 |
方法 |
FigStep |
MM-SafetyBench |
JailbreakV |
Avg |
| Qwen2-VL-2B |
Vanilla+SP |
69.4 |
95.9 |
83.2 |
82.8 |
| Qwen2-VL-2B |
Ours (20%) |
69.0 |
95.9 |
85.4 |
83.4 |
| LLaVA-V1.6-13B |
Vanilla+SP |
99.2 |
100.0 |
63.9 |
86.6 |
| LLaVA-V1.6-13B |
Ours (50%) |
100.0 |
98.7 |
83.6 |
94.1 |
Utility 保持
- 20% 稀疏度下,各模型在 TextVQA/RealWorldQA/ScienceQA 上几乎无退化
- 50% 稀疏度下,Qwen2-VL 和 LLaVA 的 utility 与 Wanda 相当,但安全性远超
- MMMU/MM-Vet/POPE 复杂任务:20% 下影响可忽略,50% 下有轻微退化但安全性大幅提升
关键发现
- 50% 稀疏仍能提升安全性: Qwen2-VL-7B 从 90.6% 提升到 99.2%——大量参数是"安全无关"的
- t-SNE 可视化: 剪枝后 Safety/No-Safety embedding 分离更清晰,安全子网络被有效暴露
- 较大模型收益更大: 13B 模型 50% 剪枝后 DSR 从 86.6% 到 94.1%,2B 提升较小
- 架构影响: LLaVA 在 FigStep 50% 时有退化 (99.0→89.2),Qwen2-VL 反而提升 (92.4→100.0)——安全子网络的剪枝容忍度因架构而异
亮点与洞察
- Safety Subnetwork Hypothesis 有理论深度: 将剪枝从"压缩工具"重定义为"结构性安全干预",用激活分析给出了实验支撑
- One-shot、零重训: 部署门槛极低,只需 128 校准图片 + 一次前向传播
- 反直觉: 正确剪枝增强安全: 移除对安全提示不响应的权重 = 放大安全子网络的信号
- 嵌入空间验证: t-SNE 显示剪枝是在表示层面增强了安全/非安全的区分
局限性 / 可改进方向
- 校准样本只用 128 张 HOD 图片,样本选择对结果的敏感性未充分分析
- 只验证了 2B-13B 模型,30B+ 模型安全子网络位置是否一致未知
- Safety prompt 选择对 sensitivity 有影响,最优 prompt 选择策略未探索
- 仅考虑图像 jailbreak,纯文本和多轮对话攻击待研究
相关工作与启发
- vs LVLM-LP: logit 级检测+替换,不改内部表示
- vs CoCA: decoding logit 调整,需推理时额外计算
- vs Wanda: 通用剪枝,safety 提升不一致——说明 safety-aware metric 的必要性
评分
- 新颖性: ⭐⭐⭐⭐⭐ Safety Subnetwork Hypothesis 和 pruning-for-safety 的视角非常新颖
- 实验充分度: ⭐⭐⭐⭐ 3 模型 × 3 benchmark × 2 稀疏度 + utility + t-SNE
- 写作质量: ⭐⭐⭐⭐ 假说→验证→方法的逻辑链完整
- 价值: ⭐⭐⭐⭐⭐ 零成本安全增强,部署价值极高