Safety-Potential Pruning for Enhancing Safety Prompts Against VLM Jailbreaking Without Retraining¶

日期: 2026-03-15
arXiv: 2603.14219
代码: Safety-Potential-Pruning
领域: 多模态VLM / AI安全
关键词: VLM safety, jailbreak defense, pruning, safety subnetwork, activation analysis

一句话总结¶

提出 Safety Subnetwork Hypothesis——VLM 内部存在稀疏的安全子网络，safety prompt 会选择性激活深层参数。据此提出 Safety-Potential Pruning，一次性剪枝对 safety prompt 不响应的权重，无需重训地将攻击成功率降低最多 22%。

研究背景与动机¶

领域现状: VLM 面临越狱攻击威胁。Safety prompt 是一种轻量防御，但效果受限于模型内部结构对安全刺激的响应性。
现有痛点: Fine-tuning 防御昂贵且可能降低通用性能；Safety prompt 单独使用效果有限（~60% DSR）。标准 magnitude pruning 会不成比例地破坏安全关键神经元。
核心发现: 对比有/无 safety prompt 的激活分布，发现深层有稀疏参数子集对 safety prompt 强响应。这些参数构成"安全潜力子网络"。

方法详解¶

Safety Subnetwork Hypothesis¶

安全行为不是均匀分布的，而是集中在稀疏的 latent subnetwork 中
Safety prompt 选择性激活深层参数，浅层几乎不变

Safety-Potential Pruning¶

Sensitivity 计算: \(S_j = \|A_j^S\|_2^2 - \|A_j^{NS}\|_2^2\)（safety vs no-safety 激活差）
Weight importance: \(\text{Score}_{ij} = |W_{ij}| \cdot \sqrt{\max(S_j, 0)}\)
One-shot 剪枝: 移除低分权重，无需重训

关键设计动机¶

剪枝不是为了压缩，而是为了"暴露和放大"安全子网络
\(\sqrt{S}\) 调节极端 outlier，保持相对差异

实验关键数据¶

主实验（DSR%，50% 稀疏度）¶

模型	Method	FigStep	MM-SafetyBench	JailbreakV
Qwen2-VL-7B	Vanilla+SP	91.6	86.6	—
Qwen2-VL-7B	Ours	100.0	86.5	—
LLaVA-V1.6	Vanilla+SP	82.0	91.5	60.4
LLaVA-V1.6	Ours (50%)	89.2	92.0	69.3

关键发现¶

50% 稀疏度下仍能提升安全性——说明大量参数是"安全无关"的
t-SNE 可视化显示剪枝后 S/NS 嵌入分离更清晰
相比 Wanda、SparseGPT 等通用剪枝，safety-guided 剪枝安全性提升更大

亮点与洞察¶

Safety Subnetwork Hypothesis: 将剪枝从"压缩工具"重新定义为"结构性安全干预"，概念有深度
One-shot、无需重训: 实际部署门槛极低
剪枝 ≠ 破坏安全: 反直觉地，正确的剪枝反而增强安全

局限性 / 可改进方向¶

校准样本只用 128 张 HOD 图片，样本选择对结果的敏感性未分析
只验证了 7B 规模模型，更大模型行为可能不同
安全子网络的位置是否跨模型一致？

实验关键数据¶

主实验（DSR%，Safety + 各种剪枝方法）¶

模型	方法	FigStep	MM-SafetyBench	JailbreakV	Avg
LLaVA-V1.6-7B	Vanilla+SP	82.0	91.5	60.4	78.0
LLaVA-V1.6-7B	Wanda (20%)	89.0	90.6	60.0	79.9
LLaVA-V1.6-7B	Ours (20%)	99.0	91.4	61.4	83.9
LLaVA-V1.6-7B	Wanda (50%)	57.2	82.2	71.8	70.4
LLaVA-V1.6-7B	Ours (50%)	89.2	92.0	69.3	83.5
Qwen2-VL-7B	Vanilla+SP	91.6	86.6	93.6	90.6
Qwen2-VL-7B	Wanda (50%)	77.2	95.8	96.4	89.8
Qwen2-VL-7B	Ours (50%)	100.0	99.4	98.2	99.2

消融: 不同规模模型¶

模型	方法	FigStep	MM-SafetyBench	JailbreakV	Avg
Qwen2-VL-2B	Vanilla+SP	69.4	95.9	83.2	82.8
Qwen2-VL-2B	Ours (20%)	69.0	95.9	85.4	83.4
LLaVA-V1.6-13B	Vanilla+SP	99.2	100.0	63.9	86.6
LLaVA-V1.6-13B	Ours (50%)	100.0	98.7	83.6	94.1

Utility 保持¶

20% 稀疏度下，各模型在 TextVQA/RealWorldQA/ScienceQA 上几乎无退化
50% 稀疏度下，Qwen2-VL 和 LLaVA 的 utility 与 Wanda 相当，但安全性远超
MMMU/MM-Vet/POPE 复杂任务：20% 下影响可忽略，50% 下有轻微退化但安全性大幅提升

关键发现¶

50% 稀疏仍能提升安全性: Qwen2-VL-7B 从 90.6% 提升到 99.2%——大量参数是"安全无关"的
t-SNE 可视化: 剪枝后 Safety/No-Safety embedding 分离更清晰，安全子网络被有效暴露
较大模型收益更大: 13B 模型 50% 剪枝后 DSR 从 86.6% 到 94.1%，2B 提升较小
架构影响: LLaVA 在 FigStep 50% 时有退化 (99.0→89.2)，Qwen2-VL 反而提升 (92.4→100.0)——安全子网络的剪枝容忍度因架构而异

亮点与洞察¶

Safety Subnetwork Hypothesis 有理论深度: 将剪枝从"压缩工具"重定义为"结构性安全干预"，用激活分析给出了实验支撑
One-shot、零重训: 部署门槛极低，只需 128 校准图片 + 一次前向传播
反直觉: 正确剪枝增强安全: 移除对安全提示不响应的权重 = 放大安全子网络的信号
嵌入空间验证: t-SNE 显示剪枝是在表示层面增强了安全/非安全的区分

局限性 / 可改进方向¶

校准样本只用 128 张 HOD 图片，样本选择对结果的敏感性未充分分析
只验证了 2B-13B 模型，30B+ 模型安全子网络位置是否一致未知
Safety prompt 选择对 sensitivity 有影响，最优 prompt 选择策略未探索
仅考虑图像 jailbreak，纯文本和多轮对话攻击待研究

评分¶

新颖性: ⭐⭐⭐⭐⭐ Safety Subnetwork Hypothesis 和 pruning-for-safety 的视角非常新颖
实验充分度: ⭐⭐⭐⭐ 3 模型 × 3 benchmark × 2 稀疏度 + utility + t-SNE
写作质量: ⭐⭐⭐⭐ 假说→验证→方法的逻辑链完整
价值: ⭐⭐⭐⭐⭐ 零成本安全增强，部署价值极高

Safety-Potential Pruning for Enhancing Safety Prompts Against VLM Jailbreaking Without Retraining¶

一句话总结¶

研究背景与动机¶

方法详解¶

Safety Subnetwork Hypothesis¶

Safety-Potential Pruning¶

关键设计动机¶

实验关键数据¶

主实验（DSR%，50% 稀疏度）¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

实验关键数据¶

主实验（DSR%，Safety + 各种剪枝方法）¶

消融: 不同规模模型¶

Utility 保持¶

关键发现¶

亮点与洞察¶

局限性 / 可改进方向¶

相关工作与启发¶

评分¶