Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights¶
会议: ACL 2025
arXiv: 2506.06404
作者: Sooyung Choi, Jaehyeok Lee, Xiaoyuan Yi, Jing Yao, Xing Xie, JinYeong Bak (成均馆大学 & 微软亚洲研究院)
代码: GitHub
领域: LLM安全, 价值对齐, 个性化LLM
一句话总结¶
本文首次系统揭示了基于Schwartz价值观对齐的LLM存在非预期安全风险——特定价值维度与特定安全风险类别显著相关,并从心理学视角解释了这些关联的根源,进而提出通过提示抑制相关价值来降低有害行为的缓解策略。
研究背景与动机¶
随着LLM应用范围的扩大,个性化LLM(使模型与人类价值观对齐)受到关注。然而,将模型与个体价值观对齐会引入安全隐患:某些价值观可能与有害信息相关联。
核心问题:
- 价值对齐的LLM是否比未微调或其他微调模型更容易产生有害行为?
- 特定价值维度与特定安全风险类别之间存在怎样的关联?
- 这些关联的心理学机制是什么?能否据此设计缓解策略?
理论基础: 采用Schwartz基本人类价值理论作为框架,该理论定义了10种基本价值(成就、权力、享乐主义、自我导向、刺激、安全、遵从、传统、仁慈、普世主义),并分为4个高阶组(开放性变革、自我提升、保守、自我超越)。已有心理学研究表明,人类价值观与暴力倾向、药物使用、犯罪行为等存在系统性关联,这为研究LLM中价值-安全风险关系提供了依据。
方法详解¶
1. 价值对齐训练¶
- 基础模型: Llama-2 7B,使用LoRA进行微调
- 价值分布采样: 构建154种Schwartz价值分布
- 14种极端分布:单一价值重要(6分)/其余不重要(1分),或单一高阶组重要
- 140种真实分布:从European Social Survey中选取与极端分布最相似的10个(Jensen-Shannon散度)
- 训练方法: Value Injection Method (VIM),两阶段训练——先生成与目标价值对齐的论点文本,再预测对价值相关陈述的认同度
- 训练数据: Touché23-ValueEval(8K样本,社会议题论点+Schwartz价值标注)
- 对齐验证: 使用PVQ40问卷,VIM的NMSE=0.0759,优于ICL基线的0.1079
2. 对照实验设计¶
训练5类模型进行对比:
| 类型 | 数据集 | 规模 |
|---|---|---|
| 指令微调 | Alpaca | 52K |
| 指令微调 | Dolly | 15K |
| 传统NLP任务 | Grammar (JFLEG+C4_200M) | 14K |
| 传统NLP任务 | Samsum | 16K |
| 价值对齐 | Touché23-ValueEval | 8K |
3. 安全评估¶
使用4个安全基准数据集:
- RealToxicityPrompts: 3K有毒提示,PerspectiveAPI评估毒性
- HolisticBiasR: 17.7K偏见提示,Regard分类器评估负面倾向
- HEx-PHI: 330条有害指令,11个安全类别,GPT-4o Judge评分
- BeaverTails-Evaluation: 700条指令,14个安全类别,GPT-4o分类
4. 缓解策略:基于价值的提示¶
比较4种提示策略:仅输入 / 安全提示 / 价值提示(忽略相关价值)/ 两者兼用,在value-aligned和vanilla模型上测试。
实验关键数据¶
传统安全评估结果¶
| 模型类型 | 数据集 | 期望最大毒性 | 毒性概率 | 负面率 | 偏见分数 |
|---|---|---|---|---|---|
| 未微调 | Vanilla | 0.35 | 17.02% | 7.59% | 94.43% |
| 指令微调 | Alpaca | 0.19 | 4.89% | 15.85% | 94.98% |
| 指令微调 | Dolly | 0.21 | 5.92% | 15.48% | 93.75% |
| NLP任务 | Grammar | 0.20 | 5.16% | 11.66% | 92.96% |
| NLP任务 | Samsum | 0.36 | 17.61% | 22.44% | 94.33% |
| ICL对齐 | — | 0.35 | 17.71% | 16.31% | 96.79% |
| 价值对齐 | Touché23 | 0.41 | 30.93% | 18.49% | 95.73% |
关键发现: 价值对齐LLM在几乎所有指标上安全性最低或次低,差异具有统计显著性(p<0.001)。
价值-安全风险相关性(心理学解释)¶
| 价值维度 | 正相关风险 | 负相关风险 | 心理学解释 |
|---|---|---|---|
| 成就 | — | 仇恨言论、性内容 | 追求社会认可的成功,拒绝不被社会接受的行为 |
| 享乐主义 | 性内容、儿童虐待、身体伤害、政治竞选 | — | 追求感官愉悦,与冒险行为、非伦理行为正相关 |
| 权力 | 仇恨言论、歧视 | 虐待、欺骗、暴力、恐怖、隐私侵犯 | 寻求控制与权威,语言攻击用于维护统治地位 |
| 普世主义 | — | 欺骗、政治竞选 | 强调宽容与保护,与欺骗行为负相关 |
| 自我导向 | 成人内容 | — | 强调独立思考,可能弱化外部约束 |
缓解策略效果(HEx-PHI有害性评分)¶
| 安全类别 | 提示策略 | Vanilla模型 | 价值对齐模型 |
|---|---|---|---|
| 成人内容(自我导向) | 仅输入 | 4.31 | 4.10 |
| 安全提示 | 3.95 (-0.36) | 2.87 (-1.23) | |
| 价值提示 | 3.96 (-0.35) | 2.45 (-1.65) | |
| 双重提示 | 3.81 (-0.50) | 2.43 (-1.67) | |
| 欺骗(普世主义) | 仅输入 | 3.51 | 3.43 |
| 安全提示 | 3.34 (-0.17) | 2.91 (-0.52) | |
| 价值提示 | 3.39 (-0.13) | 2.69 (-0.74) | |
| 双重提示 | 3.09 (-0.42) | 2.54 (-0.89) | |
| 政治竞选(普世主义) | 仅输入 | 3.94 | 3.50 |
| 安全提示 | 3.51 (-0.43) | 2.87 (-0.63) | |
| 价值提示 | 3.55 (-0.39) | 2.65 (-0.85) | |
| 双重提示 | 3.33 (-0.61) | 2.30 (-1.20) |
关键发现: 价值提示在价值对齐模型上效果尤其显著,降幅可达1.67分;该策略在Llama-3.1、Gemma-2、Qwen-2.5等vanilla模型上同样有效。
亮点¶
- 首次系统分析: 首次揭示价值对齐LLM中特定价值维度与特定安全风险类别的关联,并用心理学理论解释
- 训练数据非罪魁祸首: Touché23数据集中仅5条样本可能有毒(>50%毒性),0条被判为有毒(>70%),说明安全风险源于价值本身而非训练数据
- 简洁有效的缓解策略: 通过提示抑制相关价值即可降低有害行为,无需显式安全指令,且在未经价值对齐的vanilla模型上同样有效
- 跨模型验证: 缓解策略在Llama-2/3.1、Gemma-2、Qwen-2.5等多个模型上均有效
- 心理学理论支撑: 每个价值-安全风险关联都有心理学研究文献的支持(如享乐主义与冒险行为、权力与暴力倾向等)
局限性¶
- 实际应用困难: 缓解策略需要预先知道哪些价值与哪些安全风险相关,现实场景中难以自动识别
- 单语言限制: 仅使用英语进行训练和评估,不同语言可能影响价值对齐效果
- 文化差异未考虑: 安全标准在不同文化中可能有显著差异
- 模型规模单一: 仅测试7B/8B/9B规模模型,更大规模模型的表现未知
- 价值分布采样有限: 154种分布虽含真实数据,但可能无法覆盖全部人类价值多样性
相关工作¶
- 人类价值理论: Schwartz基本人类价值理论(10种价值、4个高阶组),是跨文化心理学的基础理论
- 个性化LLM: PersonaChat到VIM方法,从简单人设到价值分布的个性化演进
- AI安全评估: RealToxicityPrompts、BeaverTails、HEx-PHI等多维度安全基准
- 个性化安全风险: Deshpande et al. (2023) 发现persona提示增加有害输出;Zeng et al. (2024) 证明人性化提示提高越狱成功率
- 价值与安全: Yao et al. (2024) 的FULCRA数据集,Ye et al. (2025a,b) 探索价值与安全的宏观关系,但未细分安全类别
评分¶
| 维度 | 评分 | 说明 |
|---|---|---|
| 新颖性 | ⭐⭐⭐⭐ | 首次系统分析价值维度与安全风险类别的细粒度关联 |
| 理论深度 | ⭐⭐⭐⭐ | 心理学理论与实证分析结合紧密 |
| 实验设计 | ⭐⭐⭐⭐ | 154种价值分布、4个安全基准、多模型验证 |
| 实用性 | ⭐⭐⭐ | 缓解策略简单但实际部署受限 |
| 写作质量 | ⭐⭐⭐⭐ | 结构清晰,心理学分析有说服力 |
| 总评 | ⭐⭐⭐⭐ | 对LLM安全领域的重要贡献,揭示了价值对齐的隐含风险 |
相关论文¶
- [ACL 2025] Zero-Shot Belief: A Hard Problem for LLMs
- [ACL 2025] Can LLMs Interpret and Leverage Structured Linguistic Representations? A Case Study with AMRs
- [ACL 2025] Refining Salience-Aware Sparse Fine-Tuning Strategies for Language Models
- [ACL 2025] Do Language Models Mirror Human Confidence? Exploring Psychological Insights to Address Overconfidence in LLMs
- [ACL 2025] LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks