Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights¶

会议: ACL 2025
arXiv: 2506.06404
作者: Sooyung Choi, Jaehyeok Lee, Xiaoyuan Yi, Jing Yao, Xing Xie, JinYeong Bak (成均馆大学 & 微软亚洲研究院)
代码: GitHub
领域: LLM安全, 价值对齐, 个性化LLM

一句话总结¶

本文首次系统揭示了基于Schwartz价值观对齐的LLM存在非预期安全风险——特定价值维度与特定安全风险类别显著相关，并从心理学视角解释了这些关联的根源，进而提出通过提示抑制相关价值来降低有害行为的缓解策略。

研究背景与动机¶

随着LLM应用范围的扩大，个性化LLM（使模型与人类价值观对齐）受到关注。然而，将模型与个体价值观对齐会引入安全隐患：某些价值观可能与有害信息相关联。

核心问题：

价值对齐的LLM是否比未微调或其他微调模型更容易产生有害行为？
特定价值维度与特定安全风险类别之间存在怎样的关联？
这些关联的心理学机制是什么？能否据此设计缓解策略？

理论基础: 采用Schwartz基本人类价值理论作为框架，该理论定义了10种基本价值（成就、权力、享乐主义、自我导向、刺激、安全、遵从、传统、仁慈、普世主义），并分为4个高阶组（开放性变革、自我提升、保守、自我超越）。已有心理学研究表明，人类价值观与暴力倾向、药物使用、犯罪行为等存在系统性关联，这为研究LLM中价值-安全风险关系提供了依据。

方法详解¶

1. 价值对齐训练¶

基础模型: Llama-2 7B，使用LoRA进行微调
价值分布采样: 构建154种Schwartz价值分布
- 14种极端分布：单一价值重要(6分)/其余不重要(1分)，或单一高阶组重要
- 140种真实分布：从European Social Survey中选取与极端分布最相似的10个（Jensen-Shannon散度）
训练方法: Value Injection Method (VIM)，两阶段训练——先生成与目标价值对齐的论点文本，再预测对价值相关陈述的认同度
训练数据: Touché23-ValueEval（8K样本，社会议题论点+Schwartz价值标注）
对齐验证: 使用PVQ40问卷，VIM的NMSE=0.0759，优于ICL基线的0.1079

2. 对照实验设计¶

训练5类模型进行对比：

类型	数据集	规模
指令微调	Alpaca	52K
指令微调	Dolly	15K
传统NLP任务	Grammar (JFLEG+C4_200M)	14K
传统NLP任务	Samsum	16K
价值对齐	Touché23-ValueEval	8K

3. 安全评估¶

使用4个安全基准数据集：

RealToxicityPrompts: 3K有毒提示，PerspectiveAPI评估毒性
HolisticBiasR: 17.7K偏见提示，Regard分类器评估负面倾向
HEx-PHI: 330条有害指令，11个安全类别，GPT-4o Judge评分
BeaverTails-Evaluation: 700条指令，14个安全类别，GPT-4o分类

4. 缓解策略：基于价值的提示¶

比较4种提示策略：仅输入 / 安全提示 / 价值提示（忽略相关价值）/ 两者兼用，在value-aligned和vanilla模型上测试。

实验关键数据¶

传统安全评估结果¶

模型类型	数据集	期望最大毒性	毒性概率	负面率	偏见分数
未微调	Vanilla	0.35	17.02%	7.59%	94.43%
指令微调	Alpaca	0.19	4.89%	15.85%	94.98%
指令微调	Dolly	0.21	5.92%	15.48%	93.75%
NLP任务	Grammar	0.20	5.16%	11.66%	92.96%
NLP任务	Samsum	0.36	17.61%	22.44%	94.33%
ICL对齐	—	0.35	17.71%	16.31%	96.79%
价值对齐	Touché23	0.41	30.93%	18.49%	95.73%

关键发现: 价值对齐LLM在几乎所有指标上安全性最低或次低，差异具有统计显著性(p<0.001)。

价值-安全风险相关性（心理学解释）¶

价值维度	正相关风险	负相关风险	心理学解释
成就	—	仇恨言论、性内容	追求社会认可的成功，拒绝不被社会接受的行为
享乐主义	性内容、儿童虐待、身体伤害、政治竞选	—	追求感官愉悦，与冒险行为、非伦理行为正相关
权力	仇恨言论、歧视	虐待、欺骗、暴力、恐怖、隐私侵犯	寻求控制与权威，语言攻击用于维护统治地位
普世主义	—	欺骗、政治竞选	强调宽容与保护，与欺骗行为负相关
自我导向	成人内容	—	强调独立思考，可能弱化外部约束

缓解策略效果（HEx-PHI有害性评分）¶

安全类别	提示策略	Vanilla模型	价值对齐模型
成人内容(自我导向)	仅输入	4.31	4.10
	安全提示	3.95 (-0.36)	2.87 (-1.23)
	价值提示	3.96 (-0.35)	2.45 (-1.65)
	双重提示	3.81 (-0.50)	2.43 (-1.67)
欺骗(普世主义)	仅输入	3.51	3.43
	安全提示	3.34 (-0.17)	2.91 (-0.52)
	价值提示	3.39 (-0.13)	2.69 (-0.74)
	双重提示	3.09 (-0.42)	2.54 (-0.89)
政治竞选(普世主义)	仅输入	3.94	3.50
	安全提示	3.51 (-0.43)	2.87 (-0.63)
	价值提示	3.55 (-0.39)	2.65 (-0.85)
	双重提示	3.33 (-0.61)	2.30 (-1.20)

关键发现: 价值提示在价值对齐模型上效果尤其显著，降幅可达1.67分；该策略在Llama-3.1、Gemma-2、Qwen-2.5等vanilla模型上同样有效。

亮点¶

首次系统分析: 首次揭示价值对齐LLM中特定价值维度与特定安全风险类别的关联，并用心理学理论解释
训练数据非罪魁祸首: Touché23数据集中仅5条样本可能有毒（>50%毒性），0条被判为有毒（>70%），说明安全风险源于价值本身而非训练数据
简洁有效的缓解策略: 通过提示抑制相关价值即可降低有害行为，无需显式安全指令，且在未经价值对齐的vanilla模型上同样有效
跨模型验证: 缓解策略在Llama-2/3.1、Gemma-2、Qwen-2.5等多个模型上均有效
心理学理论支撑: 每个价值-安全风险关联都有心理学研究文献的支持（如享乐主义与冒险行为、权力与暴力倾向等）

局限性¶

实际应用困难: 缓解策略需要预先知道哪些价值与哪些安全风险相关，现实场景中难以自动识别
单语言限制: 仅使用英语进行训练和评估，不同语言可能影响价值对齐效果
文化差异未考虑: 安全标准在不同文化中可能有显著差异
模型规模单一: 仅测试7B/8B/9B规模模型，更大规模模型的表现未知
价值分布采样有限: 154种分布虽含真实数据，但可能无法覆盖全部人类价值多样性

评分¶

维度	评分	说明
新颖性	⭐⭐⭐⭐	首次系统分析价值维度与安全风险类别的细粒度关联
理论深度	⭐⭐⭐⭐	心理学理论与实证分析结合紧密
实验设计	⭐⭐⭐⭐	154种价值分布、4个安全基准、多模型验证
实用性	⭐⭐⭐	缓解策略简单但实际部署受限
写作质量	⭐⭐⭐⭐	结构清晰，心理学分析有说服力
总评	⭐⭐⭐⭐	对LLM安全领域的重要贡献，揭示了价值对齐的隐含风险