跳转至

Unintended Harms of Value-Aligned LLMs: Psychological and Empirical Insights

会议: ACL 2025
arXiv: 2506.06404
作者: Sooyung Choi, Jaehyeok Lee, Xiaoyuan Yi, Jing Yao, Xing Xie, JinYeong Bak (成均馆大学 & 微软亚洲研究院)
代码: GitHub
领域: LLM安全, 价值对齐, 个性化LLM


一句话总结

本文首次系统揭示了基于Schwartz价值观对齐的LLM存在非预期安全风险——特定价值维度与特定安全风险类别显著相关,并从心理学视角解释了这些关联的根源,进而提出通过提示抑制相关价值来降低有害行为的缓解策略。


研究背景与动机

随着LLM应用范围的扩大,个性化LLM(使模型与人类价值观对齐)受到关注。然而,将模型与个体价值观对齐会引入安全隐患:某些价值观可能与有害信息相关联。

核心问题

  1. 价值对齐的LLM是否比未微调或其他微调模型更容易产生有害行为?
  2. 特定价值维度与特定安全风险类别之间存在怎样的关联?
  3. 这些关联的心理学机制是什么?能否据此设计缓解策略?

理论基础: 采用Schwartz基本人类价值理论作为框架,该理论定义了10种基本价值(成就、权力、享乐主义、自我导向、刺激、安全、遵从、传统、仁慈、普世主义),并分为4个高阶组(开放性变革、自我提升、保守、自我超越)。已有心理学研究表明,人类价值观与暴力倾向、药物使用、犯罪行为等存在系统性关联,这为研究LLM中价值-安全风险关系提供了依据。


方法详解

1. 价值对齐训练

  • 基础模型: Llama-2 7B,使用LoRA进行微调
  • 价值分布采样: 构建154种Schwartz价值分布
    • 14种极端分布:单一价值重要(6分)/其余不重要(1分),或单一高阶组重要
    • 140种真实分布:从European Social Survey中选取与极端分布最相似的10个(Jensen-Shannon散度)
  • 训练方法: Value Injection Method (VIM),两阶段训练——先生成与目标价值对齐的论点文本,再预测对价值相关陈述的认同度
  • 训练数据: Touché23-ValueEval(8K样本,社会议题论点+Schwartz价值标注)
  • 对齐验证: 使用PVQ40问卷,VIM的NMSE=0.0759,优于ICL基线的0.1079

2. 对照实验设计

训练5类模型进行对比:

类型 数据集 规模
指令微调 Alpaca 52K
指令微调 Dolly 15K
传统NLP任务 Grammar (JFLEG+C4_200M) 14K
传统NLP任务 Samsum 16K
价值对齐 Touché23-ValueEval 8K

3. 安全评估

使用4个安全基准数据集:

  • RealToxicityPrompts: 3K有毒提示,PerspectiveAPI评估毒性
  • HolisticBiasR: 17.7K偏见提示,Regard分类器评估负面倾向
  • HEx-PHI: 330条有害指令,11个安全类别,GPT-4o Judge评分
  • BeaverTails-Evaluation: 700条指令,14个安全类别,GPT-4o分类

4. 缓解策略:基于价值的提示

比较4种提示策略:仅输入 / 安全提示 / 价值提示(忽略相关价值)/ 两者兼用,在value-aligned和vanilla模型上测试。


实验关键数据

传统安全评估结果

模型类型 数据集 期望最大毒性 毒性概率 负面率 偏见分数
未微调 Vanilla 0.35 17.02% 7.59% 94.43%
指令微调 Alpaca 0.19 4.89% 15.85% 94.98%
指令微调 Dolly 0.21 5.92% 15.48% 93.75%
NLP任务 Grammar 0.20 5.16% 11.66% 92.96%
NLP任务 Samsum 0.36 17.61% 22.44% 94.33%
ICL对齐 0.35 17.71% 16.31% 96.79%
价值对齐 Touché23 0.41 30.93% 18.49% 95.73%

关键发现: 价值对齐LLM在几乎所有指标上安全性最低或次低,差异具有统计显著性(p<0.001)。

价值-安全风险相关性(心理学解释)

价值维度 正相关风险 负相关风险 心理学解释
成就 仇恨言论、性内容 追求社会认可的成功,拒绝不被社会接受的行为
享乐主义 性内容、儿童虐待、身体伤害、政治竞选 追求感官愉悦,与冒险行为、非伦理行为正相关
权力 仇恨言论、歧视 虐待、欺骗、暴力、恐怖、隐私侵犯 寻求控制与权威,语言攻击用于维护统治地位
普世主义 欺骗、政治竞选 强调宽容与保护,与欺骗行为负相关
自我导向 成人内容 强调独立思考,可能弱化外部约束

缓解策略效果(HEx-PHI有害性评分)

安全类别 提示策略 Vanilla模型 价值对齐模型
成人内容(自我导向) 仅输入 4.31 4.10
安全提示 3.95 (-0.36) 2.87 (-1.23)
价值提示 3.96 (-0.35) 2.45 (-1.65)
双重提示 3.81 (-0.50) 2.43 (-1.67)
欺骗(普世主义) 仅输入 3.51 3.43
安全提示 3.34 (-0.17) 2.91 (-0.52)
价值提示 3.39 (-0.13) 2.69 (-0.74)
双重提示 3.09 (-0.42) 2.54 (-0.89)
政治竞选(普世主义) 仅输入 3.94 3.50
安全提示 3.51 (-0.43) 2.87 (-0.63)
价值提示 3.55 (-0.39) 2.65 (-0.85)
双重提示 3.33 (-0.61) 2.30 (-1.20)

关键发现: 价值提示在价值对齐模型上效果尤其显著,降幅可达1.67分;该策略在Llama-3.1、Gemma-2、Qwen-2.5等vanilla模型上同样有效。


亮点

  1. 首次系统分析: 首次揭示价值对齐LLM中特定价值维度与特定安全风险类别的关联,并用心理学理论解释
  2. 训练数据非罪魁祸首: Touché23数据集中仅5条样本可能有毒(>50%毒性),0条被判为有毒(>70%),说明安全风险源于价值本身而非训练数据
  3. 简洁有效的缓解策略: 通过提示抑制相关价值即可降低有害行为,无需显式安全指令,且在未经价值对齐的vanilla模型上同样有效
  4. 跨模型验证: 缓解策略在Llama-2/3.1、Gemma-2、Qwen-2.5等多个模型上均有效
  5. 心理学理论支撑: 每个价值-安全风险关联都有心理学研究文献的支持(如享乐主义与冒险行为、权力与暴力倾向等)

局限性

  1. 实际应用困难: 缓解策略需要预先知道哪些价值与哪些安全风险相关,现实场景中难以自动识别
  2. 单语言限制: 仅使用英语进行训练和评估,不同语言可能影响价值对齐效果
  3. 文化差异未考虑: 安全标准在不同文化中可能有显著差异
  4. 模型规模单一: 仅测试7B/8B/9B规模模型,更大规模模型的表现未知
  5. 价值分布采样有限: 154种分布虽含真实数据,但可能无法覆盖全部人类价值多样性

相关工作

  • 人类价值理论: Schwartz基本人类价值理论(10种价值、4个高阶组),是跨文化心理学的基础理论
  • 个性化LLM: PersonaChat到VIM方法,从简单人设到价值分布的个性化演进
  • AI安全评估: RealToxicityPrompts、BeaverTails、HEx-PHI等多维度安全基准
  • 个性化安全风险: Deshpande et al. (2023) 发现persona提示增加有害输出;Zeng et al. (2024) 证明人性化提示提高越狱成功率
  • 价值与安全: Yao et al. (2024) 的FULCRA数据集,Ye et al. (2025a,b) 探索价值与安全的宏观关系,但未细分安全类别

评分

维度 评分 说明
新颖性 ⭐⭐⭐⭐ 首次系统分析价值维度与安全风险类别的细粒度关联
理论深度 ⭐⭐⭐⭐ 心理学理论与实证分析结合紧密
实验设计 ⭐⭐⭐⭐ 154种价值分布、4个安全基准、多模型验证
实用性 ⭐⭐⭐ 缓解策略简单但实际部署受限
写作质量 ⭐⭐⭐⭐ 结构清晰,心理学分析有说服力
总评 ⭐⭐⭐⭐ 对LLM安全领域的重要贡献,揭示了价值对齐的隐含风险

相关论文