Comparing Moral Values in Western English-speaking Societies and LLMs with Word Associations¶

会议: ACL 2025
arXiv: 2505.19674
代码: https://github.com/ChunhuaLiu596/Word_Association_Generation
领域: AI Safety / Moral Alignment
关键词: moral values, word association, Moral Foundation Theory, mental lexicon, LLM alignment

一句话总结¶

提出通过词语联想（word association）而非直接提问来比较 LLM 与西方英语社会的道德价值观，发现 LLM 在正面道德维度上与人类更一致，但在情感多样性和具体性上存在系统性差异。

研究背景与动机¶

随着 LLM 日益广泛部署，理解其反映的道德价值观变得越来越重要。但直接用道德问卷提示 LLM 面临多重问题：（1）道德问卷可能泄露到 LLM 训练数据中（Abdulhai et al., 2023）；（2）LLM 对提示措辞敏感，回答不稳定（Almeida et al., 2024）；（3）二元回答（同意/不同意）无法捕捉细微的道德推理；（4）LLM 的 next-token prediction 本质使得直接评估道德判断本身就存在概念困难。作者提出利用词语联想测试——一种在心理学中已被证明能反映道德推理的低层次认知范式——来更鲁棒地探测 LLM 的道德概念组织方式。词语联想的优势在于它不直接询问道德立场，而是通过概念关联间接推断。

方法详解¶

整体框架¶

两阶段框架：

词语联想图构建：从人类和 LLM 分别收集 12K cue 词的联想响应，构建两个独立的联想图。
人类联想图（wa-h）：来自 Small World of Words 数据集
LLM 联想图（wa-l）：通过提示 Llama 生成
道德信息传播：基于 Moral Foundation Theory (MFT) 的 626 个种子词，通过随机游走在联想图中传播 5 维道德值，得到两个 Global Moral Network（gmn-h 和 gmn-l），然后进行系统性对比分析。

关键设计¶

词语联想采集：使用 Llama-3.1-8B-Instruct 模型，对 12K cue 每个提示 100 次（Monte-Carlo 近似），每次生成最多 3 个联想词。采用与人类实验 (Small World of Words, ~90K 参与者) 完全相同的指令，确保实验的可比性。
温度调优：平衡多样性（response types 种类数）和可靠性（split-half reliability），最终选定 temperature=2.1 使 wa-l 的多样性和可靠性均趋近 wa-h。
Global Moral Network：用带归一化的随机游走传播道德信息：F_{t+1} = αSF_t + (1-α)F_0，其中 S 是对称归一化邻接矩阵，F_0 包含 MFD 种子词的 5 维道德值（Care, Fairness, Loyalty, Authority, Sanctity）。
Alpha 优化：gmn-h 最佳 α=0.75，gmn-l 最佳 α=0.9。人类图需要更小的 α（信息传播更容易），因为人类图直径更小（3 vs 4）、密度更高（0.013 vs 0.007）、连通性更强（114 vs 77）。这意味着 LLM 的概念网络更稀疏，需要更强的传播力才能将道德信息传递到远处节点。
评估方式：使用 eMFD（众包扩展版道德词典，包含 2186 个评估词）的 Spearman 相关系数评估，对比 MAG baseline。为避免数据泄露，从评估集中划出 277 个词用于调参。

损失函数 / 训练策略¶

本文不涉及模型训练。使用已有的 Llama-3.1-8B-Instruct（15T token 预训练 + RLHF），关键超参数： - 联想生成温度 T=2.1 - 传播参数 α（gmn-h: 0.75, gmn-l: 0.9）

实验关键数据¶

主实验¶

道德值预测（Spearman 相关）与 eMFD 对比：

道德维度	MAG (baseline)	gmn-h (人类图)	gmn-l (LLM图)
Care (n=1895)	0.29	0.47	0.46
Sanctity (n=1893)	0.25	0.39	0.44
Fairness (n=1514)	0.23	0.29	0.32
Authority (n=1737)	0.21	0.19	0.25
Loyalty (n=1714)	0.30	0.26	0.30
总体 (n=8753)	0.20	0.28	0.29

gmn-l 在 4/5 维度上优于 gmn-h，gmn-h 仅在 Care 上略优。两者均大幅超越 MAG baseline。

联想重叠度：wa-l 在 top-1 联想上与 wa-h 几乎完全一致（Precision@1 ≈ 100%），top-10 保持约 80% 的精度，优于 Word2Vec baseline。Word2Vec 在小 k 时精度尤其差，说明联想任务不等同于简单的语义相似度。平均关联强度相关性也由 wa-l 显著优于 Word2Vec。

关键发现¶

正面道德一致性高于负面：LLM 与人类在正面道德概念（如 church, religion, God 等）上高度一致，但在负面道德概念上出现分歧（如人类产生 "betrayal, cheating" 等更情感化的响应，LLM 产生 "prejudice, discrimination" 等更抽象的响应）。
人类联想更具体、更情感化：例如 "prejudice" 人类联想 "pride, black, race, racist"（具体种族关联），LLM 联想 "stereotypes, biases, stereotyping, bigoted"（抽象概念关联）。
系统性差异概念揭示价值取向：LLM 将 "abortion, immigrant, politician" 等概念评为更正面，而人类将 "jail, air, plastic" 等评为更正面，反映出 LLM 可能在训练中吸收了特定的社会价值倾向。
全局传播优于局部方法：基于全局图传播的 gmn 相比 MAG 的局部子图方法，更好地捕获了远距离的道德关联，相关性提升 0.08-0.18。
LLM 联想更抽象：人类用具体实例联想道德概念（如 "church" → "catholic, synagogue, stone"），LLM 倾向产生范畴/功能性联想（如 "church" → "altar, minister, baptism, service"），反映不同的概念组织方式。

亮点与洞察¶

方法论创新：将词语联想这一心理学经典范式应用于 LLM 道德评估，巧妙回避了直接提问的各种偏差问题（训练数据泄露、提示敏感性、社会期望偏差）。
全局道德网络是对 MAG 局部方法的重要改进，能够捕获更复杂的远距离道德推理，相关性平均提升 0.08-0.09。
温度调优方法：同时优化多样性和可靠性两个指标，确保 LLM 联想数据与人类数据具有可比性，这一方法论贡献可推广到其他需要 LLM 模拟人类行为的研究。
图结构差异有解释力：人类图更密集→传播更容易→需要更小的 α，这一发现揭示了人类和 LLM 概念组织方式的结构性差异。
定性分析揭示深层差异：如 LLM 将 "abortion" 和 "immigrant" 评为更正面，而人类图中这些概念的道德判断更中性或负面，暗示 RLHF 训练可能引入了特定的价值倾向。
间接探测比直接提问更可靠：避免了"社会期望效应"（LLM 倾向于给出社会可接受的答案），为 AI 对齐研究提供了更真实的道德画像。

局限性¶

仅使用 Llama-3.1-8B-Instruct 一个模型，未验证不同 LLM（GPT、Claude 等）的差异。
聚焦于西方英语文化，不能推广到其他文化和语言。
MFT 本身作为道德框架存在争议（如 fairness 维度的拆分问题），且种子词数量有限（626 个）。
联想实验的 Monte-Carlo 近似（100 次重复）是否充分未严格验证。
随机游走传播可能受图中 hub 节点（高度连接的通用词）影响，这些词可能稀释道德信号。
Precision@k 在 k>10 后下降明显，说明 LLM 的联想长尾分布与人类仍有差距。

评分¶

新颖性: 5/5 — 词语联想 + 全局道德网络的方法论组合非常新颖
技术深度: 4/5 — 随机游走传播、温度调优、图结构分析等技术扎实
实验充分性: 3/5 — 仅一个 LLM，跨模型泛化性未知
实用价值: 4/5 — 为 LLM 道德对齐提供了新的评估范式
推荐指数: ⭐⭐⭐⭐