Generative Psycho-Lexical Approach for Constructing Value Systems in Large Language Models¶

会议: ACL 2025
arXiv: 2502.02444
代码: 无
领域: LLM 价值观 / AI 安全
关键词: value system, psycho-lexical approach, LLM alignment, safety prediction, generative psychometrics

一句话总结¶

提出生成式心理词汇方法（GPLA），自动化构建面向LLM的五因素价值体系（社会责任、冒险性、规则遵循、自我效能、理性），在结构效度、安全预测和价值对齐上优于经典Schwartz人类价值体系。

研究背景与动机¶

领域现状: 价值观是驱动个体和集体行为的核心信念，LLM价值观评估、理解和对齐已成为AI安全领域的研究热点。
现有痛点: 现有研究主要基于为人类设计的Schwartz价值体系，缺乏一套心理学基础扎实的、专门面向LLM的价值体系。人类价值体系的10个维度在LLM上的CFA拟合度很差。
核心矛盾: 人类价值体系可能无法充分捕获LLM特有的价值维度，且传统心理词汇方法依赖大量人工标注和自我报告，偏差大且不可扩展。
本文要解决什么: 构建一套面向LLM的、数据驱动且有心理学理论基础的价值体系，并提供标准化的评估任务。
切入角度: 将传统心理词汇方法与LLM生成能力结合，实现全自动化的价值体系构建流程，避免人工标注。
核心idea一句话: 用LLM自动提取感知、识别价值、过滤冗余、非反应式测量并统计建模，构建LLM专属价值体系。

方法详解¶

整体框架¶

GPLA采用智能体框架，包含三个LLM智能体（感知解析器 \(M_P\)、价值生成器 \(M_G\)、价值评估器 \(M_E\)）和五个步骤：语料感知提取→价值识别→价值过滤→非反应式测量→PCA建模。语料来源包括ValueBench、GPV、BeaverTails和ValueLex，覆盖多样化的价值富含LLM输出。全流程自动化，无需人工干预。

关键设计¶

感知提取与价值识别: 从ValueBench、BeaverTails等语料中用 \(M_P\) 提取价值富含表达（perceptions），再用 \(M_G\)（Kaleido模型）映射到底层价值，记录频率。
价值过滤: 使用Rouge分数和embedding相似度去重，频率高的价值优先保留，确保词汇简洁且有代表性。
非反应式价值测量: 采用GPV方法对693个LLM主体（33个LLM × 21个profiling prompts）进行测量，避免自我报告偏差，然后用PCA提取隐因子。

损失函数 / 训练策略¶

对齐任务使用PPO，目标为最小化 \(|\mathbf{x}_V^* - M_E(p, r, V)|\)
安全预测使用Bradley-Terry模型的线性探针，优化pairwise交叉熵
CFA使用标准心理测量验证流程

实验关键数据¶

主实验（CFA结构效度）¶

价值体系	#Values	CFI↑	GFI↑	AIC↓	BIC↓
Schwartz (H)	4	0.56	0.52	340	1484
Schwartz (L)	10	0.23	0.22	324	1464
Ours	5	0.68	0.65	265	1145

消融实验（安全预测与对齐）¶

价值体系	安全预测准确率	对齐-Harmlessness↓	对齐-Helpfulness↑
Schwartz (H)	81±15%	-1.52	2.15
Schwartz (L)	74±16%	-1.40	2.13
Ours	87±9%	-1.26	2.16

关键发现¶

我们的价值体系在CFI（0.68 vs 0.56）、GFI（0.65 vs 0.52）、BIC（1145 vs 1484）上均显著优于Schwartz
安全预测标准差更小（9 vs 15），说明我们的体系更稳定可靠
五因素体系：Social Responsibility（α=0.957）、Risk-Taking（α=0.919）、Rule-Following（α=0.842）、Self-Competence（α=0.761）、Rationality（α=0.722），均超过0.7心理测量标准
社会责任、规则遵循和理性促进安全，冒险性和自我效能削弱安全
LLM价值一致性与安全分数高度相关（r=0.73）
跨数据集价值测量一致性达0.87

亮点与洞察¶

首次提出面向LLM的完整价值体系构建方法论，理论基础扎实（心理词汇假说）
GPLA全自动化流程解决了传统方法的人工成本和偏差问题
三个benchmark任务（CFA、安全预测、价值对齐）构成完整的评估体系
相比Schwartz价值体系，在所有任务上均有显著提升
五因素结构清晰且可解释：社会责任vs冒险性形成对立轴（circumplex analysis验证）
非反应式测量避免了自我报告偏差，测量结果更可靠
发现LLM价值一致性与安全性正相关（r=0.73），为安全评估提供新视角
693个LLM主体（33模型×21 profiling prompts）的大规模测量保证了统计可靠性

局限性 / 可改进方向¶

个体因子的Cronbach's Alpha（Rationality=0.722）接近阈值，可进一步优化原子价值的选择
语料来源有限（ValueBench、BeaverTails等），可扩展到更多样化的LLM输出场景
价值体系的动态演化（随模型版本迭代更新）未考虑
跨文化验证不足——价值体系可能因训练数据的文化偏差而偏向西方价值观
GPLA依赖三个LLM智能体的质量，不同模型选择可能影响最终价值体系
未探索价值冲突（如社会责任vs自我效能）在具体任务中的表现

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次系统性提出LLM价值体系构建方法论，心理学+AI跨学科融合
实验充分度: ⭐⭐⭐⭐ 三个benchmark全面验证，但缺少更大规模模型实验
写作质量: ⭐⭐⭐⭐ 结构清晰，理论与实验结合紧密，图示形象
价值: ⭐⭐⭐⭐⭐ 对LLM安全与对齐领域有重要理论和实践贡献
总评: 开创性工作，为LLM价值观研究提供了新的基础设施（方法论+价值体系+评估任务）
实用性: 价值体系可直接用于LLM部署前的安全评估，结合linear probe即可预测安全性
复现性: 方法流程清晰，但依赖多个专用模型（Kaleido, ValueLlama）
延伸性: GPLA可应用于其他心理学构建（如AI人格体系、态度体系）
开放问题: 价值体系是否应随模型迭代动态更新？如何处理价值冒突？
跨学科价值: 连接了心理学测量理论与AI安全实践，为交叉研究开辟了新方向
关键数字: 693个LLM主体、33个模型、21个prompt、5个价值因子、25个原子价值
方法论贡献: GPLA的五步流程可复用于构建其他领域的心理构念体系
实际影响: 可帮助模型开发者在训练前评估和调整LLM的内在价值取向