ValuePilot: A Two-Phase Framework for Value-Driven Decision-Making¶

会议: NeurIPS 2025 arXiv: 2512.13716 代码: 未公开领域: llm_nlp 关键词: value-driven decision-making, personalized AI, PROMETHEE, multi-criteria decision-making, human values

一句话总结¶

提出 ValuePilot 两阶段框架，通过数据集生成工具包（DGT）构建价值标注场景，再用决策模块（DMM）结合用户个性化价值偏好进行多准则决策，在与人类决策对齐方面超过 GPT-5 等强基线。

研究背景与动机¶

个性化决策是人机交互中的核心需求：AI 智能体需要根据用户的个人价值偏好（而非仅任务目标）来调整行为。人类决策受内在价值观驱动，如 Schwartz 的基本人类价值理论和 Maslow 层次需求理论。然而现有 AI 决策范式存在明显不足：

RLHF/DPO 方法：依赖聚合反馈，忽略个体间差异，无法捕捉精细化的价值维度
结构化规划方法（如 ReAct、AutoPlan）：聚焦任务效率，不建模内在价值
数据集缺乏：ALFWorld、InterCode 只关注任务完成；WVS、Moral Stories 缺乏决策场景与价值维度的显式关联

核心挑战有两个：(1) 识别给定场景中哪些价值维度是相关的；(2) 在多个价值维度间进行权衡，选出与个人偏好对齐的行动。

方法详解¶

整体框架¶

ValuePilot 包含两个核心组件：

DGT (Dataset Generation Toolkit)：通过 LLM 自动生成价值标注的决策场景
DMM (Decision-Making Module)：学习评估行动与价值的对齐度，结合个人偏好生成行动排序

关键设计一：DGT 数据生成管线¶

DGT 的 Task Specifier 采用三阶段流水线：

提示构造与场景生成：给定目标价值维度集合，构造模块化提示让 GPT-4 生成多智能体家庭场景，隐式编码价值维度但避免直接提及关键词
行动生成与价值评分：对每个场景生成 10 种候选行动，每个行动在各价值维度上标注 \([-1, +1]\) 的连续分数（-1 表示强烈违背，0 表示中性，+1 表示强烈对齐）
自动过滤与再评估：通过独立 GPT-4 会话重新推断场景的价值维度，若与目标集合不一致则丢弃

数据经过人工审核（4 人团队，涵盖 AI 和心理学背景），确保场景真实性、行动连贯性和价值对齐质量。

关键设计二：Value Assessment Network¶

采用 T5 编码器处理场景和行动描述，通过多头自注意力机制捕捉语义关系。具体流程：

编码场景和行动为 \(H \times L \times b\) 的隐藏状态
4 头自注意力后平均池化，送入两层 MLP（隐藏维度 128）
通过 tanh 激活输出 \([-1, 1]\) 范围的价值维度分数

关键设计三：Action Selection Module¶

分两步完成个性化决策：

步骤一：情境化评分（Contextualized Scoring）

首先对用户原始偏好向量 \(\mathbf{p}\) 进行 sigmoid 变换以处理人类评分的中间偏好倾向：

\[p'_j = \frac{1}{1 + e^{-(p_j - 0.5) \times 10}}\]

然后计算偏好差异分数：

\[d^s_j = 1 - ||\rho^s_j| - p'_j|, \quad d^{a_i}_j = 1 - ||\rho^{a_i}_j| - p'_j|\]

整合客观分数与差异分数：

\[r^s_j = w \cdot d^s_j + (1-w) \cdot \rho^s_j, \quad r^{a_i}_j = w \cdot d^{a_i}_j + (1-w) \cdot \rho^{a_i}_j\]

其中 \(w=0.3\) 平衡主观偏好与客观价值。最终通过场景相关性缩放：

\[r_{i,j} = \frac{1}{1 + e^{-|r^s_j|}} \times r^{a_i}_j\]

步骤二：PROMETHEE 多准则决策

将行动选择构建为多准则决策问题。对行动 \(i\) 和 \(i'\) 在维度 \(j\) 上计算偏好度：

\[V_{ii',j} = \frac{1}{1 + e^{-(r_{i,j} - r_{i',j})}}\]

用用户偏好加权聚合：

\[\tilde{V}_{ii'} = \sum_{j=1}^{m} p'_j \cdot V_{ii',j}\]

最终排名分数为净超越流：

\[\phi_i = \phi^+_i - \phi^-_i = \frac{1}{N-1}\sum_{i' \neq i} \tilde{V}_{ii'} - \frac{1}{N-1}\sum_{i' \neq i} \tilde{V}_{i'i}\]

训练策略¶

选择 6 个核心价值维度：好奇心、活力、安全、幸福、亲密、公平
数据集经 DGT 生成和人工筛选后包含 11,938 个场景和 100,255 个行动
采用六层级层次结构（1D 到 6D），逐步增加价值维度组合复杂度
自动过滤去除 12%-25% 的样本，人工进一步精炼

实验关键数据¶

主实验一：价值识别（Value Recognition）¶

模型	AvgAcc(t=0.2)	AvgAcc(t=0.05)	MAE
Llama-3.5-70b	40.90%	17.74%	0.30
Llama-3.5-405b	41.62%	18.00%	0.29
Mixtral-8x22b	42.71%	18.39%	0.29
Gemini-1.5-Flash	51.61%	25.64%	0.24
Value Assessment Network	66.70%	40.00%	0.19

在 t=0.2 阈值下超过最强基线 15.09 个百分点，MAE 相对误差降低 36.7%。

主实验二：价值驱动决策（人类对齐）¶

模型	OS-Sim	First-Acc
Llama-3.1-70b	~65%	~35%
GPT-4o-mini	~67%	~36%
Claude-Sonnet-4	~68%	~37%
GPT-5	69.23%	38.01%
DMM (Ours)	73.16%	46.14%

DMM 在 OS-Sim 上超过 GPT-5 约 3.93%，First-Action Accuracy 超过 8.13%。

消融实验¶

变体	OS-Sim	First-Acc
Only Action（无场景无偏好）	60.23%	32.27%
w/o Preference（无个人偏好）	61.07%	31.82%
w/o Subjective（无主观调整）	68.93%	43.45%
w/o Scenario（无场景缩放）	69.99%	43.64%
DMM (Full)	73.16%	46.14%

关键发现¶

个人偏好至关重要：去除偏好后性能骤降超 12 个百分点（OS-Sim），验证了个性化建模的必要性
场景上下文有效：去除场景缩放损失约 3% OS-Sim，说明情境化评分对决策质量有正向贡献
显式价值建模优于隐式：DMM 通过显式价值维度建模超越了依赖隐式模式学习的 LLM，尤其在 First-Acc 上优势明显
在严格阈值下优势放大：t=0.05 时模型超过基线 14.36 个百分点，表明更能捕捉细微的价值区分

亮点与洞察¶

将价值观作为稳定的可迁移信号：相比任务导向范式，价值驱动方法在新场景中更具泛化性和可解释性
PROMETHEE 的巧妙引入：将传统多准则决策方法与深度学习结合，为价值权衡提供了理论支撑的排序机制
人机协作数据生成：DGT 的自动生成+自动过滤+人工审核三阶段管线，兼顾数据规模和质量
连续双极评分系统：\([-1, +1]\) 的评分设计比二元标签更能表达行动与价值的微妙关系
Sigmoid 偏好变换：优雅地处理了人类评分的中间倾向偏差

局限性 / 可改进方向¶

价值维度有限：仅用 6 个维度，现实中人类价值体系远更复杂（如隐私、创造力、自主性等）
领域局限：实验集中在家庭场景，未验证在职场、医疗等高风险场景的表现
数据依赖 GPT-4 生成：合成数据可能存在分布偏差，对模型鲁棒性有潜在影响
人类评估规模小：仅 40 名受试者、11 个正式场景，统计效力有限
静态偏好模型：未考虑用户偏好随时间和上下文变化的动态性
可扩展性存疑：PROMETHEE 的成对比较复杂度为 \(O(N^2 \times m)\)，候选行动数多时可能成为瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ — 将心理学价值理论与 MCDM 方法结合应用于 AI 个性化决策，视角新颖
实验充分度: ⭐⭐⭐ — 价值识别和人类对齐两个维度的评估合理，但人类研究规模较小
写作质量: ⭐⭐⭐⭐ — 框架描述清晰，公式推导完整，动机论述充分
价值: ⭐⭐⭐⭐ — 为 AI 个性化对齐提供了超越 RLHF 的新路径，方法可扩展性强