HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation¶

会议: ACL 2026
arXiv: 2604.10048
代码: https://anonymous.4open.science/r/HARPO-D881
领域: 推荐系统
关键词: 对话推荐, Agent推理, 偏好优化, 树搜索, 推荐质量

一句话总结¶

提出 HARPO 框架，将对话推荐重新定义为以推荐质量为优化目标的结构化决策问题，通过层次化偏好学习、基于价值网络的树搜索推理、虚拟工具操作和多智能体精炼四大组件，在 ReDial、INSPIRED 和 MUSE 三个基准上显著超越现有方法。

研究背景与动机¶

领域现状：对话推荐系统（CRS）旨在通过自然语言交互帮助用户发现匹配偏好的物品。近年来，基于大语言模型的 CRS 方法在 Recall@K、BLEU 等代理指标上取得了强劲表现。

现有痛点：高代理指标分数并不意味着高质量的用户对齐推荐。现有方法主要优化检索准确率、生成流畅度或工具调用等中间目标，而非推荐质量本身。例如"something casual for a summer wedding"可能被误解为日常休闲装而非场合适宜的婚礼服装，此类回复在自动指标上得分高但用户满意度低。

核心矛盾：CRS 训练和评估目标（代理指标）与实际推荐质量之间存在根本性不对齐。代理指标只与用户对齐推荐质量弱相关。

本文目标：将对话推荐建模为显式优化推荐质量的结构化决策问题，而非将推荐质量视为响应生成的副产品。

切入角度：作者从决策推理视角出发，认为系统应该显式推理多个候选推荐策略、评估其预期质量，并基于用户对齐标准（而非代理信号）选择推荐。

核心 idea：通过分层偏好学习将推荐质量分解为可解释维度（相关性、多样性、满意度、参与度），用学习的价值网络引导树搜索推理探索候选推荐路径。

方法详解¶

整体框架¶

HARPO 由四个组件组成：STAR（结构化树搜索推理）、CHARM（对比层次化奖励对齐）、BRIDGE（跨域迁移）和 MAVEN（多智能体精炼），共享一个预训练语言模型骨干。输入为对话上下文，输出为包含推荐的响应，优化目标为推荐质量 \(\mathcal{Q}\) 而非代理指标。

关键设计¶

STAR: 结构化思维树推理:
- 功能：通过树搜索显式探索多个候选推荐策略，选择质量最高的路径
- 核心思路：每个推理节点表示为 \(s=(\mathbf{h}, \tau, \mathbf{v}, d)\)，包含对话上下文编码、当前思考、预测的虚拟工具操作和搜索深度。价值网络将质量分解为四个维度（相关性、多样性、满意度、参与度），各维度由专用头预测并通过可学习权重加权。在每个节点生成 \(b\) 个候选下一步，用束搜索选择最优路径。
- 设计动机：与直接生成推荐不同，树搜索允许系统在生成最终回复前探索、比较和精炼推荐决策
CHARM: 对比层次化奖励对齐:
- 功能：将推荐质量分解为可解释维度并学习上下文相关的维度权重
- 核心思路：每个质量维度由专用奖励头建模 \(R_k(\mathbf{h}) = \tanh(\mathbf{W}_k^{(2)} \cdot \text{GELU}(\mathbf{W}_k^{(1)} \cdot \mathbf{h}))\)，输出限制在 \([-1,1]\)。通过元学习方式学习上下文依赖权重 \(\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{meta}} \cdot [\text{Enc}(\mathbf{h}); \mathbf{e}_d] + \mathbf{b})\)。使用基于边际的偏好优化损失训练。
- 设计动机：不同对话上下文和领域下各质量维度的重要性不同，自适应加权避免了单一标量奖励的信息丢失
BRIDGE: 跨域迁移与 VTO 抽象:
- 功能：通过虚拟工具操作（VTO）和对抗域适应实现跨领域推荐推理迁移
- 核心思路：使用梯度反转层进行对抗域适应学习域不变表示，同时引入可学习域门控 \(\mathbf{z}' = \sigma(\mathbf{g}_d) \odot \mathbf{z} + (1-\sigma(\mathbf{g}_d)) \odot \mathbf{h}\) 保留有用的域特定信号。VTO 将高层推理操作与具体工具解耦，运行时动态映射。
- 设计动机：现有工具增强方法紧耦合于特定领域的工具实现，限制了可迁移性

损失函数¶

总损失包含偏好优化损失 \(\mathcal{L}_{\text{pref}}\)、域适应损失 \(\mathcal{L}_{\text{domain}}\)、任务保持损失 \(\mathcal{L}_{\text{task}}\) 和智能体一致性损失 \(\mathcal{L}_{\text{agree}}\)。

实验关键数据¶

主实验¶

在 ReDial 数据集上的推荐性能：

方法	R@1	R@10	R@50	MRR@10	User Sat.	Engage.
KBRD	2.9	16.7	36.2	7.4	0.42	0.38
UniCRS	3.8	18.1	37.4	8.4	0.45	0.41
GPT-4	—	—	—	—	—	—
HARPO	最优	最优	最优	最优	最优	最优

消融实验¶

配置	关键指标	说明
Full HARPO	最优	完整模型
w/o STAR	下降显著	去掉树搜索推理
w/o CHARM	下降明显	去掉层次化偏好优化
w/o BRIDGE	跨域下降	去掉域迁移模块
w/o MAVEN	轻微下降	去掉多智能体精炼

关键发现¶

HARPO 相比最强基线（GPT-4）平均提升 17-21%，在用户对齐指标上提升更大
在 INSPIRED 数据集上提升最大（R@10 比 GPT-4 高 45.7%），因为社交对话需要推理隐式偏好
人工评估确认推荐质量、解释质量和整体评分均显著优于 GPT-4（+0.55, +0.50, +0.55）
CHARM 奖励模型与独立人工评判的 Pearson 相关系数达 0.64-0.73

亮点与洞察¶

指出代理指标与推荐质量的不对齐是 CRS 领域的根本问题，这一洞察具有范式转换意义
VTO 抽象将推理逻辑与具体工具解耦，类似软件工程中的接口设计，是可迁移推理的优雅方案
多维质量分解+上下文自适应加权避免了单一奖励信号的信息压缩问题

局限与展望¶

CHARM 奖励模型本身可能存在偏差，虽然与人工评判相关但并非完美替代
树搜索推理增加了推理时计算开销，实际部署时需考虑延迟
实验数据集规模有限（ReDial 1万对话），大规模验证不足
未来可探索将质量维度扩展到更细粒度的用户偏好建模

评分¶

新颖性: ⭐⭐⭐⭐ 将对话推荐重新定义为质量优化的决策问题，思路新颖
实验充分度: ⭐⭐⭐⭐ 三个数据集、人工评估、消融实验齐全
写作质量: ⭐⭐⭐⭐ 问题分析深入，框架设计逻辑清晰
价值: ⭐⭐⭐⭐ 对 CRS 领域有重要方法论启示