跳转至

HARPO: Hierarchical Agentic Reasoning for User-Aligned Conversational Recommendation

会议: ACL 2026
arXiv: 2604.10048
代码: https://anonymous.4open.science/r/HARPO-D881
领域: 推荐系统
关键词: 对话推荐, Agent推理, 偏好优化, 树搜索, 推荐质量

一句话总结

提出 HARPO 框架,将对话推荐重新定义为以推荐质量为优化目标的结构化决策问题,通过层次化偏好学习、基于价值网络的树搜索推理、虚拟工具操作和多智能体精炼四大组件,在 ReDial、INSPIRED 和 MUSE 三个基准上显著超越现有方法。

研究背景与动机

领域现状:对话推荐系统(CRS)旨在通过自然语言交互帮助用户发现匹配偏好的物品。近年来,基于大语言模型的 CRS 方法在 Recall@K、BLEU 等代理指标上取得了强劲表现。

现有痛点:高代理指标分数并不意味着高质量的用户对齐推荐。现有方法主要优化检索准确率、生成流畅度或工具调用等中间目标,而非推荐质量本身。例如"something casual for a summer wedding"可能被误解为日常休闲装而非场合适宜的婚礼服装,此类回复在自动指标上得分高但用户满意度低。

核心矛盾:CRS 训练和评估目标(代理指标)与实际推荐质量之间存在根本性不对齐。代理指标只与用户对齐推荐质量弱相关。

本文目标:将对话推荐建模为显式优化推荐质量的结构化决策问题,而非将推荐质量视为响应生成的副产品。

切入角度:作者从决策推理视角出发,认为系统应该显式推理多个候选推荐策略、评估其预期质量,并基于用户对齐标准(而非代理信号)选择推荐。

核心 idea:通过分层偏好学习将推荐质量分解为可解释维度(相关性、多样性、满意度、参与度),用学习的价值网络引导树搜索推理探索候选推荐路径。

方法详解

整体框架

HARPO 由四个组件组成:STAR(结构化树搜索推理)、CHARM(对比层次化奖励对齐)、BRIDGE(跨域迁移)和 MAVEN(多智能体精炼),共享一个预训练语言模型骨干。输入为对话上下文,输出为包含推荐的响应,优化目标为推荐质量 \(\mathcal{Q}\) 而非代理指标。

关键设计

  1. STAR: 结构化思维树推理:

    • 功能:通过树搜索显式探索多个候选推荐策略,选择质量最高的路径
    • 核心思路:每个推理节点表示为 \(s=(\mathbf{h}, \tau, \mathbf{v}, d)\),包含对话上下文编码、当前思考、预测的虚拟工具操作和搜索深度。价值网络将质量分解为四个维度(相关性、多样性、满意度、参与度),各维度由专用头预测并通过可学习权重加权。在每个节点生成 \(b\) 个候选下一步,用束搜索选择最优路径。
    • 设计动机:与直接生成推荐不同,树搜索允许系统在生成最终回复前探索、比较和精炼推荐决策
  2. CHARM: 对比层次化奖励对齐:

    • 功能:将推荐质量分解为可解释维度并学习上下文相关的维度权重
    • 核心思路:每个质量维度由专用奖励头建模 \(R_k(\mathbf{h}) = \tanh(\mathbf{W}_k^{(2)} \cdot \text{GELU}(\mathbf{W}_k^{(1)} \cdot \mathbf{h}))\),输出限制在 \([-1,1]\)。通过元学习方式学习上下文依赖权重 \(\mathbf{w} = \text{softmax}(\mathbf{W}_{\text{meta}} \cdot [\text{Enc}(\mathbf{h}); \mathbf{e}_d] + \mathbf{b})\)。使用基于边际的偏好优化损失训练。
    • 设计动机:不同对话上下文和领域下各质量维度的重要性不同,自适应加权避免了单一标量奖励的信息丢失
  3. BRIDGE: 跨域迁移与 VTO 抽象:

    • 功能:通过虚拟工具操作(VTO)和对抗域适应实现跨领域推荐推理迁移
    • 核心思路:使用梯度反转层进行对抗域适应学习域不变表示,同时引入可学习域门控 \(\mathbf{z}' = \sigma(\mathbf{g}_d) \odot \mathbf{z} + (1-\sigma(\mathbf{g}_d)) \odot \mathbf{h}\) 保留有用的域特定信号。VTO 将高层推理操作与具体工具解耦,运行时动态映射。
    • 设计动机:现有工具增强方法紧耦合于特定领域的工具实现,限制了可迁移性

损失函数

总损失包含偏好优化损失 \(\mathcal{L}_{\text{pref}}\)、域适应损失 \(\mathcal{L}_{\text{domain}}\)、任务保持损失 \(\mathcal{L}_{\text{task}}\) 和智能体一致性损失 \(\mathcal{L}_{\text{agree}}\)

实验关键数据

主实验

在 ReDial 数据集上的推荐性能:

方法 R@1 R@10 R@50 MRR@10 User Sat. Engage.
KBRD 2.9 16.7 36.2 7.4 0.42 0.38
UniCRS 3.8 18.1 37.4 8.4 0.45 0.41
GPT-4
HARPO 最优 最优 最优 最优 最优 最优

消融实验

配置 关键指标 说明
Full HARPO 最优 完整模型
w/o STAR 下降显著 去掉树搜索推理
w/o CHARM 下降明显 去掉层次化偏好优化
w/o BRIDGE 跨域下降 去掉域迁移模块
w/o MAVEN 轻微下降 去掉多智能体精炼

关键发现

  • HARPO 相比最强基线(GPT-4)平均提升 17-21%,在用户对齐指标上提升更大
  • 在 INSPIRED 数据集上提升最大(R@10 比 GPT-4 高 45.7%),因为社交对话需要推理隐式偏好
  • 人工评估确认推荐质量、解释质量和整体评分均显著优于 GPT-4(+0.55, +0.50, +0.55)
  • CHARM 奖励模型与独立人工评判的 Pearson 相关系数达 0.64-0.73

亮点与洞察

  • 指出代理指标与推荐质量的不对齐是 CRS 领域的根本问题,这一洞察具有范式转换意义
  • VTO 抽象将推理逻辑与具体工具解耦,类似软件工程中的接口设计,是可迁移推理的优雅方案
  • 多维质量分解+上下文自适应加权避免了单一奖励信号的信息压缩问题

局限与展望

  • CHARM 奖励模型本身可能存在偏差,虽然与人工评判相关但并非完美替代
  • 树搜索推理增加了推理时计算开销,实际部署时需考虑延迟
  • 实验数据集规模有限(ReDial 1万对话),大规模验证不足
  • 未来可探索将质量维度扩展到更细粒度的用户偏好建模

相关工作与启发

  • vs UniCRS: UniCRS 统一推荐和生成但仍优化代理指标,HARPO 直接优化推荐质量
  • vs RecMind: RecMind 使用自激励推理但缺乏质量引导的搜索,HARPO 的价值网络提供质量导向
  • vs GPT-4: 即使是强大的通用模型,在代理指标上表现好但用户对齐指标上不如专门优化的 HARPO

评分

  • 新颖性: ⭐⭐⭐⭐ 将对话推荐重新定义为质量优化的决策问题,思路新颖
  • 实验充分度: ⭐⭐⭐⭐ 三个数据集、人工评估、消融实验齐全
  • 写作质量: ⭐⭐⭐⭐ 问题分析深入,框架设计逻辑清晰
  • 价值: ⭐⭐⭐⭐ 对 CRS 领域有重要方法论启示

相关论文