跳转至

Task-Aware Retrieval Augmentation for Dynamic Recommendation

会议: AAAI 2026
arXiv: 2511.12495
代码: 无
领域: 时间序列 / 动态推荐系统
关键词: 检索增强, 动态图推荐, 任务感知, Graph Transformer, 时序泛化

一句话总结

提出 TarDGR 框架,通过任务感知的评估机制自动构建训练数据,训练 Graph Transformer 来评估历史子图的任务相关性,在推理时检索并融合任务相关子图以增强推荐的时序泛化能力。

研究背景与动机

问题场景

动态推荐系统需要通过建模用户-物品交互的时序演变来提供个性化建议。当前主流方法采用"预训练-微调"范式:先在历史图快照上学习可迁移的结构模式,再在新的时序图上微调。

现有方法的痛点

时序分布偏移:预训练阶段和微调阶段的交互图存在时间差异,用户兴趣不断演变,之前学到的模式可能不再适用,导致泛化性能下降

现有 RAG 方法忽略任务语义相关性:已有的图检索增强方法(如 RAGRAPH)仅基于结构和特征相似性进行检索,忽略了检索子图与查询图之间的语义任务相关性。结构相似的子图在语义不一致时可能反而有害

缺乏自动化的任务感知数据构建:图数据的复杂性使得手工标注任务相关性几乎不可行,现有框架缺乏评估检索子图是否真正有益于特定推荐任务的机制

核心挑战

  • C1:如何有效识别对推荐任务真正有益的历史子图?
  • C2:如何让模型在不需要人工标注的情况下理解任务特定需求?

方法详解

整体框架

TarDGR 包含三个核心组件: 1. Task-Aware Evaluation Mechanism(任务感知评估机制):自动构建任务感知训练数据 2. Graph Transformer-based Task-Aware Model(任务感知模型):评估子图与当前任务的相关性 3. Task-Aware Retrieval Inference(任务感知检索推理):检索并融合任务相关子图

关键设计

1. Task-Aware Evaluation Mechanism

该机制自动量化候选历史子图 \(G(v_r)\) 对当前推荐查询 \(G(v_q)\) 的贡献,无需人工标注

核心思路:比较融合候选子图前后,查询图与正样本集之间的相似度变化。

融合前的相似度:计算查询子图embedding与正样本子图集的平均余弦相似度:

\[\overline{\mathrm{Sim}}_{\text{before}} = \frac{1}{N^+} \sum_{i=1}^{N^+} \mathrm{Cos}(\mathrm{Enc}(G(v_q)), \mathrm{Enc}(G(v_q)_i^+))\]

融合候选子图:通过在中心节点间构建连接并进行图卷积得到融合表示:

\[\mathrm{Enc}(\widetilde{G(v_q)}) = f_{\text{fuse}}(\mathrm{Enc}(G(v_q) \oplus G(v_r)))\]

融合后的相似度\(\overline{\mathrm{Sim}}_{\text{after}}\) 使用相同方法计算。

任务相关性得分\(\Delta \mathrm{Rel} = \overline{\mathrm{Sim}}_{\text{after}} - \overline{\mathrm{Sim}}_{\text{before}}\)

  • \(\Delta \mathrm{Rel} > 0\):候选子图对任务有益(正样本)
  • \(\Delta \mathrm{Rel} \approx 0\):无关
  • \(\Delta \mathrm{Rel} < 0\):对任务有害(负样本)

由此构建任务感知数据集:\(\mathcal{D}_{\text{aware}} = \{(G(v_q), G(v_r), C_r)\}\)

设计动机:传统方法仅根据"嵌入距离"检索最近邻,但某些结构相似的子图可能在语义上与当前推荐任务无关甚至冲突。通过直接衡量"融合后是否更接近正样本",可以精确捕捉任务层面的有益性。

2. Graph Transformer-based Task-Aware Model

该模型联合编码查询子图和候选子图,评估它们的任务相关性。

Subgraph Semantic Encoder: - 使用预训练动态 GNN 初始化节点嵌入,编码历史时序依赖 - 对查询-候选子图对进行联合编码,拼接得到语义表示 \(h\) - 添加位置编码后,通过多头自注意力捕获查询与候选之间的细粒度关系依赖 - 输出语义表示 \(h_{\text{sem}}\)

Subgraph Structure Encoder: - 对位置增强后的嵌入进行线性投影和多层注意力 - 通过归一化邻接传播聚合子图结构模式:\(h_{\text{str}} = \mathcal{D}^{-1}(\mathcal{A}_s + \mathbf{I}) h_{\text{ffn}} W\) - 编码图的拓扑结构信息

融合与评分:将语义和结构编码拼接,通过参数化评分函数输出标量相关性得分:

\[s_i = \mathcal{S}_\psi(h_{\text{task}}) = w^\top \mathrm{ReLU}(W h_{\text{task}} + b)\]

3. BiSCL 预训练

使用 Bi-Level Supervised Correlation Loss 联合监督数值保真度和序关系一致性:

数值拟合损失

\[\mathcal{L}_{\text{mtl}} = \frac{1}{N} \sum_{k=1}^{N} (\mathcal{R}_\theta(h_{q,r}, \mathcal{A}_s) - C)^2\]

序关系约束损失(保持样本间排序一致):

\[\mathcal{L}_{\text{ocl}} = \log\left[1 + \sum_{k,l} \exp\left(\frac{\mathcal{R}_\theta(h_{q,r}^{(l)}) - \mathcal{R}_\theta(h_{q,r}^{(k)})}{\tau}\right)\right]\]

总损失\(\mathcal{L}_{\text{BiSCL}} = \rho \cdot \mathcal{L}_{\text{ocl}} + (1-\rho) \cdot \mathcal{L}_{\text{mtl}}\)

推理与训练策略

推理阶段: 1. 通过语义编码器用 FAISS 检索 Top-K 候选子图 2. 用任务感知模型评估每个候选的相关性得分 3. 选择 Top-M 个最相关子图,通过软证据聚合融合:\(H_{\text{rag}} = \sum_{i=1}^{M} \alpha_i \cdot h_m^i\) 4. 残差融合:\(\tilde{h}_q = \beta h_q + (1-\beta) H_{\text{rag}}\)

训练损失汇总: - BPR 排序损失(\(\mathcal{L}_{\text{bpr}}\)) - Margin Ranking Loss(\(\mathcal{L}_{\text{mrl}}\)) - 正则化损失(\(\mathcal{L}_{\text{reg}}\)) - \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{bpr}} + \lambda \cdot \mathcal{L}_{\text{mrl}} + \mu \cdot \mathcal{L}_{\text{reg}}\)

实验关键数据

主实验

三个动态图推荐数据集(Recall@20 / nDCG@20):

方法 TAOBAO Recall TAOBAO nDCG KOUBEI Recall KOUBEI nDCG AMAZON Recall AMAZON nDCG
LightGCN 22.47 21.89 30.21 22.24 15.07 6.53
SimGCL 22.18 23.15 33.07 23.08 16.10 7.58
RAGRAPH/FT 24.78 24.35 34.27 24.82 18.69 9.09
TarDGR/FT 25.20 24.59 36.52 26.63 19.56 9.70

TarDGR 在所有数据集上均取得最佳性能。在 Amazon 上,相比 PRODIGY 提升 nDCG 16.6%、Recall 14.5%;相比 RAGRAPH 提升 nDCG 6.3%、Recall 4.4%。

消融实验

配置 TAOBAO Recall TAOBAO nDCG AMAZON Recall AMAZON nDCG 说明
w/o all 24.63 24.02 18.42 8.91 无任务感知检索
w/o SEM 24.95 24.48 19.10 9.45 去除语义编码器
w/o STR 去除结构编码器
TarDGR 25.20 24.59 19.56 9.70 完整模型

每个组件的移除都导致性能下降,验证了语义编码和结构编码的互补性。

关键发现

  1. 任务感知检索显著优于传统结构相似性检索:TarDGR 一致性超越 RAGRAPH,证明语义任务相关性比纯结构相似性更重要
  2. 即使不微调也能受益:TarDGR/NF(非微调版本)在 KOUBEI 和 AMAZON 上也优于多数基线的微调版本
  3. BiSCL 的双层监督有效:同时优化数值拟合和排序一致性比单一目标更优
  4. Graph Transformer 的表达能力关键:联合语义和结构编码比单独使用任一种都更有效

亮点与洞察

  1. 任务感知评估机制的自动化设计:通过比较融合前后与正样本的相似度变化,巧妙地避免了昂贵的人工标注,自动构建高质量的任务感知训练数据
  2. 从 "结构相似" 到 "任务有益" 的范式转变:明确提出并验证了"结构相似 ≠ 任务有益"这一重要观察
  3. 模块化设计:TarDGR 可以作为即插即用模块集成到各种动态图推荐框架中

局限与展望

  1. 计算开销:任务感知评估机制需要对每个候选子图进行融合-评估,构建训练数据的成本较高
  2. 仅验证了链路预测任务:推荐场景本质上是链路预测,未验证其他图学习任务
  3. 正样本定义的局限:任务相关性分数依赖于预训练 GNN 的嵌入质量,如果预训练模型本身有偏差,评估机制可能生成有噪声的标签
  4. 未讨论检索效率:实际部署中,大规模子图库的实时检索和评估可能成为瓶颈

相关工作与启发

  • RAG in NLP:将检索增强从语言模型迁移到图推荐,关键挑战在于如何定义"任务相关"
  • RAGRAPH:前序工作,基于结构相似性检索,TarDGR 证明了加入任务感知的必要性
  • GraphPro:动态推荐的预训练-微调基线,TarDGR 在其基础上通过检索增强获得了显著提升
  • 启发:任务感知评估的思想可推广到其他领域的 RAG 系统

评分

  • 新颖性: ⭐⭐⭐⭐ — 将任务感知引入图RAG是首创,自动评估机制设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种基线对比,消融实验到位
  • 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,但公式符号和下标较多
  • 价值: ⭐⭐⭐⭐ — 对动态推荐和图RAG领域有重要参考价值

相关论文