Task-Aware Retrieval Augmentation for Dynamic Recommendation¶
会议: AAAI 2026
arXiv: 2511.12495
代码: 无
领域: 时间序列 / 动态推荐系统
关键词: 检索增强, 动态图推荐, 任务感知, Graph Transformer, 时序泛化
一句话总结¶
提出 TarDGR 框架,通过任务感知的评估机制自动构建训练数据,训练 Graph Transformer 来评估历史子图的任务相关性,在推理时检索并融合任务相关子图以增强推荐的时序泛化能力。
研究背景与动机¶
问题场景¶
动态推荐系统需要通过建模用户-物品交互的时序演变来提供个性化建议。当前主流方法采用"预训练-微调"范式:先在历史图快照上学习可迁移的结构模式,再在新的时序图上微调。
现有方法的痛点¶
时序分布偏移:预训练阶段和微调阶段的交互图存在时间差异,用户兴趣不断演变,之前学到的模式可能不再适用,导致泛化性能下降
现有 RAG 方法忽略任务语义相关性:已有的图检索增强方法(如 RAGRAPH)仅基于结构和特征相似性进行检索,忽略了检索子图与查询图之间的语义任务相关性。结构相似的子图在语义不一致时可能反而有害
缺乏自动化的任务感知数据构建:图数据的复杂性使得手工标注任务相关性几乎不可行,现有框架缺乏评估检索子图是否真正有益于特定推荐任务的机制
核心挑战¶
- C1:如何有效识别对推荐任务真正有益的历史子图?
- C2:如何让模型在不需要人工标注的情况下理解任务特定需求?
方法详解¶
整体框架¶
TarDGR 包含三个核心组件: 1. Task-Aware Evaluation Mechanism(任务感知评估机制):自动构建任务感知训练数据 2. Graph Transformer-based Task-Aware Model(任务感知模型):评估子图与当前任务的相关性 3. Task-Aware Retrieval Inference(任务感知检索推理):检索并融合任务相关子图
关键设计¶
1. Task-Aware Evaluation Mechanism¶
该机制自动量化候选历史子图 \(G(v_r)\) 对当前推荐查询 \(G(v_q)\) 的贡献,无需人工标注。
核心思路:比较融合候选子图前后,查询图与正样本集之间的相似度变化。
融合前的相似度:计算查询子图embedding与正样本子图集的平均余弦相似度:
融合候选子图:通过在中心节点间构建连接并进行图卷积得到融合表示:
融合后的相似度:\(\overline{\mathrm{Sim}}_{\text{after}}\) 使用相同方法计算。
任务相关性得分:\(\Delta \mathrm{Rel} = \overline{\mathrm{Sim}}_{\text{after}} - \overline{\mathrm{Sim}}_{\text{before}}\)
- \(\Delta \mathrm{Rel} > 0\):候选子图对任务有益(正样本)
- \(\Delta \mathrm{Rel} \approx 0\):无关
- \(\Delta \mathrm{Rel} < 0\):对任务有害(负样本)
由此构建任务感知数据集:\(\mathcal{D}_{\text{aware}} = \{(G(v_q), G(v_r), C_r)\}\)
设计动机:传统方法仅根据"嵌入距离"检索最近邻,但某些结构相似的子图可能在语义上与当前推荐任务无关甚至冲突。通过直接衡量"融合后是否更接近正样本",可以精确捕捉任务层面的有益性。
2. Graph Transformer-based Task-Aware Model¶
该模型联合编码查询子图和候选子图,评估它们的任务相关性。
Subgraph Semantic Encoder: - 使用预训练动态 GNN 初始化节点嵌入,编码历史时序依赖 - 对查询-候选子图对进行联合编码,拼接得到语义表示 \(h\) - 添加位置编码后,通过多头自注意力捕获查询与候选之间的细粒度关系依赖 - 输出语义表示 \(h_{\text{sem}}\)
Subgraph Structure Encoder: - 对位置增强后的嵌入进行线性投影和多层注意力 - 通过归一化邻接传播聚合子图结构模式:\(h_{\text{str}} = \mathcal{D}^{-1}(\mathcal{A}_s + \mathbf{I}) h_{\text{ffn}} W\) - 编码图的拓扑结构信息
融合与评分:将语义和结构编码拼接,通过参数化评分函数输出标量相关性得分:
3. BiSCL 预训练¶
使用 Bi-Level Supervised Correlation Loss 联合监督数值保真度和序关系一致性:
数值拟合损失:
序关系约束损失(保持样本间排序一致):
总损失:\(\mathcal{L}_{\text{BiSCL}} = \rho \cdot \mathcal{L}_{\text{ocl}} + (1-\rho) \cdot \mathcal{L}_{\text{mtl}}\)
推理与训练策略¶
推理阶段: 1. 通过语义编码器用 FAISS 检索 Top-K 候选子图 2. 用任务感知模型评估每个候选的相关性得分 3. 选择 Top-M 个最相关子图,通过软证据聚合融合:\(H_{\text{rag}} = \sum_{i=1}^{M} \alpha_i \cdot h_m^i\) 4. 残差融合:\(\tilde{h}_q = \beta h_q + (1-\beta) H_{\text{rag}}\)
训练损失汇总: - BPR 排序损失(\(\mathcal{L}_{\text{bpr}}\)) - Margin Ranking Loss(\(\mathcal{L}_{\text{mrl}}\)) - 正则化损失(\(\mathcal{L}_{\text{reg}}\)) - \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{bpr}} + \lambda \cdot \mathcal{L}_{\text{mrl}} + \mu \cdot \mathcal{L}_{\text{reg}}\)
实验关键数据¶
主实验¶
三个动态图推荐数据集(Recall@20 / nDCG@20):
| 方法 | TAOBAO Recall | TAOBAO nDCG | KOUBEI Recall | KOUBEI nDCG | AMAZON Recall | AMAZON nDCG |
|---|---|---|---|---|---|---|
| LightGCN | 22.47 | 21.89 | 30.21 | 22.24 | 15.07 | 6.53 |
| SimGCL | 22.18 | 23.15 | 33.07 | 23.08 | 16.10 | 7.58 |
| RAGRAPH/FT | 24.78 | 24.35 | 34.27 | 24.82 | 18.69 | 9.09 |
| TarDGR/FT | 25.20 | 24.59 | 36.52 | 26.63 | 19.56 | 9.70 |
TarDGR 在所有数据集上均取得最佳性能。在 Amazon 上,相比 PRODIGY 提升 nDCG 16.6%、Recall 14.5%;相比 RAGRAPH 提升 nDCG 6.3%、Recall 4.4%。
消融实验¶
| 配置 | TAOBAO Recall | TAOBAO nDCG | AMAZON Recall | AMAZON nDCG | 说明 |
|---|---|---|---|---|---|
| w/o all | 24.63 | 24.02 | 18.42 | 8.91 | 无任务感知检索 |
| w/o SEM | 24.95 | 24.48 | 19.10 | 9.45 | 去除语义编码器 |
| w/o STR | — | — | — | — | 去除结构编码器 |
| TarDGR | 25.20 | 24.59 | 19.56 | 9.70 | 完整模型 |
每个组件的移除都导致性能下降,验证了语义编码和结构编码的互补性。
关键发现¶
- 任务感知检索显著优于传统结构相似性检索:TarDGR 一致性超越 RAGRAPH,证明语义任务相关性比纯结构相似性更重要
- 即使不微调也能受益:TarDGR/NF(非微调版本)在 KOUBEI 和 AMAZON 上也优于多数基线的微调版本
- BiSCL 的双层监督有效:同时优化数值拟合和排序一致性比单一目标更优
- Graph Transformer 的表达能力关键:联合语义和结构编码比单独使用任一种都更有效
亮点与洞察¶
- 任务感知评估机制的自动化设计:通过比较融合前后与正样本的相似度变化,巧妙地避免了昂贵的人工标注,自动构建高质量的任务感知训练数据
- 从 "结构相似" 到 "任务有益" 的范式转变:明确提出并验证了"结构相似 ≠ 任务有益"这一重要观察
- 模块化设计:TarDGR 可以作为即插即用模块集成到各种动态图推荐框架中
局限与展望¶
- 计算开销:任务感知评估机制需要对每个候选子图进行融合-评估,构建训练数据的成本较高
- 仅验证了链路预测任务:推荐场景本质上是链路预测,未验证其他图学习任务
- 正样本定义的局限:任务相关性分数依赖于预训练 GNN 的嵌入质量,如果预训练模型本身有偏差,评估机制可能生成有噪声的标签
- 未讨论检索效率:实际部署中,大规模子图库的实时检索和评估可能成为瓶颈
相关工作与启发¶
- RAG in NLP:将检索增强从语言模型迁移到图推荐,关键挑战在于如何定义"任务相关"
- RAGRAPH:前序工作,基于结构相似性检索,TarDGR 证明了加入任务感知的必要性
- GraphPro:动态推荐的预训练-微调基线,TarDGR 在其基础上通过检索增强获得了显著提升
- 启发:任务感知评估的思想可推广到其他领域的 RAG 系统
评分¶
- 新颖性: ⭐⭐⭐⭐ — 将任务感知引入图RAG是首创,自动评估机制设计巧妙
- 实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种基线对比,消融实验到位
- 写作质量: ⭐⭐⭐⭐ — 问题定义清晰,但公式符号和下标较多
- 价值: ⭐⭐⭐⭐ — 对动态推荐和图RAG领域有重要参考价值
相关论文¶
- [AAAI 2026] LoReTTA: A Low Resource Framework To Poison Continuous Time Dynamic Graphs
- [ICLR 2026] Enhancing Multivariate Time Series Forecasting with Global Temporal Retrieval
- [AAAI 2026] A Unified Shape-Aware Foundation Model for Time Series Classification
- [AAAI 2026] ReCast: Reliability-aware Codebook Assisted Lightweight Time Series Forecasting
- [NeurIPS 2025] StRap: Spatio-Temporal Pattern Retrieval for Out-of-Distribution Generalization