Task-Aware Retrieval Augmentation for Dynamic Recommendation¶

会议: AAAI 2026
arXiv: 2511.12495
代码: 无
领域: 时间序列 / 动态推荐系统
关键词: 检索增强, 动态图推荐, 任务感知, Graph Transformer, 时序泛化

一句话总结¶

提出 TarDGR 框架，通过任务感知的评估机制自动构建训练数据，训练 Graph Transformer 来评估历史子图的任务相关性，在推理时检索并融合任务相关子图以增强推荐的时序泛化能力。

研究背景与动机¶

问题场景¶

动态推荐系统需要通过建模用户-物品交互的时序演变来提供个性化建议。当前主流方法采用"预训练-微调"范式：先在历史图快照上学习可迁移的结构模式，再在新的时序图上微调。

现有方法的痛点¶

时序分布偏移：预训练阶段和微调阶段的交互图存在时间差异，用户兴趣不断演变，之前学到的模式可能不再适用，导致泛化性能下降

现有 RAG 方法忽略任务语义相关性：已有的图检索增强方法（如 RAGRAPH）仅基于结构和特征相似性进行检索，忽略了检索子图与查询图之间的语义任务相关性。结构相似的子图在语义不一致时可能反而有害

缺乏自动化的任务感知数据构建：图数据的复杂性使得手工标注任务相关性几乎不可行，现有框架缺乏评估检索子图是否真正有益于特定推荐任务的机制

核心挑战¶

C1：如何有效识别对推荐任务真正有益的历史子图？
C2：如何让模型在不需要人工标注的情况下理解任务特定需求？

方法详解¶

整体框架¶

TarDGR 包含三个核心组件： 1. Task-Aware Evaluation Mechanism（任务感知评估机制）：自动构建任务感知训练数据 2. Graph Transformer-based Task-Aware Model（任务感知模型）：评估子图与当前任务的相关性 3. Task-Aware Retrieval Inference（任务感知检索推理）：检索并融合任务相关子图

关键设计¶

1. Task-Aware Evaluation Mechanism¶

该机制自动量化候选历史子图 \(G(v_r)\) 对当前推荐查询 \(G(v_q)\) 的贡献，无需人工标注。

核心思路：比较融合候选子图前后，查询图与正样本集之间的相似度变化。

融合前的相似度：计算查询子图embedding与正样本子图集的平均余弦相似度：

\[\overline{\mathrm{Sim}}_{\text{before}} = \frac{1}{N^+} \sum_{i=1}^{N^+} \mathrm{Cos}(\mathrm{Enc}(G(v_q)), \mathrm{Enc}(G(v_q)_i^+))\]

融合候选子图：通过在中心节点间构建连接并进行图卷积得到融合表示：

\[\mathrm{Enc}(\widetilde{G(v_q)}) = f_{\text{fuse}}(\mathrm{Enc}(G(v_q) \oplus G(v_r)))\]

融合后的相似度：\(\overline{\mathrm{Sim}}_{\text{after}}\) 使用相同方法计算。

任务相关性得分：\(\Delta \mathrm{Rel} = \overline{\mathrm{Sim}}_{\text{after}} - \overline{\mathrm{Sim}}_{\text{before}}\)

\(\Delta \mathrm{Rel} > 0\)：候选子图对任务有益（正样本）
\(\Delta \mathrm{Rel} \approx 0\)：无关
\(\Delta \mathrm{Rel} < 0\)：对任务有害（负样本）

由此构建任务感知数据集：\(\mathcal{D}_{\text{aware}} = \{(G(v_q), G(v_r), C_r)\}\)

设计动机：传统方法仅根据"嵌入距离"检索最近邻，但某些结构相似的子图可能在语义上与当前推荐任务无关甚至冲突。通过直接衡量"融合后是否更接近正样本"，可以精确捕捉任务层面的有益性。

2. Graph Transformer-based Task-Aware Model¶

该模型联合编码查询子图和候选子图，评估它们的任务相关性。

Subgraph Semantic Encoder： - 使用预训练动态 GNN 初始化节点嵌入，编码历史时序依赖 - 对查询-候选子图对进行联合编码，拼接得到语义表示 \(h\) - 添加位置编码后，通过多头自注意力捕获查询与候选之间的细粒度关系依赖 - 输出语义表示 \(h_{\text{sem}}\)

Subgraph Structure Encoder： - 对位置增强后的嵌入进行线性投影和多层注意力 - 通过归一化邻接传播聚合子图结构模式：\(h_{\text{str}} = \mathcal{D}^{-1}(\mathcal{A}_s + \mathbf{I}) h_{\text{ffn}} W\) - 编码图的拓扑结构信息

融合与评分：将语义和结构编码拼接，通过参数化评分函数输出标量相关性得分：

\[s_i = \mathcal{S}_\psi(h_{\text{task}}) = w^\top \mathrm{ReLU}(W h_{\text{task}} + b)\]

3. BiSCL 预训练¶

使用 Bi-Level Supervised Correlation Loss 联合监督数值保真度和序关系一致性：

数值拟合损失：

\[\mathcal{L}_{\text{mtl}} = \frac{1}{N} \sum_{k=1}^{N} (\mathcal{R}_\theta(h_{q,r}, \mathcal{A}_s) - C)^2\]

序关系约束损失（保持样本间排序一致）：

\[\mathcal{L}_{\text{ocl}} = \log\left[1 + \sum_{k,l} \exp\left(\frac{\mathcal{R}_\theta(h_{q,r}^{(l)}) - \mathcal{R}_\theta(h_{q,r}^{(k)})}{\tau}\right)\right]\]

总损失：\(\mathcal{L}_{\text{BiSCL}} = \rho \cdot \mathcal{L}_{\text{ocl}} + (1-\rho) \cdot \mathcal{L}_{\text{mtl}}\)

推理与训练策略¶

推理阶段： 1. 通过语义编码器用 FAISS 检索 Top-K 候选子图 2. 用任务感知模型评估每个候选的相关性得分 3. 选择 Top-M 个最相关子图，通过软证据聚合融合：\(H_{\text{rag}} = \sum_{i=1}^{M} \alpha_i \cdot h_m^i\) 4. 残差融合：\(\tilde{h}_q = \beta h_q + (1-\beta) H_{\text{rag}}\)

训练损失汇总： - BPR 排序损失（\(\mathcal{L}_{\text{bpr}}\)） - Margin Ranking Loss（\(\mathcal{L}_{\text{mrl}}\)） - 正则化损失（\(\mathcal{L}_{\text{reg}}\)） - \(\mathcal{L}_{\text{total}} = \mathcal{L}_{\text{bpr}} + \lambda \cdot \mathcal{L}_{\text{mrl}} + \mu \cdot \mathcal{L}_{\text{reg}}\)

实验关键数据¶

主实验¶

三个动态图推荐数据集（Recall@20 / nDCG@20）：

方法	TAOBAO Recall	TAOBAO nDCG	KOUBEI Recall	KOUBEI nDCG	AMAZON Recall	AMAZON nDCG
LightGCN	22.47	21.89	30.21	22.24	15.07	6.53
SimGCL	22.18	23.15	33.07	23.08	16.10	7.58
RAGRAPH/FT	24.78	24.35	34.27	24.82	18.69	9.09
TarDGR/FT	25.20	24.59	36.52	26.63	19.56	9.70

TarDGR 在所有数据集上均取得最佳性能。在 Amazon 上，相比 PRODIGY 提升 nDCG 16.6%、Recall 14.5%；相比 RAGRAPH 提升 nDCG 6.3%、Recall 4.4%。

消融实验¶

配置	TAOBAO Recall	TAOBAO nDCG	AMAZON Recall	AMAZON nDCG	说明
w/o all	24.63	24.02	18.42	8.91	无任务感知检索
w/o SEM	24.95	24.48	19.10	9.45	去除语义编码器
w/o STR	—	—	—	—	去除结构编码器
TarDGR	25.20	24.59	19.56	9.70	完整模型

每个组件的移除都导致性能下降，验证了语义编码和结构编码的互补性。

关键发现¶

任务感知检索显著优于传统结构相似性检索：TarDGR 一致性超越 RAGRAPH，证明语义任务相关性比纯结构相似性更重要
即使不微调也能受益：TarDGR/NF（非微调版本）在 KOUBEI 和 AMAZON 上也优于多数基线的微调版本
BiSCL 的双层监督有效：同时优化数值拟合和排序一致性比单一目标更优
Graph Transformer 的表达能力关键：联合语义和结构编码比单独使用任一种都更有效

亮点与洞察¶

任务感知评估机制的自动化设计：通过比较融合前后与正样本的相似度变化，巧妙地避免了昂贵的人工标注，自动构建高质量的任务感知训练数据
从 "结构相似" 到 "任务有益" 的范式转变：明确提出并验证了"结构相似 ≠ 任务有益"这一重要观察
模块化设计：TarDGR 可以作为即插即用模块集成到各种动态图推荐框架中

局限与展望¶

计算开销：任务感知评估机制需要对每个候选子图进行融合-评估，构建训练数据的成本较高
仅验证了链路预测任务：推荐场景本质上是链路预测，未验证其他图学习任务
正样本定义的局限：任务相关性分数依赖于预训练 GNN 的嵌入质量，如果预训练模型本身有偏差，评估机制可能生成有噪声的标签
未讨论检索效率：实际部署中，大规模子图库的实时检索和评估可能成为瓶颈

评分¶

新颖性: ⭐⭐⭐⭐ — 将任务感知引入图RAG是首创，自动评估机制设计巧妙
实验充分度: ⭐⭐⭐⭐ — 三个数据集、多种基线对比，消融实验到位
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，但公式符号和下标较多
价值: ⭐⭐⭐⭐ — 对动态推荐和图RAG领域有重要参考价值