CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search¶

基本信息¶

论文链接: arXiv:2511.15443
作者: Ao Xie, Jiahui Chen, Quanzhi Zhu, Xiaoze Jiang, Zhiheng Qin, Enyun Yu, Han Li (快手科技)
会议: AAAI 2026
代码: 无
领域: 信息检索 / 推荐系统 / 短视频搜索

一句话总结¶

提出 CroPS 数据引擎，通过 query 改写行为、推荐系统交互、LLM 世界知识三个视角扩充正样本集合，配合分层标签分配（HLA）和 H-InfoNCE 损失函数，打破工业级稠密检索系统中的信息茧房效应，已在快手搜索全量部署。

研究背景与动机¶

核心问题：自我强化训练范式导致的信息茧房¶

工业级短视频搜索系统普遍采用双塔（dual-encoder）架构做稠密检索，训练数据来源于线上系统的历史曝光交互日志：用户点击/观看的视频作为正样本，未曝光或被过滤的视频作为负样本。这种自我强化（self-reinforcing）训练范式存在根本性缺陷——只有历史上被系统曝光过的内容才有机会成为正样本，语义相关但从未被检索到的内容会被系统性地排除在正样本集之外，甚至被错误标记为负样本。

论文用一个直观的例子说明：当用户搜索"transformer"时，由于历史数据中深度学习领域内容的主导地位，关于"电力变压器"的视频虽然语义相关，却因从未被曝光而被错误地归为负样本。这种偏差会导致模型检索行为越来越保守和单一，用户体验持续下降。

已有工作的不足¶

先前研究主要集中在两个方向：（1）架构改进，如 ColBERT 的 late interaction 设计；（2）负样本采样策略，如 ANCE 的动态难负样本、TriSampler 等。然而这些方法都没有跳出自我强化训练范式的框架——无论负样本怎么选，正样本始终局限在历史曝光集合中，信息茧房的根源未被触及。

本文动机¶

作者敏锐地指出：正样本扩充（positive sample enrichment）是一个被严重忽视但极具潜力的方向。通过从多个视角引入历史曝光之外的语义相关正样本，可以有效打破数据层面的信息茧房边界。这一洞察构成了 CroPS 的核心出发点。

方法详解¶

整体框架¶

CroPS 由三个主要模块组成：

CroPS 数据引擎：从三个互补视角（query 级别、系统级别、世界知识级别）扩充正样本集合 \(\mathcal{P} = \mathcal{P}_0 \cup \mathcal{P}_1 \cup \mathcal{P}_2 \cup \mathcal{P}_3\)
分层标签分配（HLA）：为不同来源的正负样本赋予 0-5 的层级标签，替代传统的二元标签
H-InfoNCE 损失函数：支持多层级对比学习的损失函数，高效且适配 HLA

关键设计一：三视角正样本扩充¶

（1）Query 级别正样本扩充（\(\mathcal{P}_1\)）

利用用户的 query 改写行为（query reformulation）。当用户对初始搜索结果不满意时，会在短时间内（90秒窗口）发出语义相近的后续 query。CroPS 将用户在改写 query 下交互的视频视为原始 query 的潜在正样本。通过一个预训练的 6 层 Transformer 语义判别器 \(\theta(\cdot)\) 评估原始 query 与候选视频的相关性，阈值 \(\alpha = 0.6\)：

\[\mathcal{P}_1 = \bigcup_{q_i \in \mathcal{Q}} \{d_{ij} \in \mathcal{D}_i \mid \theta(q, d_{ij}) > \alpha\}\]

这一设计的巧妙之处在于：改写行为本身编码了用户"真正想找什么"的信号，这些正样本通常处于原始 query 的检索盲区，恰好补充了自我强化范式遗漏的内容。

（2）系统级别正样本扩充（\(\mathcal{P}_2\)）

打破搜索系统与推荐系统之间的数据壁垒。对于 query \(q\)，找到发出过该 query 的用户集合 \(\mathcal{U}\)，检索每个用户在 query 时间戳附近在推荐流中交互的视频（上限 100 条），再通过同一语义判别器筛选语义相关的视频：

\[\mathcal{P}_2 = \bigcup_{u_i \in \mathcal{U}} \{d_{ij} \in \mathcal{D}_i \mid \theta(q, d_{ij}) > \alpha\}\]

推荐系统的交互数据通常更新更快、更贴近用户个人兴趣，与搜索数据形成互补。

（3）世界知识扩充（\(\mathcal{P}_3\)）

利用 LLM（Qwen2.5-14B）作为"伪检索器"。采用 one-shot 策略，给 LLM 提供 query 和一个已知相关视频作示例，让其生成与 query 匹配的其他视频描述作为合成正样本。共生成 3500 万条合成正样本。这一策略模拟了用户在 App 内找不到满意内容时转向外部信息源的行为，将平台外部的语义关联和事实知识注入训练过程。

关键设计二：分层标签分配（HLA）¶

不同来源的正样本可靠性和重要性不同，简单统一处理会导致次优学习效果。HLA 将样本划分为 6 个层级（0-5）：

层级	样本类型	含义
5	Query 改写正样本	最直接反映用户精确意图
4	系统级正样本 / 世界知识正样本 / 点击视频	强相关信号
3	排序阶段曝光但未点击的视频	中等相关
2	排序阶段未曝光的视频	弱/不确定相关
1	预排序到排序间被过滤的视频	低相关
0	批内负样本	不相关

为何 query 改写正样本获得最高标签（5）？因为用户的改写行为代表了对初始搜索结果不满意后的主动修正，后续交互最真实地反映了用户的底层需求。赋予最高权重可以引导模型学会主动理解模糊 query 背后的多义性，从而减少用户改写频率。

关键设计三：H-InfoNCE 损失函数¶

标准 InfoNCE 假设二元相关性（正/负），无法利用 HLA 提供的多层级监督信号。H-InfoNCE 引入层级感知的对比结构：对于标签为 \(l\) 的正样本，只有标签严格小于 \(l\) 的样本才被视为负样本：

\[\mathcal{L} = -\sum_{d_i \in \mathcal{S}} \log \frac{\exp(\text{sim}(q, d_i) / \tau)}{\sum_{d_j \in \{d_i\} \cup \{d_k \in S | l_i > l_k\}} \exp(\text{sim}(q, d_j) / \tau)}\]

实现上使用掩码矩阵过滤不可比较的样本，并用标签索引的数据结构组织输入，所有层级的对比损失在一次前向传播中计算完成，速度与标准 InfoNCE 相当。

实验关键数据¶

表1：主实验对比（CPSQA 数据集）¶

方法	Recall@100 CT(%)	Recall@100 QR(%)	NDCG@4(%)
BM25	42.9	22.5	64.8
DPR	56.0	30.7	66.5
ANCE	56.9	31.3	67.1
ADORE+STAR	59.4	31.9	67.4
TriSampler	59.8	32.2	66.9
FS-LR	59.6	33.0	66.0
CroPS	69.1	40.1	67.0

CroPS 在 CT 上比最强 baseline（TriSampler）提升 9.3%，在 QR 上比 FS-LR 提升 7.1%，提升幅度非常显著。QR 指标的大幅提升意味着用户在首次搜索就能找到想要的内容，减少了改写需求。

表2：线上 A/B 测试结果¶

模型类型	CTR 提升	LPR 提升	RQR 降低
Dense Model	+0.869%	+0.483%	-0.646%
Sparse Model	+0.783%	+0.423%	-0.614%

在快手搜索的线上 A/B 测试中，CroPS 在 Dense Model 上使点击率提升 0.869%，长播放率提升 0.483%，query 改写率降低 0.646%。这些指标在工业界大规模系统上的提升幅度是非常可观的。同时 CroPS 在 Sparse Model 上也取得一致性提升，验证了方法的架构无关性。

亮点与洞察¶

问题定位精准：将信息茧房效应的根因定位在正样本空间的局限性而非负样本策略，这一视角新颖且切中要害。先前工作过度关注负采样，而正样本扩充这一"低垂果实"被长期忽视。
三视角互补设计合理：Query 改写（捕获意图连续性）、跨系统数据（打破信息孤岛）、LLM 世界知识（引入外部语义）三者各解决信息茧房的不同维度，消融实验证明三者的增益是叠加的。
HLA 的精巧设计：将 query 改写正样本赋予最高权重的决策有深刻洞察——它既反映了用户最真实的信息需求，又通过训练时的高权重引导模型主动减少用户改写行为，形成正向循环。
工业部署友好：H-InfoNCE 训练速度与标准 InfoNCE 相当（88h vs 178h 甚至更快），CroPS 不引入额外推理开销、架构无关，已全量部署服务数亿用户。

局限性¶

语义判别器依赖：Query 级和系统级正样本的质量高度依赖轻量判别器 \(\theta(\cdot)\) 的准确性，阈值 \(\alpha = 0.6\) 的选择缺乏深入分析，不同取值对噪声引入的影响未充分讨论。
LLM 合成样本质量：3500 万条合成正样本的质量控制流程未详述，LLM 幻觉可能引入错误的语义关联。对合成样本的过滤和质量评估策略不够透明。
数据集非公开：CPSQA 数据集基于快手内部数据构建，实验无法复现，外部研究者难以公平比较。
标签层级设计的通用性：HLA 的层级划分（0-5）和具体赋值是针对快手搜索场景经验设定的，迁移到其他搜索场景时可能需要重新设计。
仅评估文本模态：文档编码器仅使用视频的文本信息（标题、字幕等），未利用视频的视觉和音频信息，可能在某些查询类型上存在语义表达的瓶颈。

评分¶

4/5 ⭐

扎实的工业系统论文。问题定位精准、方法设计系统完整、线上部署验证充分。扣分主要因为数据集非公开难以复现，且核心判别器和标签设计缺少充分的敏感性分析。HLA + H-InfoNCE 的层级对比学习框架对稠密检索领域有明确的方法论贡献。