Semi-Supervised Synthetic Data Generation with Fine-Grained Relevance Control for Short Video Search Relevance Modeling¶
会议: AAAI 2026
arXiv: 2509.16717
代码: 无
领域: 推荐系统 / 搜索相关性
关键词: 合成数据, 细粒度相关性, 短视频搜索, 半监督学习, Embedding模型
一句话总结¶
提出SSRA(半监督相关性感知合成数据管道),通过两阶段流程生成具有可控细粒度相关性标签(4级)的领域自适应短视频数据,增强embedding模型的语义相关性建模能力,在抖音双列场景线上A/B测试中CTR提升1.45%。
研究背景与动机¶
现有合成数据方法的局限¶
Embedding模型是搜索、推荐的基础组件。近期大量工作利用LLM合成多样化训练数据来提升embedding质量(如Gemini Embedding、Qwen3-Embedding等)。但存在两个关键问题:
领域差距(Domain Gap):基于prompt的合成方法受限于LLM的生成能力,合成数据与特定领域的真实数据分布存在差距。FinMTEB的实验表明,MTEB上的SOTA模型在金融垂直领域性能显著下降。
相关性粒度不足(Relevance Granularity):绝大多数合成方法仅使用二元相关性(相关/不相关),但实际检索任务需要细粒度相关性排序——二元标签与下游任务需求存在错位。
短视频领域的特殊挑战¶
- 短视频天然是多模态的,缺乏显式文本表示
- 不同相关性等级的分布极度不均衡(中间等级1/2严重不足)
- 搜索列表排序受个性化和热度等非语义因素影响
核心思路¶
构建一个可控的query生成模型\(f:(d,s)\mapsto\hat{q}\),给定文档\(d\)和目标相关性标签\(s\in\{0,1,2,3\}\),生成满足领域分布且语义相关性匹配目标标签的query。
方法详解¶
整体框架¶
SSRA是一个两阶段半监督管道: - Stage 1:通过基于分数的重标注增强query多样性 - Stage 2:通过迭代精炼增强生成query与目标相关性标签的对齐
两个核心模型协同训练: - Query模型:给定document和目标相关性标签,生成query - Score模型:给定query-document对,预测相关性标签
关键设计¶
1. 短视频相关性数据集构建¶
功能:构建首个带4级细粒度相关性标注的中文短视频搜索数据集。
4级相关性定义:
| 标签 | 定义 |
|---|---|
| 3 | 完全精确满足用户意图 |
| 2 | 大体满足但部分非关键要素缺失 |
| 1 | 部分满足,关键实体/概念相关但重要方面不匹配 |
| 0 | 完全不满足用户意图 |
数据构建流程: 1. Query-Item收集:从抖音搜索点击日志中收集query-item对(query驱动检索 + 点击采样两种策略) 2. Document生成:用豆包大模型将视频的OCR+ASR改写为连贯文本描述,结合标题作为document 3. 双注标协议:两名标注者独立标注,不一致时由专家裁决
数据规模:训练集207,439对 | 检索测试集10,866对 | 分类测试集3,390对。中间相关性标签(1/2)严重缺乏(仅占~4.5%训练集)。
2. Stage 1: 基于分数的重标注增强多样性¶
功能:解决原始标注数据中"一个query对应多个document"导致的query生成单一化问题。
核心思路: 1. 在标注数据上训练score模型(预测4级相关性标签) 2. 对无标签数据按document分组,用score模型为每个document关联的多个query标注相关性分数 3. 将重标注数据与去重原始数据合并,训练初版query模型
设计动机:原始数据中多个document共享同一高频query → query模型学会将不同document映射到相同query → 生成多样性差。重标注后,每个document关联多个不同相关性等级的query,形成document-to-queries (D2Q)结构。
实测效果:重复query率从6.57%降至5.20%(相对减少20.85%)。
3. Stage 2: 迭代精炼增强相关性对齐¶
功能:提高query模型生成的query与目标相关性标签的匹配度。
核心步骤: 1. 初始合成:用Stage 1训练的query模型在无标签document集上生成条件化于不同相关性标签的query 2. Score模型过滤:用score模型预测每个合成query-document对的相关性标签,仅保留预测标签与目标标签一致的样本 3. LLM成对一致性过滤:用LLM比较同一document下不同相关性标签的query对,过滤掉相对排序与标签不一致的样本 4. 将高质量样本与Stage 1训练数据合并,进行第二轮query模型训练
设计动机:query模型初期生成的query与目标标签的对齐度不够。通过score模型+LLM双重过滤,确保训练数据中的相关性标签是可靠的。
实测效果(人工标注验证):
| 相关性标签 | Stage 1 Only | Stage 1+2 |
|---|---|---|
| 标签1 | 81/200 | 130/200 |
| 标签2 | 80/200 | 131/200 |
| 标签3 | 189/200 | 178/200 |
Stage 2使相关性匹配的一致性提升了25.43%(标签1和2显著改善)。
损失函数 / 训练策略¶
Embedding模型训练:使用带标签权重的InfoNCE损失:
其中\(s_i\in\{0,1,2,3\}\)是相关性标签。这使得更高相关性的正样本对获得更大权重。
实现细节: - Query/Score模型骨干:豆包-1.5-Pro-32K - Embedding模型骨干:Qwen3-Embedding (0.6B/4B两个规模) - LoRA微调,rank=32,batch size=512 - 合成100万文档的多级别query,经过滤后与标注数据合并训练
实验关键数据¶
主实验¶
| 方法 | 0.6B nDCG@10 | 0.6B Avg AP | 4B nDCG@10 | 4B Avg AP |
|---|---|---|---|---|
| Base Model | 71.36 | 69.50 | 73.20 | 69.57 |
| SyCL Modified (prompt合成) | 71.50 | 67.33 | 73.56 | 67.95 |
| Vanilla SFT | 71.88 | 70.39 | 74.32 | 70.87 |
| SSRA | 71.97 | 70.79 | 74.47 | 71.52 |
关键对比: - SSRA vs Base:4B模型nDCG@10 +1.73%,AP +2.80% - SyCL Modified(prompt方法)反而降低了分类性能(AP降2.17/1.62%),说明prompt合成在领域特定场景不可靠 - SSRA一致超越Vanilla SFT,证明两阶段精炼的价值
消融实验¶
| 方法 | 0.6B nDCG@10 | 0.6B AP | 4B nDCG@10 | 4B AP |
|---|---|---|---|---|
| w/o Stage 1 & 2 | 71.44 | 70.70 | 74.02 | 70.34 |
| w/o Stage 2 | 71.79 | 70.77 | 74.23 | 71.30 |
| SSRA (full) | 71.97 | 74.13 | 74.47 | 74.92 |
任务特异性分析: - 检索任务同时受益于Stage 1(多样性)和Stage 2(相关性对齐) - 分类任务主要受益于Stage 2(不依赖query多样性,依赖相关性精度)
二元 vs 多级相关性¶
| 配置 | 0.6B nDCG@10 | 4B nDCG@10 | 说明 |
|---|---|---|---|
| 二元标签(0,1) | 71.66 | 73.73 | 仅正/负 |
| 多级标签(0,1,2,3) | 71.78 | 74.23 | 4级 |
多级相关性标签在检索任务上一致更好,在分类的中间阈值(AP@≥1, AP@≥2)上也更好,验证了细粒度相关性的价值。
线上A/B测试¶
| 指标 | 提升 | 说明 |
|---|---|---|
| CTR | +1.45% | 点击通过率 |
| SRR | +4.9% | 强相关内容占比 |
| IUPR | +0.1054% | 图文用户渗透率 |
在抖音双列场景中,1.9亿用户/天的随机实验,运行10天。
关键发现¶
- Prompt合成方法不适合垂直领域:SyCL Modified在分类任务上反而降低性能,表明LLM的prompt合成在捕捉领域特定分布方面存在根本局限
- 中间相关性标签的增强有显著价值:原始数据中标签1/2仅占~4.5%,SSRA通过合成补充这些缺失等级
- 两阶段各有分工:Stage 1→多样性(降重复率20.85%),Stage 2→精度(提一致性25.43%)
- Scale matters:4B模型的改善幅度大于0.6B,说明SSRA的合成数据在大模型上更好地被利用
亮点与洞察¶
- 数据资源贡献:首个4级相关性标注的中文短视频搜索数据集,填补了该领域基准缺失
- 半监督闭环设计:Score模型标注 → Query模型生成 → Score模型验证 → LLM过滤,形成了质量逐步提升的闭环
- 新视角:相关性多样性(而不仅是query/document多样性)是embedding模型训练的关键维度
- 工业验证:在抖音级别的线上实验中获得显著提升,具有很强的实践说服力
- 带标签权重的InfoNCE:简单而有效地将多级相关性融入对比学习损失
局限与展望¶
- 数据集未公开:虽然声称contribution是数据集,但受限于商业场景可能无法完全开源
- 依赖于领域标注数据:SSRA仍需要一定量的高质量标注数据来训练Score模型,冷启动成本不低
- LLM过滤的成本:Stage 2的LLM成对一致性检查对大规模应用来说开销可观
- 标签数量固定:仅验证了4级相关性,更细粒度(如连续分数)的效果未探索
- 可以探索主动学习来选择最需要标注的样本,降低人工标注成本
- 多模态信息未充分利用:短视频有视觉信息,仅通过OCR/ASR转文本可能损失信息
相关工作与启发¶
- SyCL (Esfandiarpoor et al. 2025):通过prompt生成4级相关性文档,但本文证明prompt方法在垂直领域效果差
- Gecko (Lee et al. 2024):用生成的query检索候选文档再LLM打分选正例,启发了"合成+验证"的范式
- Qwen3-Embedding (Zhang et al. 2025):利用Persona Hub指导合成,侧重persona多样性而非相关性多样性
- Hard Negative Mining:广泛用于增强模型对细微差异的敏感性,本文提供了更系统的方案
- 启发:半监督框架在数据合成中的价值被低估——让两个模型协同迭代比单一prompt策略更有效
评分¶
- 新颖性: ⭐⭐⭐⭐ (两阶段半监督合成管道+相关性多样性视角)
- 实验充分度: ⭐⭐⭐⭐⭐ (离线多指标+线上1.9亿用户A/B+多规模模型+消融+人工验证)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,但部分段落偏冗长)
- 价值: ⭐⭐⭐⭐⭐ (实际部署验证,解决真实的工业问题)
相关论文¶
- [AAAI 2026] Generalization Bounds for Semi-supervised Matrix Completion with Distributional Side Information
- [AAAI 2026] CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search
- [AAAI 2026] Length-Adaptive Interest Network for Balancing Long and Short Sequence Modeling in CTR Prediction
- [CVPR 2025] FineVQ: Fine-Grained User Generated Content Video Quality Assessment
- [AAAI 2026] When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation