Semi-Supervised Synthetic Data Generation with Fine-Grained Relevance Control for Short Video Search Relevance Modeling¶

会议: AAAI 2026
arXiv: 2509.16717
代码: 无
领域: 推荐系统 / 搜索相关性
关键词: 合成数据, 细粒度相关性, 短视频搜索, 半监督学习, Embedding模型

一句话总结¶

提出SSRA（半监督相关性感知合成数据管道），通过两阶段流程生成具有可控细粒度相关性标签（4级）的领域自适应短视频数据，增强embedding模型的语义相关性建模能力，在抖音双列场景线上A/B测试中CTR提升1.45%。

研究背景与动机¶

现有合成数据方法的局限¶

Embedding模型是搜索、推荐的基础组件。近期大量工作利用LLM合成多样化训练数据来提升embedding质量（如Gemini Embedding、Qwen3-Embedding等）。但存在两个关键问题：

领域差距（Domain Gap）：基于prompt的合成方法受限于LLM的生成能力，合成数据与特定领域的真实数据分布存在差距。FinMTEB的实验表明，MTEB上的SOTA模型在金融垂直领域性能显著下降。

相关性粒度不足（Relevance Granularity）：绝大多数合成方法仅使用二元相关性（相关/不相关），但实际检索任务需要细粒度相关性排序——二元标签与下游任务需求存在错位。

短视频领域的特殊挑战¶

短视频天然是多模态的，缺乏显式文本表示
不同相关性等级的分布极度不均衡（中间等级1/2严重不足）
搜索列表排序受个性化和热度等非语义因素影响

核心思路¶

构建一个可控的query生成模型\(f:(d,s)\mapsto\hat{q}\)，给定文档\(d\)和目标相关性标签\(s\in\{0,1,2,3\}\)，生成满足领域分布且语义相关性匹配目标标签的query。

方法详解¶

整体框架¶

SSRA是一个两阶段半监督管道： - Stage 1：通过基于分数的重标注增强query多样性 - Stage 2：通过迭代精炼增强生成query与目标相关性标签的对齐

两个核心模型协同训练： - Query模型：给定document和目标相关性标签，生成query - Score模型：给定query-document对，预测相关性标签

关键设计¶

1. 短视频相关性数据集构建¶

功能：构建首个带4级细粒度相关性标注的中文短视频搜索数据集。

4级相关性定义：

标签	定义
3	完全精确满足用户意图
2	大体满足但部分非关键要素缺失
1	部分满足，关键实体/概念相关但重要方面不匹配
0	完全不满足用户意图

数据构建流程： 1. Query-Item收集：从抖音搜索点击日志中收集query-item对（query驱动检索 + 点击采样两种策略） 2. Document生成：用豆包大模型将视频的OCR+ASR改写为连贯文本描述，结合标题作为document 3. 双注标协议：两名标注者独立标注，不一致时由专家裁决

数据规模：训练集207,439对 | 检索测试集10,866对 | 分类测试集3,390对。中间相关性标签（1/2）严重缺乏（仅占~4.5%训练集）。

2. Stage 1: 基于分数的重标注增强多样性¶

功能：解决原始标注数据中"一个query对应多个document"导致的query生成单一化问题。

核心思路： 1. 在标注数据上训练score模型（预测4级相关性标签） 2. 对无标签数据按document分组，用score模型为每个document关联的多个query标注相关性分数 3. 将重标注数据与去重原始数据合并，训练初版query模型

设计动机：原始数据中多个document共享同一高频query → query模型学会将不同document映射到相同query → 生成多样性差。重标注后，每个document关联多个不同相关性等级的query，形成document-to-queries (D2Q)结构。

实测效果：重复query率从6.57%降至5.20%（相对减少20.85%）。

3. Stage 2: 迭代精炼增强相关性对齐¶

功能：提高query模型生成的query与目标相关性标签的匹配度。

核心步骤： 1. 初始合成：用Stage 1训练的query模型在无标签document集上生成条件化于不同相关性标签的query 2. Score模型过滤：用score模型预测每个合成query-document对的相关性标签，仅保留预测标签与目标标签一致的样本 3. LLM成对一致性过滤：用LLM比较同一document下不同相关性标签的query对，过滤掉相对排序与标签不一致的样本 4. 将高质量样本与Stage 1训练数据合并，进行第二轮query模型训练

设计动机：query模型初期生成的query与目标标签的对齐度不够。通过score模型+LLM双重过滤，确保训练数据中的相关性标签是可靠的。

实测效果（人工标注验证）：

相关性标签	Stage 1 Only	Stage 1+2
标签1	81/200	130/200
标签2	80/200	131/200
标签3	189/200	178/200

Stage 2使相关性匹配的一致性提升了25.43%（标签1和2显著改善）。

损失函数 / 训练策略¶

Embedding模型训练：使用带标签权重的InfoNCE损失：

\[\mathcal{L}=\frac{1}{B}\sum_{i=1}^{B}s_i\cdot\mathcal{L}_{\text{infoNCE}}\]

其中\(s_i\in\{0,1,2,3\}\)是相关性标签。这使得更高相关性的正样本对获得更大权重。

实现细节： - Query/Score模型骨干：豆包-1.5-Pro-32K - Embedding模型骨干：Qwen3-Embedding (0.6B/4B两个规模) - LoRA微调，rank=32，batch size=512 - 合成100万文档的多级别query，经过滤后与标注数据合并训练

实验关键数据¶

主实验¶

方法	0.6B nDCG@10	0.6B Avg AP	4B nDCG@10	4B Avg AP
Base Model	71.36	69.50	73.20	69.57
SyCL Modified (prompt合成)	71.50	67.33	73.56	67.95
Vanilla SFT	71.88	70.39	74.32	70.87
SSRA	71.97	70.79	74.47	71.52

关键对比： - SSRA vs Base：4B模型nDCG@10 +1.73%，AP +2.80% - SyCL Modified（prompt方法）反而降低了分类性能（AP降2.17/1.62%），说明prompt合成在领域特定场景不可靠 - SSRA一致超越Vanilla SFT，证明两阶段精炼的价值

消融实验¶

方法	0.6B nDCG@10	0.6B AP	4B nDCG@10	4B AP
w/o Stage 1 & 2	71.44	70.70	74.02	70.34
w/o Stage 2	71.79	70.77	74.23	71.30
SSRA (full)	71.97	74.13	74.47	74.92

任务特异性分析： - 检索任务同时受益于Stage 1（多样性）和Stage 2（相关性对齐） - 分类任务主要受益于Stage 2（不依赖query多样性，依赖相关性精度）

二元 vs 多级相关性¶

配置	0.6B nDCG@10	4B nDCG@10	说明
二元标签(0,1)	71.66	73.73	仅正/负
多级标签(0,1,2,3)	71.78	74.23	4级

多级相关性标签在检索任务上一致更好，在分类的中间阈值（AP@≥1, AP@≥2）上也更好，验证了细粒度相关性的价值。

线上A/B测试¶

指标	提升	说明
CTR	+1.45%	点击通过率
SRR	+4.9%	强相关内容占比
IUPR	+0.1054%	图文用户渗透率

在抖音双列场景中，1.9亿用户/天的随机实验，运行10天。

关键发现¶

Prompt合成方法不适合垂直领域：SyCL Modified在分类任务上反而降低性能，表明LLM的prompt合成在捕捉领域特定分布方面存在根本局限
中间相关性标签的增强有显著价值：原始数据中标签1/2仅占~4.5%，SSRA通过合成补充这些缺失等级
两阶段各有分工：Stage 1→多样性（降重复率20.85%），Stage 2→精度（提一致性25.43%）
Scale matters：4B模型的改善幅度大于0.6B，说明SSRA的合成数据在大模型上更好地被利用

亮点与洞察¶

数据资源贡献：首个4级相关性标注的中文短视频搜索数据集，填补了该领域基准缺失
半监督闭环设计：Score模型标注 → Query模型生成 → Score模型验证 → LLM过滤，形成了质量逐步提升的闭环
新视角：相关性多样性（而不仅是query/document多样性）是embedding模型训练的关键维度
工业验证：在抖音级别的线上实验中获得显著提升，具有很强的实践说服力
带标签权重的InfoNCE：简单而有效地将多级相关性融入对比学习损失

局限与展望¶

数据集未公开：虽然声称contribution是数据集，但受限于商业场景可能无法完全开源
依赖于领域标注数据：SSRA仍需要一定量的高质量标注数据来训练Score模型，冷启动成本不低
LLM过滤的成本：Stage 2的LLM成对一致性检查对大规模应用来说开销可观
标签数量固定：仅验证了4级相关性，更细粒度（如连续分数）的效果未探索
可以探索主动学习来选择最需要标注的样本，降低人工标注成本
多模态信息未充分利用：短视频有视觉信息，仅通过OCR/ASR转文本可能损失信息

评分¶

新颖性: ⭐⭐⭐⭐ （两阶段半监督合成管道+相关性多样性视角）
实验充分度: ⭐⭐⭐⭐⭐ （离线多指标+线上1.9亿用户A/B+多规模模型+消融+人工验证）
写作质量: ⭐⭐⭐⭐ （结构清晰，但部分段落偏冗长）
价值: ⭐⭐⭐⭐⭐ （实际部署验证，解决真实的工业问题）