C2AL: Cohort-Contrastive Auxiliary Learning for Large-scale Recommendation Systems¶

会议: ICLR2026
arXiv: 2510.02215
代码: 待确认
领域: others
关键词: recommendation system, auxiliary learning, cohort contrastive, attention mechanism, representation bias

一句话总结¶

提出 C2AL（Cohort-Contrastive Auxiliary Learning），通过数据驱动地发现分布差异最大的用户群体对，构建对比性辅助二分类任务正则化共享编码器，使 FM 注意力权重从稀疏变为稠密，缓解大规模推荐系统中少数群体的表征偏差，在 Meta 6 个生产模型（数十亿数据点）上验证有效。

研究背景与动机¶

领域现状：大规模推荐模型（如 DHEN）在单一全局目标下训练，隐含假设用户群体分布同质。工业界常用多任务学习（MTL）引入辅助任务改善表征，但辅助任务设计多依赖经验启发式。
现有痛点：真实数据由异质群体（cohort）组成。随着模型和数据扩大，优化偏向高密度区域（多数群体），导致：(a) FM attention 权重稀疏集中——大量特征交互路径被浪费；(b) 少数群体的特征模式被忽略，出现表征偏差（representation bias）。
核心矛盾：全局优化只提供"平均"梯度信号，FM attention 收敛到只捕获全局高频特征交互的稀疏状态，缺少群体特异的梯度驱动力。已有的 PCGrad、CAGrad 等多任务梯度方法关注任务冲突管理，但没有建立辅助损失→注意力机制→表征改进的因果链条。
本文要解决什么？ (a) 有原则地发现分布差异最大的群体对；(b) 构造辅助任务注入群体特异梯度；(c) 提供可解释的机制分析——辅助损失如何精确地改变 FM attention。
切入角度：从梯度传播出发分析 FM attention 更新公式，发现辅助损失的梯度会直接叠加到注意力矩阵 \(\mathbf{Y}\) 的更新中，提供了精确的机制解释。
核心idea一句话：用分布散度找到对比最大的 head/tail 群体对，构造辅助二分类任务，训练时注入群体特异梯度使 FM attention 稠密化，推理时丢弃辅助头零额外开销。

方法详解¶

整体框架¶

输入：用户-广告特征向量 \(\mathbf{x}\) → 共享编码器 \(f(\mathbf{x};\theta_S)\) 生成嵌入 \(\mathbf{h}\) → 主任务头 \(g_{\text{primary}}\) 预测 CTR。C2AL 在此基础上增加两个辅助头 \(g_{\text{head}}, g_{\text{tail}}\)，共享编码器但各自预测对应群体的标签。训练结束后丢弃辅助头，推理架构不变。

关键设计¶

对比群体发现（Contrastive Cohort Discovery）:
做什么：从数据中自动找到分布差异最大的群体对
核心思路：沿可解释语义轴（用户价值、年龄等）将数据分割为 \(\{\mathcal{C}_1, \ldots, \mathcal{C}_N\}\)，用 baseline 模型的预测分布计算两两之间的散度（KL、JS、Wasserstein、余弦相似度），取差异最大的一对为 \(\mathcal{C}_{\text{head}}\) 和 \(\mathcal{C}_{\text{tail}}\)
设计动机：不是随意选群体，而是有原则地找"模型预测行为差异最大"的群体对——这保证辅助梯度信号与主任务梯度"部分冲突"，提供最大信息增益
对比辅助任务构造（Contrastive Auxiliary Learning）:
做什么：构造两个群体特异的辅助二分类任务
核心思路：\(y_{\text{head}} = y \cdot \mathbb{I}(\mathbf{x} \in \mathcal{C}_{\text{head}})\)，\(y_{\text{tail}} = y \cdot \mathbb{I}(\mathbf{x} \in \mathcal{C}_{\text{tail}})\)，总损失为：\(\mathcal{L}_{\text{C2AL}} = \mathcal{L}_{\text{primary}} + \lambda_{\text{head}} \mathcal{L}_{\text{head}} + \lambda_{\text{tail}} \mathcal{L}_{\text{tail}}\)
设计动机：辅助标签只在对应群体内为正，对其他样本为 0——这迫使共享编码器学习群体区分能力。两个群体分布"部分冲突"，辅助梯度打破主任务的多数群体主导
机制可解释性分析:
做什么：从数学上证明辅助损失如何精确改变 FM attention
核心思路：DHEN 的 FM attention 计算 \(\mathbf{G} = \mathbf{X}\mathbf{X}^\top \mathbf{Y}\)，对注意力矩阵 \(\mathbf{Y}\) 求梯度得：\(\nabla_{\mathbf{Y}} \mathcal{L}_{\text{C2AL}} = (\mathbf{X}\mathbf{X}^\top)(\nabla_{\mathbf{G}} \mathcal{L}_{\text{primary}} + \lambda_{\text{aux}} \nabla_{\mathbf{G}} \mathcal{L}_{\text{aux}})\)
关键洞察：辅助梯度 \(\nabla_{\mathbf{G}} \mathcal{L}_{\text{aux}}\) 被直接注入 \(\mathbf{Y}\) 的更新——这不是间接正则化，是直接改变 attention 权重。由于辅助梯度编码了少数群体的特征交互模式，\(\mathbf{Y}\) 被迫从稀疏（只捕获多数群体高频交互）变为稠密多样（也捕获少数群体的特异交互）
实证验证：可视化显示 C2AL 主要影响 attention 层权重，前置层变化很小——确认了理论分析的预测

损失函数 / 训练策略¶

训练时：三头联合优化（primary + head + tail），辅助权重 \(\lambda_{\text{head}}, \lambda_{\text{tail}}\) 为超参数
推理时：丢弃辅助头，恢复为单任务架构——零额外推理开销
这是 C2AL 的核心工程优势：训练 cost 增加很小（辅助头很轻），推理 cost 完全不变

实验关键数据¶

主实验¶

模型/平台	归一化熵降低	少数群体增益	说明
Model A (Instagram CTR)	↓ 0.16%	> 0.30%	DHEN baseline
Model B	显著改善	> 0.30%	不同业务场景
Model C-F	一致正向	一致正向	6 个生产模型全部有效

消融实验（注意力权重分布分析）¶

配置	Attention 权重分布	前置层变化	说明
Baseline	稀疏、轻尾、集中于少数路径	-	多数群体主导
+ C2AL	稠密、多样、更多路径被激活	几乎不变	辅助梯度精确改变 attention
前置层对比	-	变化极小	C2AL 是 attention 层特异的

关键发现¶

C2AL 选择性改变 attention 层：前置层权重分布几乎不变，而 attention MLP 权重发生显著变化——验证了梯度分析预测的"辅助损失直接注入 attention 更新"
权重稠密化 = 更好的少数群体表征：稠密的 \(\mathbf{Y}\) 意味着更多稀疏嵌入参与有意义的二阶交互，少数群体特有的特征组合不再被忽略
跨模型一致性：6 个不同场景的生产模型都展现相同模式——说明机制是通用的，不依赖特定业务场景
推荐系统中 0.16% 的归一化熵降低是显著改进：在数十亿规模上，这对应大量广告收入和用户体验提升

亮点与洞察¶

可解释的辅助学习机制：不同于以往"辅助任务让表征更好但不知道为什么"的解释，C2AL 提供了从辅助损失→梯度→attention 矩阵→表征的完整因果链条。这是本文最核心的贡献——把辅助学习从"经验有效"提升到"机制可解释"
零推理开销的正则化：辅助头只在训练时使用，服务时完全丢弃——在工业系统中至关重要，因为推理延迟直接影响收入
数据驱动的群体发现：不需要人工指定哪些群体"重要"，通过分布散度自动发现——降低了领域知识依赖，使方法更通用
FM attention 的稀疏性问题被首次系统分析：揭示了全局优化导致 attention 退化的机制，这个发现本身对理解大规模推荐模型有独立价值

局限性 / 可改进方向¶

群体发现仍需选择语义轴：虽然散度计算自动化了，但"沿哪个维度切割"仍需领域知识。全自动的群体发现（如聚类+散度）是自然的改进方向
仅验证了 FM-based attention：DHEN 架构特定。Transformer-based 推荐模型（如 SASRec）中的 self-attention 是否有类似的稀疏退化问题值得探索
缺少 A/B 测试结果：6 个模型的离线评估很充分，但没有报告在线 A/B 测试结果。工业论文通常会提供这些数据来证明实际效果
辅助权重 \(\lambda\) 的选择：论文未详细讨论超参数敏感性。在不同模型/场景中是否需要重新调参未知

评分¶

新颖性: ⭐⭐⭐⭐ 群体对比+辅助学习+梯度机制分析的组合新颖，从"经验有效"到"机制可解释"是质的提升
实验充分度: ⭐⭐⭐⭐⭐ Meta 6 个生产模型、数十亿数据点的工业级验证，权重可视化分析充分支持理论预测
写作质量: ⭐⭐⭐⭐ 从问题发现→机制分析→方法设计→实证验证的叙事线清晰，数学推导简洁通透
价值: ⭐⭐⭐⭐ 对大规模推荐系统有直接工程价值，机制分析对理解 FM attention 有学术价值