C2AL: Cohort-Contrastive Auxiliary Learning for Large-scale Recommendation Systems¶
会议: ICLR2026
arXiv: 2510.02215
代码: 待确认
领域: others
关键词: recommendation system, auxiliary learning, cohort contrastive, attention mechanism, representation bias
一句话总结¶
提出 C2AL(Cohort-Contrastive Auxiliary Learning),通过数据驱动地发现分布差异最大的用户群体对,构建对比性辅助二分类任务正则化共享编码器,使 FM 注意力权重从稀疏变为稠密,缓解大规模推荐系统中少数群体的表征偏差,在 Meta 6 个生产模型(数十亿数据点)上验证有效。
研究背景与动机¶
- 领域现状:大规模推荐模型(如 DHEN)在单一全局目标下训练,隐含假设用户群体分布同质。工业界常用多任务学习(MTL)引入辅助任务改善表征,但辅助任务设计多依赖经验启发式。
- 现有痛点:真实数据由异质群体(cohort)组成。随着模型和数据扩大,优化偏向高密度区域(多数群体),导致:(a) FM attention 权重稀疏集中——大量特征交互路径被浪费;(b) 少数群体的特征模式被忽略,出现表征偏差(representation bias)。
- 核心矛盾:全局优化只提供"平均"梯度信号,FM attention 收敛到只捕获全局高频特征交互的稀疏状态,缺少群体特异的梯度驱动力。已有的 PCGrad、CAGrad 等多任务梯度方法关注任务冲突管理,但没有建立辅助损失→注意力机制→表征改进的因果链条。
- 本文要解决什么? (a) 有原则地发现分布差异最大的群体对;(b) 构造辅助任务注入群体特异梯度;(c) 提供可解释的机制分析——辅助损失如何精确地改变 FM attention。
- 切入角度:从梯度传播出发分析 FM attention 更新公式,发现辅助损失的梯度会直接叠加到注意力矩阵 \(\mathbf{Y}\) 的更新中,提供了精确的机制解释。
- 核心idea一句话:用分布散度找到对比最大的 head/tail 群体对,构造辅助二分类任务,训练时注入群体特异梯度使 FM attention 稠密化,推理时丢弃辅助头零额外开销。
方法详解¶
整体框架¶
输入:用户-广告特征向量 \(\mathbf{x}\) → 共享编码器 \(f(\mathbf{x};\theta_S)\) 生成嵌入 \(\mathbf{h}\) → 主任务头 \(g_{\text{primary}}\) 预测 CTR。C2AL 在此基础上增加两个辅助头 \(g_{\text{head}}, g_{\text{tail}}\),共享编码器但各自预测对应群体的标签。训练结束后丢弃辅助头,推理架构不变。
关键设计¶
- 对比群体发现(Contrastive Cohort Discovery):
- 做什么:从数据中自动找到分布差异最大的群体对
- 核心思路:沿可解释语义轴(用户价值、年龄等)将数据分割为 \(\{\mathcal{C}_1, \ldots, \mathcal{C}_N\}\),用 baseline 模型的预测分布计算两两之间的散度(KL、JS、Wasserstein、余弦相似度),取差异最大的一对为 \(\mathcal{C}_{\text{head}}\) 和 \(\mathcal{C}_{\text{tail}}\)
-
设计动机:不是随意选群体,而是有原则地找"模型预测行为差异最大"的群体对——这保证辅助梯度信号与主任务梯度"部分冲突",提供最大信息增益
-
对比辅助任务构造(Contrastive Auxiliary Learning):
- 做什么:构造两个群体特异的辅助二分类任务
- 核心思路:\(y_{\text{head}} = y \cdot \mathbb{I}(\mathbf{x} \in \mathcal{C}_{\text{head}})\),\(y_{\text{tail}} = y \cdot \mathbb{I}(\mathbf{x} \in \mathcal{C}_{\text{tail}})\),总损失为:\(\mathcal{L}_{\text{C2AL}} = \mathcal{L}_{\text{primary}} + \lambda_{\text{head}} \mathcal{L}_{\text{head}} + \lambda_{\text{tail}} \mathcal{L}_{\text{tail}}\)
-
设计动机:辅助标签只在对应群体内为正,对其他样本为 0——这迫使共享编码器学习群体区分能力。两个群体分布"部分冲突",辅助梯度打破主任务的多数群体主导
-
机制可解释性分析:
- 做什么:从数学上证明辅助损失如何精确改变 FM attention
- 核心思路:DHEN 的 FM attention 计算 \(\mathbf{G} = \mathbf{X}\mathbf{X}^\top \mathbf{Y}\),对注意力矩阵 \(\mathbf{Y}\) 求梯度得:\(\nabla_{\mathbf{Y}} \mathcal{L}_{\text{C2AL}} = (\mathbf{X}\mathbf{X}^\top)(\nabla_{\mathbf{G}} \mathcal{L}_{\text{primary}} + \lambda_{\text{aux}} \nabla_{\mathbf{G}} \mathcal{L}_{\text{aux}})\)
- 关键洞察:辅助梯度 \(\nabla_{\mathbf{G}} \mathcal{L}_{\text{aux}}\) 被直接注入 \(\mathbf{Y}\) 的更新——这不是间接正则化,是直接改变 attention 权重。由于辅助梯度编码了少数群体的特征交互模式,\(\mathbf{Y}\) 被迫从稀疏(只捕获多数群体高频交互)变为稠密多样(也捕获少数群体的特异交互)
- 实证验证:可视化显示 C2AL 主要影响 attention 层权重,前置层变化很小——确认了理论分析的预测
损失函数 / 训练策略¶
- 训练时:三头联合优化(primary + head + tail),辅助权重 \(\lambda_{\text{head}}, \lambda_{\text{tail}}\) 为超参数
- 推理时:丢弃辅助头,恢复为单任务架构——零额外推理开销
- 这是 C2AL 的核心工程优势:训练 cost 增加很小(辅助头很轻),推理 cost 完全不变
实验关键数据¶
主实验¶
| 模型/平台 | 归一化熵降低 | 少数群体增益 | 说明 |
|---|---|---|---|
| Model A (Instagram CTR) | ↓ 0.16% | > 0.30% | DHEN baseline |
| Model B | 显著改善 | > 0.30% | 不同业务场景 |
| Model C-F | 一致正向 | 一致正向 | 6 个生产模型全部有效 |
消融实验(注意力权重分布分析)¶
| 配置 | Attention 权重分布 | 前置层变化 | 说明 |
|---|---|---|---|
| Baseline | 稀疏、轻尾、集中于少数路径 | - | 多数群体主导 |
| + C2AL | 稠密、多样、更多路径被激活 | 几乎不变 | 辅助梯度精确改变 attention |
| 前置层对比 | - | 变化极小 | C2AL 是 attention 层特异的 |
关键发现¶
- C2AL 选择性改变 attention 层:前置层权重分布几乎不变,而 attention MLP 权重发生显著变化——验证了梯度分析预测的"辅助损失直接注入 attention 更新"
- 权重稠密化 = 更好的少数群体表征:稠密的 \(\mathbf{Y}\) 意味着更多稀疏嵌入参与有意义的二阶交互,少数群体特有的特征组合不再被忽略
- 跨模型一致性:6 个不同场景的生产模型都展现相同模式——说明机制是通用的,不依赖特定业务场景
- 推荐系统中 0.16% 的归一化熵降低是显著改进:在数十亿规模上,这对应大量广告收入和用户体验提升
亮点与洞察¶
- 可解释的辅助学习机制:不同于以往"辅助任务让表征更好但不知道为什么"的解释,C2AL 提供了从辅助损失→梯度→attention 矩阵→表征的完整因果链条。这是本文最核心的贡献——把辅助学习从"经验有效"提升到"机制可解释"
- 零推理开销的正则化:辅助头只在训练时使用,服务时完全丢弃——在工业系统中至关重要,因为推理延迟直接影响收入
- 数据驱动的群体发现:不需要人工指定哪些群体"重要",通过分布散度自动发现——降低了领域知识依赖,使方法更通用
- FM attention 的稀疏性问题被首次系统分析:揭示了全局优化导致 attention 退化的机制,这个发现本身对理解大规模推荐模型有独立价值
局限性 / 可改进方向¶
- 群体发现仍需选择语义轴:虽然散度计算自动化了,但"沿哪个维度切割"仍需领域知识。全自动的群体发现(如聚类+散度)是自然的改进方向
- 仅验证了 FM-based attention:DHEN 架构特定。Transformer-based 推荐模型(如 SASRec)中的 self-attention 是否有类似的稀疏退化问题值得探索
- 缺少 A/B 测试结果:6 个模型的离线评估很充分,但没有报告在线 A/B 测试结果。工业论文通常会提供这些数据来证明实际效果
- 辅助权重 \(\lambda\) 的选择:论文未详细讨论超参数敏感性。在不同模型/场景中是否需要重新调参未知
相关工作与启发¶
- vs PCGrad/CAGrad 等多任务梯度方法:它们管理已知任务间的梯度冲突,但不构造新任务。C2AL 主动构造"部分冲突"的辅助任务——从被动协调到主动设计
- vs MMOE/PLE 等多任务架构:它们通过架构设计学习任务特异的参数分享策略。C2AL 走不同路线——不改架构,只加辅助损失,更适合不想改动线上模型架构的场景
- vs 公平性/偏差缓解方法:传统公平性方法通过重加权或约束优化直接处理群体不平衡。C2AL 的视角不同——它不直接优化公平性指标,而是通过改善 attention 表征间接受益少数群体
评分¶
- 新颖性: ⭐⭐⭐⭐ 群体对比+辅助学习+梯度机制分析的组合新颖,从"经验有效"到"机制可解释"是质的提升
- 实验充分度: ⭐⭐⭐⭐⭐ Meta 6 个生产模型、数十亿数据点的工业级验证,权重可视化分析充分支持理论预测
- 写作质量: ⭐⭐⭐⭐ 从问题发现→机制分析→方法设计→实证验证的叙事线清晰,数学推导简洁通透
- 价值: ⭐⭐⭐⭐ 对大规模推荐系统有直接工程价值,机制分析对理解 FM attention 有学术价值