MultiTab: A Scalable Foundation for Multitask Learning on Tabular Data¶

会议: AAAI 2026
arXiv: 2511.09970
代码: Armanfard-Lab/MultiTab
领域: 推荐系统 / 表格数据
关键词: 多任务学习, Transformer, 表格数据, 掩码注意力, 合成数据基准

一句话总结¶

提出MultiTab-Net——首个面向表格数据的多任务Transformer架构，通过多任务掩码注意力机制缓解任务竞争，在推荐、人口普查、物理等多个领域的数据集上显著超越现有MLP-based多任务模型和单任务Transformer模型。

研究背景与动机¶

表格数据+多任务学习的空白¶

表格数据是世界上最丰富的数据类型，广泛应用于金融、医疗、电商等领域。许多场景天然需要同时预测多个相关目标：

医疗：同一份病历可以预测糖尿病和高血压风险

电商：不仅预测点击，还预测加购和购买

推荐系统：同时优化CTR和CVR

多任务学习（MTL）通过共享表示来利用任务间的相关性、提高泛化和效率。但现有的表格MTL工作存在两个问题：

范围狭窄：主要集中在大规模推荐系统（MMoE、PLE、STEM），对更广泛的表格场景探索不足

骨干网络局限：几乎都基于MLP，难以捕捉复杂的特征交互，且在数据丰富时扩展性差

为什么需要Transformer？¶

MLP隐式地通过全连接层学习特征交互，缺乏显式的交互建模机制
Transformer通过自注意力可以动态地建模特征间和样本间的依赖关系
在NLP和CV中，Transformer在大数据场景下的优势已被广泛验证
表格领域的Transformer（FT-T、SAINT）已显示出对特征间和样本间关系建模的能力

核心挑战：任务竞争¶

将Transformer扩展到多任务设置时，引入的任务token改变了注意力矩阵的结构。任务token之间的自由交互可能导致"跷跷板现象"（seesaw phenomenon）——主导任务抢占共享容量，损害整体性能。

方法详解¶

整体框架¶

MultiTab-Net的架构建立在SAINT的基础上，核心创新点： 1. 多token设计：为每个任务分配独立的任务token（而非共享一个CLS token） 2. 多任务掩码注意力：在特征间注意力中限制任务token的交互，缓解竞争

输入处理流程： - \(d\)个特征 + \(t\)个任务token → 各自通过embedding网络映射为维度\(e\)的向量 - 拼接为\(x\in\mathbb{R}^{(d+t)\times e}\) → 通过\(N\)个encoder块 - 每个encoder块包含：特征间注意力（Inter-Feature）+ 样本间注意力（Inter-Sample）+ FFN - 最终\(t\)个任务token分别通过任务专属MLP输出预测

关键设计¶

1. 多任务掩码注意力（Multitask Masked Attention）¶

功能：在特征间注意力中选择性地屏蔽某些token间的交互。

核心思路：在注意力矩阵\(A_i\)的预激活分数上加掩码\(M_A\)：

\[A_i = \text{softmax}\left(\frac{Q_iK_i^\top}{\sqrt{d_k}} + M_A\right)\]

\(M_A\)在被屏蔽位置加\(-\infty\)，softmax后变为0。

三种候选掩码方案：

方案	含义	效果
F↛T	特征token对任务token的注意力被屏蔽	不稳定，有时反降
T↛T	不同任务token之间的注意力被屏蔽	最佳，一致最优
F↛T & T↛T	两者组合	次优

设计动机：T↛T屏蔽阻止任务token之间直接影响彼此，从而缓解任务竞争。但保留T→F（任务token可以注意特征）是必要的，因为任务需要从特征中提取信息。F→T被屏蔽后效果不稳定，说明特征token也需要感知任务上下文。

2. 多token机制 vs 单token¶

功能：为每个任务分配独立的可学习任务token，而非使用BERT风格的共享CLS token。

核心优势（从消融实验中确认）： - 任务数=2时，单/多token差异不大 - 任务数=8时（Higgs数据集），多token + T↛T掩码的\(\Delta_m\)=1.23%，而单token最优配置的\(\Delta_m\)=-6.35% - 单个共享token无法充分捕捉多任务的任务特定信息

3. MultiTab-Bench：合成多任务数据集生成器¶

功能：生成具有可调任务相关性、任务复杂度和任务数量的合成多任务表格数据。

核心思路：通过特征分解构造权重矩阵。给定期望的相关矩阵\(\mathbf{P}\)，进行特征分解\(\mathbf{P}=\mathbf{Q}\boldsymbol{\Lambda}\mathbf{Q}^T\)，构造权重矩阵\(\mathbf{W}=\mathbf{Q}\boldsymbol{\Lambda}^{1/2}\mathbf{U}^T\)，其中\(\mathbf{U}\)由正交单位向量构成。可以证明不同任务的权重向量的余弦相似度恰好等于\(P_{ij}\)。

标签生成：\(y_i=\sum_{k=1}^{d_i}(\mathbf{w}_i^T\mathbf{x})^k+\epsilon_i\)

相比MMoE的合成数据： - 支持任意数量的任务（MMoE仅限2个） - 支持不同任务使用不同多项式度（控制相对难度） - 支持任务特定噪声

损失函数 / 训练策略¶

分类任务使用二元/多类交叉熵，回归任务使用RMSE
使用Adam优化器 + weight decay
早停策略：监控分类任务的平均AUC + 回归任务的平均EV
所有结果基于5个随机种子取平均

实验关键数据¶

主实验¶

模型	AliExpress \(\Delta_m\)↑	ACS Income \(\Delta_m\)↑	Higgs \(\Delta_m\)↑
STL (基线)	0.0000	0.0000	0.0000
MTL	0.1129	0.0612	-0.6531
MMoE	0.0873	0.0893	-0.3525
PLE	0.2778	0.0892	-0.0314
STEM	0.1763	0.0725	0.0571
SAINT	0.1146	0.0948	-1.6514
MultiTab-Net	0.5512	0.1064	1.2337

MultiTab-Net在所有数据集上都取得了最高的多任务增益。特别是在8任务Higgs数据集上，大部分模型的\(\Delta_m\)为负（多任务反而不如单任务），而MultiTab-Net取得了1.23%的正增益。

消融实验¶

配置	AliExpress \(\Delta_m\)	ACS Income \(\Delta_m\)	Higgs \(\Delta_m\)
单token, 无掩码	0.2669	0.0893	-6.3491
多token, 无掩码	0.2579	0.0783	1.1182
多token, F↛T	0.3698	0.0951	0.9626
多token, T↛T	0.5512	0.1064	1.2337
多token, F↛T & T↛T	0.2975	0.1007	1.0197

关键发现：T↛T掩码在所有数据集上一致最优。

计算效率¶

模型	AliExpress (Params/FLOPs M)	ACS Income	Higgs
SAINT（最近的单任务Transformer）	3.62/9.70	0.49/1.35	5.50/15.02
STEM（最新MTL模型）	1.55/3.11	0.69/1.29	1.25/2.51
MultiTab-Net	1.80/4.85	0.28/0.77	0.70/1.90

相比SAINT，MultiTab-Net在ACS Income和Higgs上分别实现约2×和8×的效率提升（约等于任务数）。

关键发现¶

多token机制的优势随任务数增加而增大（2任务时差异小，8任务时差异巨大）
合成数据实验验证了MultiTab-Net在不同任务相关性、任务复杂度和任务数量下的一致优势
非均匀任务复杂度设置下，MultiTab-Net的优势更加明显

亮点与洞察¶

填补空白：首个表格数据的多任务Transformer，将注意力的优势带入MTL+tabular的交叉领域
掩码设计简洁有效：T↛T掩码的直觉很清楚——阻止任务互相干扰——且几乎不增加计算开销
MultiTab-Bench有实用价值：支持任意任务数、可调相关性和难度，为MTL研究提供了标准化的合成基准
从STEM中汲取灵感：STEM用stop-gradient约束后向传播中的跨任务更新，MultiTab-Net则在前向传播的注意力层面实现更直接的隔离

局限与展望¶

数据集规模和多样性有限：仅3个公开数据集，且任务类型主要是分类+回归，缺少如排序等更多样的任务
与XGBoost的比较不够公平：XGBoost的多任务支持有限，仅在输出类型相同时使用multioutput变体
掩码策略是静态的：T↛T一视同仁地屏蔽所有任务间交互，未考虑有些任务间的信息共享可能有益
未探索动态掩码：可根据任务相关性学习adaptive masking
扩展性未验证：任务数>8时的表现未知

评分¶

新颖性: ⭐⭐⭐⭐ （首个表格多任务Transformer，掩码设计虽简单但有效）
实验充分度: ⭐⭐⭐⭐ （3公开数据集+合成数据，但可以更多样）
写作质量: ⭐⭐⭐⭐ （结构清晰，MultiTab-Bench部分的数学推导扎实）
价值: ⭐⭐⭐⭐ （填补空白，开源代码，合成基准有独立价值）