跳转至

ConTextTab: A Semantics-Aware Tabular In-Context Learner

会议: NeurIPS 2025
arXiv: 2506.10707
代码: https://github.com/SAP-samples/sap-rpt-1-oss
领域: 表格学习 / 基础模型
关键词: 表格数据, 上下文学习, 语义嵌入, TabPFN, 基础模型

一句话总结

提出 ConTextTab,将语义理解融入 table-native ICL 框架,用数据类型特定嵌入并在大规模真实世界表格数据上训练,在语义丰富的 CARTE benchmark 上设立新 SOTA。

研究背景与动机

  1. 领域现状:TabPFN/TabICL 在合成数据上训练,不利用语义信息;TabuLa-8B 有语义理解但受序列化限制。
  2. 核心矛盾:语义感知 vs 表格原生效率的权衡。
  3. 解决方案:用预训练嵌入模型(MiniLM)编码文本/分类值和列名,保持 table-native 结构。

方法详解

整体框架

基于 TabPFN 架构(交替横向/纵向自注意力),替换输入嵌入为数据类型特定编码,并在 T4 数据集(218万张真实表格)上预训练。推理时通过 8-fold bagging 使用最多 8×8192 行上下文。

关键设计

  1. 数据类型特定编码
  2. 文本/分类值:用预训练 all-MiniLM-L6-v2 嵌入(保留语义)→ 可学习线性层映射到目标维度
  3. 日期:拆分 day/month/year 分别嵌入后求和(比转成多特征更 token 高效)
  4. 数值:单维学习向量 × 缩放值 + 偏置(NaN时值为0,偏置充当is-NaN标志),先做 2%-98% 分位数裁剪 + 零均值单位方差缩放
  5. 列名:同样用 MiniLM 嵌入,经独立线性层后与单元格嵌入求和,充当位置编码
  6. Backbone:交替横向(跨列)和纵向(跨行)自注意力。横向无掩码,纵向带掩码(查询行只能注意上下文)。权重共享从 172M 参数降至 16M
  7. Supervised Clustering Head:用余弦相似度矩阵代替传统分类头,同类行推向相似嵌入,异类行推向正交/相反
  8. 优势:支持任意类数、保留标签语义、全置换等变性
  9. 替代架构 (ISAB):对跨行注意力使用 Induced Set Attention Blocks 处理大表格

训练设置

  • T4 数据集:218万张表格(中位数 750 行 × 9 列),随机选 1000 行,50-900 为 query
  • AdamW(lr=\(10^{-4}\)),梯度裁剪,权重共享默认开启
  • 单张 H100 GPU,~10 tables/s,4-12 天训练

实验关键数据

主实验(5个基准、203个数据集、多个基线方法)

基准 ConTextTab排名 说明
CARTE (语义丰富) 第一 显著优于所有ICL方法
OpenML-CC18 (分类) 竞争力强 与调参树无显著差异
TALENT-Tiny 竞争力强 多样基准表现稳定
TabReD (大规模) 中等 大数据集仍不如调参树
少样本 (≤24行) 超越AutoGluon ICL优势明显

关键发现

  • TabPFN 不使用语义信息,在 CARTE 上甚至不如未调参的树模型
  • 训练数据规模对性能至关重要(有专门消融验证)
  • 在语义丰富数据集的低数据区间(128-2048行)一致超越其他方法和 AutoGluon

亮点与洞察

  • 语义感知 + table-native 的最佳结合点:用轻量嵌入模型保留语义而不牲牲效率
  • 真实数据训练是语义知识迁移的关键,合成数据无法提供
  • 权重共享可从 172M 参数降至 16M 且不影响性能——参数效率极高

局限性 / 可改进方向

  • 大数据集不如调参梯度提升树
  • 训练成本较高

相关工作与启发

  • vs TabPFN/TabICL:完全基于合成数据,不使用语义信息,在 CARTE 上甚至不如未调参的树模型
  • vs TabuLa-8B:LLM 序列化不高效,最多 32 行上下文,且不具备行/列置换不变性
  • vs CARTE:CARTE 需要 per-task 微调,ConTextTab 零样本即可使用

评分

  • 新颖性: ⭐⭐⭐⭐ 语义嵌入 + table-native ICL 的组合新颖且合理
  • 实验充分度: ⭐⭐⭐⭐⭐ 5个基准 203 个数据集,超多基线对比
  • 写作质量: ⭐⭐⭐⭐ 条理清晰,结果展示全面
  • 价值: ⭐⭐⭐⭐⭐ 对表格基础模型社区有重要指导价值,开源可复现