Towards Benchmarking Foundation Models for Tabular Data With Text¶

会议: ICML 2025
arXiv: 2507.07829
代码: TextTabBench 仓库（开源）
领域: 自监督学习
关键词: tabular data, text features, foundation model, benchmark, TabPFNv2, embedding

一句话总结¶

首个系统性研究含文本特征的表格数据建模：设计定性反例暴露三类文本嵌入的失败模式，手动策划 13 个真实数据集，发现文本特征在 11/13 数据集上提升预测精度，但无单一最优嵌入方法，表明表格+文本仍是未解决问题。

研究背景与动机¶

领域现状：表格基础模型（如 TabPFNv2）正快速发展，自然的下一步是支持混合模态——结构化列与自由文本字段共存。但现有表格基准几乎不包含文本列。

现有痛点：含语义丰富文本特征的真实数据集极难找到——即使穷尽搜索 OpenML 和 Kaggle 也仅少量可用。现有方法在文本处理上存在显著分歧：AutoGluon 用 TF-IDF 稀疏向量，CARTE 用 fastText 句向量，TabPFNv2 API 方法未公开。CARTE 基准的 51 个数据集中，作者调查后发现至多 11 个适合评估"表格+文本"。

核心矛盾：一个基本问题未回答——哪种嵌入策略最适合表格任务？在什么条件下？缺乏公平基准来回答。

本文目标 (1) 暴露现有嵌入方法的具体失败模式；(2) 策划高质量"表格+文本"基准；(3) 系统比较嵌入策略在 SOTA 模型上的表现。

切入角度：从定性和定量两层面出发——先用合成反例构造每种嵌入的精确失败条件，再在真实数据上量化评估。

核心 idea：揭示表格基础模型的文本处理能力仍有显著不足，为社区提供诊断工具（反例）和评测基础设施（基准）。

方法详解¶

整体框架¶

本文不提出新模型，通过三个互补贡献推进理解：(1) 定性调查——构造暴露嵌入失败的合成实验；(2) 基准策划——按五条规则筛选真实数据集；(3) 定量实验——在基准上系统评估。

关键设计¶

定性反例实验:
- 功能：精确诊断 TF-IDF/fastText/BERT 各自的失败模式
- 核心思路：选取 5 个 OpenML 二分类数据集，构造两个基线（"No Text"用原始特征；"Complete Leak"泄露标签→100%准确率）。三组压力测试：
  - N-Gram Break：将泄露标签替换为同义词（训练"good"→测试"great"等），TF-IDF 因 OOD 词汇失效，fastText 和 BERT 保持 100%
  - Simple NLP Break：标签周围填充随机词（"apple mountain positive girl"），fastText 词向量平均被噪声淹没退化，TF-IDF 和 BERT 稳定
  - LLM Break：标签周围填充语义冲突词（"favourable positive sad charming"），BERT 和 fastText 被歧义干扰，TF-IDF 靠词频驱动反而鲁棒
- 设计动机：同义词变化、随机噪声、语义歧义在真实长文本中极为常见，每种嵌入在其中一种模式下系统性失败
基准数据集策划规则:
- 功能：确保基准有意义地评估"表格数据中的文本处理"
- 五条规则：(i) 真实自由文本（非短编码）；(ii) 双信号要求（文本+结构特征都有预测信息）；(iii) 表格预测任务（排除推荐/检索）；(iv) 可访问性（无需特殊权限）；(v) 领域和目标多样性
- 最终 13 个数据集：覆盖二分类（fraud/kick/osha）、多分类（cards/complaints/spotify）、回归（airbnb/beer/houses/laptops/mercari/permits/wine），行数 984-100K
嵌入策略与评估管道:
- 功能：公平比较不同嵌入在 SOTA 模型上的效果
- 三种嵌入：(1) fastText 句向量；(2) Skrub TableVectorizer（GapEncoder）；(3) AutoGluon TextNgramFeatureGenerator（TF-IDF 管道）
- 模型：TabPFNv2（本地）、XGBoost（本地）、TabPFNv2 API、AutoGluon Tabular Predictor
- 因 TabPFNv2 内存限制，特征数限制在 300 以内，测试 SHAP/PCA/Lasso/t-test 等降维

损失函数¶

本文为基准研究，不涉及新损失函数。

实验关键数据¶

文本 vs 无文本对比（Table 2，SHAP 降维，各模型最佳嵌入）¶

数据集	任务	TabPFNv2 有文本	TabPFNv2 无文本	XGBoost 有文本	XGBoost 无文本
beer	回归	0.646±0.023	0.579±0.020	0.594±0.036	0.468±0.020
mercari	回归	0.237±0.050	0.001±0.016	0.110±0.062	0.001±0.006
spotify	多分类	0.815±0.010	0.663±0.016	0.807±0.012	0.636±0.027
frauds	二分类	0.962±0.008	0.852±0.006	0.958±0.004	0.849±0.015
kick	二分类	0.779±0.016	0.702±0.010	0.769±0.014	0.657±0.013

各嵌入方法获胜统计¶

嵌入方法	跨所有模型最佳数据集数/13
fastText	7
AutoGluon Pipeline	5
Skrub	1

关键发现¶

文本特征在 11/13 数据集上提升预测精度，在 mercari 上从近 0 提升到 0.237（文本几乎是唯一信号源）
没有单一最优嵌入方法：fastText 最常获胜（7/13）但不统治全局
没有单一最优降维方法：SHAP 最常最优但不总赢
本地模型+自选嵌入有时超越 API，说明嵌入策略的优化空间仍大
TabPFNv2 API 有文本时一致性更好但增益幅度不如本地最优嵌入

亮点与洞察¶

合成反例的诊断价值突出：N-Gram/NLP/LLM Break 三组实验精确定位每种嵌入盲区，研究者可根据数据文本特性选择嵌入
CARTE 基准的系统审查：发现 51 个数据集中大量不符合"表格+文本"评测要求（不是预测任务 / 偏向短分类文本 / 预处理偏向 CARTE / 同源重复），审查本身对社区有价值
"无赢家"结论的建设性意义：明确指出表格+文本是未解决问题，为新方法提供具体评测基础设施
对数据集创建者的呼吁：建议发布聚合前的原始数据，保留文本变异信息

局限性¶

策划数据集数量有限（13 个），覆盖领域可扩展
未测试最新指令微调嵌入模型（如 E5-Mistral、GTE）以及基于 LLM 的嵌入
未与 row-as-text 方法（如 TabLLM）在大样本场景下系统对比
多文本列的联合建模策略未讨论
降维到 300 特征的硬约束可能影响某些嵌入的表达能力

评分¶

⭐⭐⭐⭐ — 填补了表格+文本基准的重要空白。定性反例精准有力，基准策划规则清晰可复现。局限在于未测试更先进嵌入方法和超大规模模型。