TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data¶

会议: ECCV 2024
arXiv: 2407.07582
代码: https://github.com/siyi-wind/TIP (有)
领域: 多模态VLM
关键词: 表格-图像预训练, 多模态分类, 数据缺失, 自监督学习, 异构数据

一句话总结¶

提出TIP框架，通过掩码表格重建、图像-表格匹配和对比学习三个自监督任务，在表格数据不完整的条件下学习鲁棒的多模态表示，在自然图像和医学图像分类任务上超越现有方法。

研究背景与动机¶

领域现状：现实数据库中图像和结构化表格是核心两大模态，表格-图像联合学习可以挖掘新的洞察（如医学影像+电子病历），但当前多模态方法主要关注图像-文本或图像-图像对。
现有痛点：(1) 表格数据天然异构（数值+类别，维度不一），与图像存在巨大的模态鸿沟；(2) 现实场景中表格数据频繁缺失（传感器故障、患者隐私等），现有方法假设数据完整无法应对；(3) 早期工作仅用简单的模态融合策略（late fusion、concat），不能有效捕捉跨模态交互。
核心矛盾：表格数据的异构性和不完整性使得标准对齐方法（如CLIP式对比学习）难以直接应用，需要同时解决"如何编码异构不完整表格"和"如何与图像对齐"两个问题。
本文要解决什么？ (1) 设计适配异构不完整表格的编码器；(2) 设计对缺失数据鲁棒的预训练目标；(3) 学习可迁移的表格-图像联合表示。
切入角度：从自监督预训练出发，结合掩码重建（学缺失恢复能力）和跨模态对齐（学模态关联）。
核心idea一句话：通过掩码表格重建任务赋予模型数据缺失鲁棒性，配合图像-表格匹配和对比学习实现跨模态对齐。

方法详解¶

整体框架¶

TIP由图像编码器 \(\phi^i\)、表格编码器 \(\phi^t\)、跨模态交互模块 \(\psi\)、投影头 \(g^i, g^t\) 和任务头 \(h^{itm}, h^{mtr}\) 组成。预训练阶段通过三个自监督任务联合优化：图像-表格对比学习（ITC）、图像-表格匹配（ITM）、掩码表格重建（MTR）。

关键设计¶

异构表格编码器：
- 做什么：将包含数值和类别特征、可能有缺失的表格数据编码为统一表示
- 核心思路：每个表格特征（列）独立tokenize后拼接，数值特征通过线性映射，类别特征通过embedding层，缺失位置用可学习的mask token替代
- 设计动机：传统方法无法处理不同类型特征共存和缺失问题，token化设计允许灵活处理
掩码表格重建（MTR）任务：
- 做什么：随机掩码一定比例 \(\rho\) 的表格特征，让模型在图像辅助下重建缺失值
- 核心思路：将掩码表格 \(\tilde{X}^t\) 与图像特征通过交互模块 \(\psi\) 融合后，由重建头 \(h^{mtr}\) 预测被掩码位置的原始值
- 设计动机：(1) 赋予模型在测试时处理自然缺失的能力；(2) 利用图像信息填补表格缺失，强制学习跨模态互补
图像-表格匹配（ITM）+ Hard Negative Mining：
- 做什么：判断图像-表格对是否匹配，并使用hard negative增加任务难度
- 核心思路：对每个正样本对，从batch内选择对比学习相似度最高的非匹配样本作为hard negative，由匹配头 \(h^{itm}\) 做二分类
- 设计动机：简单的随机负样本太容易区分，hard negative mining确保模型学到更细粒度的匹配模式
图像-表格对比学习（ITC）：
- 做什么：在共享嵌入空间中拉近匹配对、推远不匹配对
- 核心思路：用投影头 \(g^i, g^t\) 将图像/表格特征映射到同一空间做InfoNCE对比
- 设计动机：建立模态间的粗粒度对齐，为ITM和MTR提供基础

损失函数 / 训练策略¶

总损失 \(\mathcal{L} = \frac{1}{3}(\mathcal{L}_{itc} + \mathcal{L}_{itm} + \mathcal{L}_{mtr})\)，三个任务等权联合训练。预训练后冻结编码器，在下游分类任务上微调。

实验关键数据¶

主实验¶

在DVM Car（自然图像+车辆属性表格）和医学影像数据集上验证：

数据集	方法	完整数据准确率	50%缺失准确率	说明
DVM Car	图像 Supervised	~82%	~82%	无表格
DVM Car	Late Fusion	~85%	~78%	缺失时大幅下降
DVM Car	TIP (Ours)	~88%	~85%	缺失下仍保持高性能

消融实验¶

配置	准确率	说明
ITC only	基线	仅对比学习
ITC + ITM	+1.2%	加入匹配任务提升跨模态理解
ITC + ITM + MTR	+2.5%	掩码重建显著提升鲁棒性
w/o Hard Negative	-0.8%	hard negative mining比随机负样本更有效

关键发现¶

在数据完整场景下TIP就已超越有监督和其他SSL方法，说明预训练目标设计的有效性
在50%特征缺失场景下TIP性能相对保持最好，验证MTR任务赋予的缺失鲁棒性
图像模态在表格高度缺失时提供了关键补充信息
预训练表示在不同缺失率下具有良好的泛化性

亮点与洞察¶

填补了表格-图像多模态预训练的空白：大量工作关注图像-文本预训练，TIP将类似思路迁移到表格-图像场景，设计了针对性的编码器和预训练任务。
MTR任务设计巧妙：通过掩码训练自然获得缺失鲁棒性，同时利用图像辅助重建强化跨模态交互——一个任务同时解决两个问题。
实用性强：医学场景中表格缺失极为常见（检查未做、数据丢失），这一方法可直接应用于临床决策辅助。

局限性 / 可改进方向¶

表格编码器相对简单，可探索更强的表格基础模型（如TabNet、FT-Transformer）
仅验证了分类任务，未测试回归、检索等下游场景
缺失模式假设为随机缺失（MCAR），实际可能是非随机缺失（MNAR）
未探索图像缺失的场景（仅处理了表格缺失）

补充说明¶

支持不同缺失率（0%~80%）的鲁棒评估
三个预训练任务等权联合训练(\(\frac{1}{3}\))，简单但有效
表格编码器对数值和类别特征采用不同的tokenization策略
可以扩展到更多模态（如时序数据+图像+表格）

评分¶

新颖性: ⭐⭐⭐⭐ 首个针对表格-图像不完整数据的预训练框架，问题定义新颖
实验充分度: ⭐⭐⭐ 数据集不算多，消融较简单，但自然+医学场景验证较好
写作质量: ⭐⭐⭐⭐ 方法描述清晰，动机合理
价值: ⭐⭐⭐⭐ 对医学、金融等表格密集领域有实际应用价值