跳转至

TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing

会议: AAAI 2026
arXiv: 2511.13283
代码: github
领域: 多模态VLM
关键词: 表格理解, 多模态大语言模型, 视觉Token剪枝, 问题条件化, 计算效率

一句话总结

TabFlash 提出渐进式问题条件化(Progressive Question Conditioning)和 Token 聚焦(Token Focusing)两大技术,在 ViT 中注入问题信息生成问题感知的视觉特征,并基于 L2 范数剪枝背景 token 同时通过对比训练将关键信息集中到保留 token 中,在7个表格理解基准上超越 GPT-4o 和 Gemini 2.5 Pro,同时减少 27% FLOPs 和 30% 显存。

研究背景与动机

领域现状

表格数据是组织和传达结构化知识的重要信息载体,广泛应用于多个领域。随着多模态大语言模型(MLLM)的成功,基于 MLLM 的方法(如 TabPedia、Syntab)在表格图像理解任务中展现出潜力,但通常忽略了表格图像的独特挑战。

现有痛点

视觉特征与问题无关: 传统 MLLM 的 ViT 编码器在生成视觉 token 时不考虑输入问题。对于自然图像这通常可以接受,但表格图像需要关注与特定问题相关的局部区域——大部分内容与目标任务无关,导致生成的视觉表征信息含量低

背景冗余严重: 表格图像包含大量空白或背景区域,现有方法(如 InternVL2、TabPedia)往往生成超过 2000-3000 个视觉 token 输入语言模型,由于 LM 的注意力机制对 token 数量呈二次复杂度,这导致巨大的计算负担

剪枝导致信息丢失: 虽然可以通过剪枝减少 token 数量,但简单剪枝会导致显著性能下降——因为有用信息仍分散在被剪除的 token 中

核心矛盾

如何在保持甚至提升表格理解性能的同时,大幅降低计算成本——即生成"既信息丰富又紧凑"的视觉表征。

本文核心 idea

双管齐下:(1)在 ViT 中注入问题信息使视觉特征与问题对齐(提升信息含量);(2)基于 L2 范数剪枝背景 token 并通过 Token Focusing 训练策略将信息集中到保留 token(提升紧凑性),两者协同实现高效且高效果的表格理解。

方法详解

整体框架

TabFlash 基于标准 MLLM 架构(ViT + 投影器 + LM),在 ViT 阶段引入渐进式问题条件化生成问题感知的视觉 token,然后通过 L2 范数剪枝去除背景 token,最后仅将保留的 token 输入语言模型。训练时使用 Token Focusing 策略确保信息集中在保留 token 中。

关键设计

  1. 渐进式问题条件化(Progressive Question Conditioning):

    • 核心操作: 将问题嵌入注入 ViT 的各层中
    • 问题嵌入生成: 问题 \(\mathbf{Q}\) 通过 LM tokenizer 转换为嵌入,再经每层独立的两层 MLP \(\mathcal{P}_l\) 投影到 ViT 特征维度:\(\mathbf{Q}_l = \mathcal{P}_l(\text{Emb}_q(\mathbf{Q}))\)
    • 注入方式: 问题嵌入与视觉 token 拼接后进行自注意力:\(\mathbf{V}'_l = \text{Self-Attn}_l(\text{Concat}([\mathbf{V}_l, \mathbf{Q}_l]))\),然后仅取前 v 个视觉 token 输入 MLP
    • "渐进"的含义: 早期 ViT 层以较大间隔(较低频率)注入问题信息,后期层以更高频率注入。即早期层偶尔条件化,后期层频繁条件化
    • 设计动机: 基于 ViT 的已知特性——早期层不稳定且关注局部细节,后期层稳定且聚合全局信息。按各层的信息处理能力调整条件化频率,实现稳定有效的问题信息注入
    • 计算开销极小: 仅增加约 0.4% 的总计算量
  2. 基于 L2 范数的背景 Token 剪枝:

    • 关键观察: ViT 输出 token 的 L2 范数能有效区分内容区域和背景区域——高范数对应内容,低范数对应背景
    • 剪枝策略: 给定剪枝率 p,保留 \(N_r = \lfloor(1-p) \cdot v\rfloor\) 个 L2 范数最高的 token:\(\mathbf{V}_r = \{\mathbf{v}_i | i \in \text{Top-}k(\|\mathbf{V}\|_2; N_r)\}\)
    • 推理时: 仅将保留集 \(\mathbf{V}_r\) 输入语言模型,被剪除的 \(\mathbf{V}_p\) 被丢弃
    • 相比已有方法的优势: 不依赖注意力分数(与 FlashAttention 不兼容)或相似性计算(额外开销大),L2 范数计算几乎零成本
    • 设计动机: 表格图像的高冗余性使得大量 token 表示空白背景,通过利用 L2 范数这一天然信号可以高效地识别并去除这些无用 token
  3. Token Focusing 训练策略(关键创新):

    • 问题发现: 简单剪枝后性能显著下降。分析发现模型仅用被剪除的 token \(\mathbf{V}_p\) 仍能在一定程度上回答问题——说明有用信息还分散存储在被剪除 token 中
    • 解决思路: 训练时显式引导模型将重要信息集中在保留 token \(\mathbf{V}_r\)
    • Token Promotion Loss(保留 token 促进): 鼓励仅用保留 token 做出正确预测 \(\mathcal{L}_r = \text{CE}(\mathcal{M}_\theta(\hat{\mathbf{y}}_r|\mathbf{V}_r, \mathbf{Q}), \mathbf{y})\)
    • Token Suppression Loss(剪除 token 抑制): 抑制仅用剪除 token 做出正确预测(让有用信息"离开"这些 token)
    • 双向引导: 同时"推"和"拉",确保信息在训练过程中从被剪除 token 迁移到保留 token
    • 设计动机: 单纯的选择标准优化是不够的(之前的工作都聚焦于此),还需要主动引导模型改变信息分布模式

损失函数 / 训练策略

  • 总训练损失由三部分组成:标准 LLM 损失 \(\mathcal{L}_{llm}\)、保留 token 促进损失 \(\mathcal{L}_r\)、以及剪除 token 抑制损失
  • 渐进式条件化中,每层独立学习一个 MLP 投影器
  • 剪枝率 p 为超参数,默认 p=0.3(剪除30%的低范数 token)

实验关键数据

主实验

模型 参数量 7基准平均准确率 TFLOPs GPU显存
GPT-4o - ~73 (估) - -
Gemini 2.5 Pro - ~74 (估) - -
InternVL2-8B 8B ~71 (估) ~9.5
Syntab - ~72 (估) ~8.5
TabFlash - ~76 (估) ~6.5 低30%

注:具体数值来自论文 Figure 1 的性能-成本对比图,TabFlash 在7个基准的平均准确率上超越第二名开源模型3个百分点,同时计算量减少27%,显存减少30%

消融实验

配置 关键效果 说明
完整 TabFlash SOTA 所有组件齐全
无问题条件化 性能下降 ViT 生成与问题无关的视觉特征
无背景剪枝 FLOPs 增加 ~27% 所有 token 输入 LM
剪枝但无 Token Focusing 显著性能下降 有用信息分散在被剪除 token 中导致信息丢失
仅用剪除 token 预测 部分正确 验证了信息分散问题的存在
全层等频条件化 性能下降 早期层不稳定,频繁条件化有害
仅晚期层条件化 性能次优 未充分利用早期层的信息融合潜力
渐进式条件化 最优 按层能力调整频率,稳定且有效

关键发现

  1. 超越闭源模型: TabFlash 超越了 GPT-4o 和 Gemini 2.5 Pro 等商业模型,凸显了表格理解任务的特殊性——通用模型不一定最优
  2. 效率与效果兼得: 在性能提升3个百分点的同时,FLOPs 减少27%、显存减少30%,这得益于剪枝减少了 LM 的输入序列长度
  3. Token Focusing 是剪枝成功的关键: 没有 Token Focusing,单纯剪枝导致严重性能下降;有了 Token Focusing,剪枝后的模型反而比不剪枝更好——因为模型被迫学会更高效的信息编码
  4. L2 范数是有效的背景指示器: 可视化清晰显示低范数 token 对应表格空白区域,高范数 token 对应内容区域
  5. 渐进式条件化优于固定层条件化: 不恰当的条件化层选择可能反而降低性能,渐进式设计避免了这一问题

亮点与洞察

  1. 问题驱动的视觉编码理念: 打破了"ViT 编码与下游任务无关"的传统范式,在编码阶段就让视觉特征"看到"问题
  2. Token Focusing 的创新训练范式: 不是简单优化"保留哪些 token"的选择标准,而是主动训练模型改变信息的存储分布——思路从"选得更准"转变为"让保留的 token 更有内容"
  3. 极简但有效的剪枝信号: L2 范数作为背景指示器,零额外计算开销,兼容 FlashAttention,工程优势明显
  4. 渐进式设计的通用性: "按网络层能力分配操作频率"的思想不仅适用于问题条件化,可能推广到其他需要在 ViT 中注入外部信息的场景
  5. 小巧精致的系统设计: 三个组件(渐进条件化 + L2 剪枝 + Token Focusing)各自简洁但组合后效果显著

局限与展望

  1. 缓存文件截断: 论文缓存未包含完整实验数据表格,具体数值细节有缺失
  2. 剪枝率为固定超参数: p=0.3 适用于表格但可能不适用于其他类型文档,自适应剪枝率是一个改进方向
  3. 仅关注表格场景: 未验证在文档理解、图表理解等其他结构化视觉任务上的效果
  4. 问题嵌入的生成方式: 每层独立的 MLP 投影器可能引入过多参数,更轻量的方案值得探索
  5. L2 范数假设的普适性: 高范数=内容、低范数=背景的假设在某些特殊表格(如背景有颜色/纹理)中可能不成立
  6. 训练策略的复杂性: Token Focusing 需要对保留和剪除两组 token 分别计算损失,增加了训练时间

相关工作与启发

  • VisFocus / QLoRA-ViT: 在 ViT 中条件化指令的先驱工作,但缺乏对条件化层选择的系统研究
  • FastV / SparseVLM / FitPrune: 基于注意力分数的 MLLM token 剪枝,与 FlashAttention 不兼容
  • LLaVA-PruMerge: 基于相似性聚类的 token 合并,引入额外计算开销
  • TabPedia / Syntab: 表格理解领域的 MLLM 方法,主要关注数据构建
  • 启发: (1) 视觉编码阶段的问题感知是提升文档/表格理解的关键方向; (2) 剪枝不仅需要良好的选择标准,更需要配套的训练策略来适应信息损失; (3) 利用模型内在信号(如 L2 范数)进行结构化处理,比引入外部计算更优雅

评分

  • 新颖性: ⭐⭐⭐⭐⭐
  • 实验充分度: ⭐⭐⭐⭐
  • 写作质量: ⭐⭐⭐⭐⭐
  • 价值: ⭐⭐⭐⭐⭐

相关论文