跳转至

Thinking with Tables (TWT): Enhancing Multi-Modal Tabular Understanding via Neuro-Symbolic Reasoning

日期: 2026-03-25
arXiv: 2603.24004
代码: https://github.com/kunyang-YU/Thinking-with-Tables
领域: 多模态/VLM / 表格理解 / 神经符号推理
关键词: tabular understanding, neuro-symbolic reasoning, code-based reasoning, MLLM, reinforcement learning

一句话总结

提出 TWT,一个面向表格-视觉多模态理解(TVMU)的程序辅助神经符号推理框架:通过代码交互式推理与沙盒环境交互实现信息提取和特征建模,采用两阶段训练(SFT + 自适应损失缩放 RL),在 8 个基准上平均超越 baseline 10%,性能匹敌或超越商业 SOTA LLM。

研究背景与动机

  1. 领域现状:MLLM 在图文理解上进展迅速,但表格作为关键实际数据模态在多模态学习中相对欠缺。表格-视觉多模态理解(TVMU)包含两类核心任务:多模态表格问答(QA)和多模态表格预测。

  2. 现有痛点

    • 结构多样性和数据不完整:表格形式多样(三线表、合并单元格、嵌入文档中),扫描/截图场景下数字文本可能缺失或错误识别
    • 隐式复杂特征依赖:模型难以识别特征间的依赖关系和对预测目标的具体贡献
    • 任务异质性:QA 需要跨模态推理,预测任务主要依赖表格内部结构,流程差异大
  3. 核心矛盾:现有方法要么依赖完整结构化表格(Chain-of-Table),要么受限于预定义操作集,要么只针对单一任务,无法统一处理 TVMU 的多样需求。

  4. 核心 idea:将表格理解建模为代码驱动的交互式推理过程——模型生成代码与外部沙盒环境交互,动态提取信息、建建模特征、执行计算,然后根据执行反馈继续推理。

方法详解

整体框架

输入:表格图像(视觉模态 V)+ 文本查询 Q + 外部沙盒环境 E(含原始表格文件/图像/预训练模型)
输出:最终答案(QA 答案或预测值)
交互协议:<analy> 推理分析 → <code> 代码执行 → <code_results> 执行反馈 → 多轮迭代 → <answer> 最终答案

关键设计

  1. 代码驱动的神经符号推理:

    • 做什么:模型生成 Python 代码在沙盒环境中执行,实现表格解析、数据提取、特征工程、模型训练等操作
    • 核心思路:将复杂表格推理分解为可解释的中间步骤,每步产生代码和执行结果,形成推理链
    • 设计动机:纯神经网络难以精确数值计算和复杂特征建模,代码执行天然适合这些操作;沙盒环境提供安全的执行反馈闭环
  2. Task-Oriented SFT(任务导向监督微调):

    • 做什么:第一阶段训练模型掌握不同 TVMU 任务的处理流程
    • 核心思路:用 Qwen3-VL-Plus 生成高质量推理轨迹数据,经答案验证后作为 SFT 训练集。训练时 mask 代码执行结果(防止记忆),只在模型生成的文本/代码 token 上计算损失
    • 设计动机:不同任务的处理 pipeline 差异大,SFT 让模型先"学会"各类任务的解题范式
  3. Adaptive Loss-Scaled GRPO(自适应损失缩放强化学习):

    • 做什么:第二阶段 RL 进一步提升模型在复杂场景下的能力
    • 核心思路:基于 GRPO,奖励函数聚焦答案正确性(回归任务用连续奖励 \(1 - \min(\frac{|\hat{y}-y|}{|y|+\epsilon}, 1)\),分类用 0/1)。创新点在于自适应损失缩放——只有正常退出的代码段参与梯度计算
    • 设计动机:SFT 后模型已掌握格式规范,RL 阶段可专注于答案质量;排除错误代码避免 reward hacking

沙盒环境

  • Python REPL + timeout 机制防止无限循环
  • 预集成任务相关资源(数据文件、图像、预训练模型)
  • 提供完整执行结果和错误信息供后续推理

实验关键数据

主实验(8 个 TVMU 基准)

模型 TabMWP WikiTQ FinQA TAT-QA Adoption SkinCA Pawpularity Paintings
GPT-5.1 92.50 40.82 47.68 56.38 26.12 65.51 0.366 0.098
Qwen3VL-8B 86.70 50.64 38.24 62.53 25.37 40.38 0.501 0.172
TWT (ours) 98.10 78.02 66.30 75.41 30.17 68.92 0.348 0.089

TWT 在 8 个任务上平均排名第一,在 QA 任务上大幅超越基线(如 WikiTQ 比 Qwen3VL-8B 高 27pp),在预测任务上也显著优于同量级模型。

消融实验

配置 效果
w/o SFT (直接 RL) 模型无法学会正确的任务流程,性能严重下降
w/o RL (只 SFT) 基本能执行但复杂推理和特征建模不够深入
w/o 自适应损失缩放 RL 训练不稳定,错误代码干扰梯度
无沙盒交互 (直接推理) 数值计算和表格解析能力急剧下降

关键发现

  • 代码交互式推理远强于纯文本推理:模型通过代码可以精确处理数值计算、数据过滤、特征工程,这些纯文本推理做不好
  • SFT+RL 两阶段训练互补:SFT 教会基本范式,RL 提升复杂推理深度
  • 表格不完整时性能下降显著(Figure 1),说明从图像中提取表格信息仍有挑战

亮点与洞察

  • 代码作为推理中介的思路在表格场景特别合适:表格数据天然结构化,适合用代码操作(pandas/numpy),比让 LLM 纯文本推理靠谱得多
  • 自适应损失缩放解决了 RL 训练中代码质量参差不齐的问题——只让成功执行的代码参与优化,巧妙避免了为代码质量设计复杂奖励
  • MLLM+LLM 协作生成训练数据的策略有效:MLLM 处理视觉理解,LLM 做精确计算,各取所长

局限性 / 可改进方向

  • 沙盒环境需要预配置任务资源,新任务需要额外设置
  • 代码生成仍可能产生错误或无限循环,timeout 是硬限制不是根本解决
  • 训练数据合成依赖 Qwen3-VL-Plus,质量受限于 teacher 模型能力
  • 未探索更复杂的表格场景(如嵌套表格、跨页关联表格)

相关工作与启发

  • vs Chain-of-Table: CoT 用预定义表格操作分步推理,操作集有限;TWT 用通用代码执行,灵活性更强
  • vs OCTree: OCTree 只做表格预测的特征工程,TWT 统一了 QA 和预测两类任务
  • vs 纯 MLLM (Qwen3VL): 直接用 MLLM 做表格推理在数值计算和特征建模上弱,TWT 通过代码交互大幅提升

评分

  • 新颖性: ⭐⭐⭐⭐ 统一代码驱动框架处理 TVMU + 自适应损失缩放 RL 有创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 个基准 + QA/预测双任务 + 多消融 + 与商业 API 对比
  • 写作质量: ⭐⭐⭐⭐ 问题分析系统(三大挑战),方法动机清晰
  • 价值: ⭐⭐⭐⭐ 代码交互推理范式对表格 AI 有实际应用价值,代码开源