MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning¶

会议: ICLR 2026
arXiv: 2601.19204
代码: GitHub
领域: 多模态VLM
关键词: 多Agent系统, 层次有限状态自动机, 视觉推理, 可训练状态控制器, 协作与竞争

一句话总结¶

提出MATA（Multi-Agent hierarchical Trainable Automaton），将多Agent视觉推理建模为层次有限状态自动机，顶层状态转移由可训练的hyper agent（基于LLM的状态控制器）学习，每个Agent内部使用规则化的子自动机，通过共享内存实现协作与竞争，在多个视觉推理基准上达到SOTA。

研究背景与动机¶

视觉推理要求模型解读视觉场景中实体间的关系。当前方法存在以下问题：

端到端VLM：隐式推理过程难以审计，在涉及空间关系、计数等复杂查询时容易产生幻觉

组合式方法（如ViperGPT、HYDRA）：提高了可解释性，但多数采用单Agent或手工设计的流水线

多Agent方法：各Agent被分配不相交角色并硬编码管道连接，无法处理错误传播，不支持功能重叠Agent间的竞争

规则转移的僵化性：手写规则转移函数随状态增长变得难以定义

核心问题：如何让系统学会在何时调用哪个Agent？ 作者将这个决策问题建模为有限状态自动机的转移函数学习。

方法详解¶

整体框架¶

MATA是一个层次Mealy机 $\mathcal{M}_\theta = (S, S_0, \Sigma, \Lambda, \delta_\theta, \Gamma)$，包含两层结构： - 顶层（Hyper Automaton）：状态是各个Agent，转移函数 $\delta_\theta$ 由可训练的LLM控制器学习 - 底层（Sub-Automaton）：每个Agent内部是规则化的小型状态机，确保可靠的微控制

关键设计¶

1. 状态定义¶

状态集 $S = S_{\text{agent}} \cup S_{\text{life}}$，其中：

Agent状态（三种Agent代表不同推理路径）： - Oneshot Reasoner：一次性程序生成和执行，适合可直接求解的查询 - Stepwise Reasoner：逐步生成Python程序进行多步推理，适合复杂查询 - Specialized Agent：快速感知专家（如目标检测、简单问答）

生命周期状态：Initial（起点）、Final（终止并输出）、Failure（不可恢复错误）

三个Agent被设计为既协作又竞争：协作体现在后续Agent读取前序Agent写入共享内存的中间结果；竞争体现在功能重叠的Agent可接替失败的Agent。

2. 共享内存¶

所有Agent读写结构化共享内存 $m_t$，累积中间变量、感知结果、程序历史、验证反馈。内存仅追加，确保完整推理过程可审计。每步执行：hyper agent观察 $m_t$ 并选择下一状态 $s_{t+1} = \delta_\theta(s_t, m_t)$。

3. 可训练的Hyper Agent¶

转移函数 $\delta_\theta$ 由SFT微调的LLM实现。从共享内存构建文本提示 $x_t$，LLM映射到可用状态的分布并选择下一状态。

4. 转移轨迹数据生成（MATA-SFT-90K）¶

Step 1：构建转移轨迹树。对每个（图像, 查询）对，在每个决策点分支到所有可用Agent状态，执行对应子自动机，保存内存检查点。

Step 2：自底向上评分。叶节点根据任务指标打分（VQA用Accuracy，VG用IoU），非叶节点取子节点最大值向上传播： $$V(s) = \begin{cases} \text{metric}(\hat{y}_s, y), & s \in \text{Leaves} \\ \max_{s' \in \text{Child}(s)} V(s'), & \text{otherwise} \end{cases}$$

Step 3：生成SFT数据。每个决策点的文本提示配上最优子节点的状态标签，构成训练样本。最终收集90,854个样本。

5. 失败处理机制¶

Agent报告不可恢复错误时，将失败Agent从候选状态中临时移除，让hyper agent重新选择其他Agent，避免无限重试。

损失函数 / 训练策略¶

使用标准SFT损失训练Qwen3 4B作为LLM状态控制器。AdamW优化，cosine decay + 5% warmup，batch 64，训练8 epoch。推理时最大步数 $T=15$。

三种SFT配置：域内（在目标数据集训练集上训练）、域迁移（在非目标数据集上训练）、通用（全部数据联合训练）。

实验关键数据¶

主实验¶

GQA数据集（组合式视觉问答）：

类型	方法	准确率
端到端	InternVL2.5 (8B)	61.5
端到端	InternVL3.5 (8B)	63.8
组合式	HYDRA	52.8
组合式	MATA (General)	64.9

OK-VQA数据集（需要外部知识）：

类型	方法	准确率
端到端	InternVL3.5 (8B)	75.7
组合式	DWIM	62.8
组合式	MATA (Domain-Specific)	76.5

引用表达理解（RefCOCO系列）：

方法	RefCOCO	RefCOCO+	RefCOCOg	Ref-Adv
Florence2-L	95.1	92.5	90.9	71.8
NAVER	96.2	92.8	91.6	75.4
MATA (General)	96.3	93.8	90.7	77.3

消融实验¶

Hyper Agent组件消融：

层次自动机	转移策略	SFT	GQA	OK-VQA	RefCOCO	推理时间
✗	穷举集成	✗	57.7	71.5	87.7	34.58s
✓	随机	✗	57.1	71.1	85.3	6.91s
✓	LLM	✗	58.5	75.1	95.8	8.07s
✓	LLM	✓	64.9	76.5	96.3	8.01s

泛化性分析：跨域迁移性能与域内差距不到1%，表明学到的转移策略高度任务无关。

关键发现¶

组合式方法首次全面超越同等规模端到端VLM：MATA在GQA和OK-VQA上超过InternVL3.5
SFT对性能的巨大提升：仅9万样本SFT，GQA准确率从58.5%提升到64.9%（+6.4%）
小模型也能胜任调度：0.6B经SFT后域内性能已接近4B模型
协作+竞争>纯协作：三Agent设计允许同一任务上竞争，当一个失败时另一个接替
学习转移 >> 规则转移：在Ref-Adv上比手写规则的NAVER提升1.9%

亮点与洞察¶

形式化优雅：将多Agent调度建模为Mealy机转移函数学习，保留可解释性同时获得灵活性
层次分治：跨Agent转移用学习，Agent内部步骤用规则，清晰分离"学什么"和"规则化什么"
数据生成管线：转移轨迹树 + 自底向上评分 + SFT数据生成是可推广的多Agent策略学习框架
System 1 + System 2：Specialized/Oneshot/Stepwise的设计呼应认知科学中的快慢思考系统

局限与展望¶

轨迹树搜索的可扩展性：当前3个Agent可穷举，但Agent增多后搜索代价指数增长
推理延迟：平均8s/query在实时应用中仍较高
对基础模型的依赖：天花板受限于底层VLM和检测器的能力
Failure恢复的简单性：仅通过移除失败Agent处理，更复杂的恢复策略可能更好
训练数据来源有限：仅来自5个数据集的训练集

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 层次自动机+可训练转移函数的框架设计新颖且形式化完备
技术质量: ⭐⭐⭐⭐⭐ — Mealy机形式化、轨迹树数据生成、SFT训练流程环环相扣
实验充分度: ⭐⭐⭐⭐⭐ — 多基准对比+详细消融+泛化分析+模型规模分析
实用性: ⭐⭐⭐⭐ — 框架通用但推理成本较高
写作质量: ⭐⭐⭐⭐⭐ — 形式化清晰，表述严谨
综合: ⭐⭐⭐⭐⭐ (9.0/10)