Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework¶
会议: AAAI 2026 (Oral)
arXiv: 2506.02454
代码: https://github.com/rickyang1114/multimodal-deepresearcher
领域: LLM Agent / 多模态报告生成 / 数据可视化
关键词: 深度研究Agent, 图文交替报告, 形式化可视化描述FDV, D3.js图表生成, Actor-Critic图表精炼
一句话总结¶
提出 Multimodal DeepResearcher,一个四阶段 Agent 框架从零生成图文交替研究报告:通过形式化可视化描述(FDV)让 LLM 学习和生成多样化图表,结合 Actor-Critic 迭代精炼机制(LLM生成D3.js代码→浏览器渲染→多模态LLM评审),在自建 MultimodalReportBench 上达到 82% 整体胜率(Claude 3.7),人类评估 100% 胜率。
研究背景与动机¶
- 领域现状:深度研究框架(如 Deep Research)已能让 LLM 通过迭代检索和推理生成综合文本报告,但输出仅限于纯文本——缺少图表、可视化等多模态内容。
- 现有痛点:真实的研究报告广泛使用图表来高效传达信息,但自动生成图文交替报告面临两大挑战:(a) 如何设计信息丰富且多样的可视化?LLM 缺乏对图表设计的系统性理解;(b) 如何将可视化与文本有机整合?图表不仅是装饰,需要与文本内容紧密关联。
- 核心矛盾:LLM 天然处理文本,但可视化是视觉对象——需要一种桥梁让 LLM 既能"理解"已有的高质量图表,又能"生成"新的多样化图表。
- 切入角度:受 Wilkinson 的 Grammar of Graphics 启发,设计 FDV(Formal Description of Visualization)——一种结构化的文本描述格式,将图表的布局、缩放、数据、视觉标记四个维度用文本表示,让 LLM 可以通过 in-context learning 学习图表设计模式。
- 核心 idea 一句话:用 FDV 文本化图表+四阶段 Agent pipeline(搜索→示例文本化→规划→图文生成)+Actor-Critic 渲染精炼,从零生成高质量图文交替研究报告。
方法详解¶
整体框架¶
四阶段 pipeline: 1. Researching:迭代检索和合成相关信息 2. Exemplar Report Textualization:将人工示例报告中的图表转为 FDV 文本表示 3. Planning:生成内容大纲和可视化风格指南 4. Multimodal Report Generation:生成文本+图表代码+迭代精炼
关键设计¶
- FDV(Formal Description of Visualization):
- 做什么:将可视化图表结构化为 4 个维度的文本描述
- 核心思路:Layout(子图布局、空间定位、边距、标题位置)+ Scale(数据到视觉通道的映射逻辑)+ Data(数值、文本元素、标签、图例)+ Marks(视觉元素设计:柱形/折线/点的字体、颜色、交互)
-
设计动机:非结构化自然语言无法精确描述复杂可视化的所有细节(如一个仪表板的多子图布局),FDV 提供了 LLM 可学习、可生成的结构化规范
-
Stage 1: Researching(研究阶段):
- 做什么:针对给定主题迭代进行网络搜索和信息合成
-
核心思路:用 GPT-4o-mini 生成关键词→搜索→分析检索内容→合成为结构化"学习点"→生成新的研究问题进行下一轮搜索(迭代深化)
-
Stage 2: Exemplar Report Textualization(示例文本化):
- 做什么:将人工创建的高质量多模态报告转为纯文本,使 LLM 可通过 in-context learning 学习图文交替的模式
-
核心思路:用多模态 LLM(Claude 3.7)识别示例报告中的图表,提取其 FDV 表示,将图片替换为文本描述。让 LLM 理解"什么样的文本段落后应该放什么类型的图表"
-
Stage 4: Actor-Critic 图表精炼:
- 做什么:迭代优化生成的可视化图表质量
- 核心思路:三步循环——(a) Actor(文本 LLM):从 FDV 规范生成 D3.js 代码;(b) Browser Tool:渲染代码、捕获控制台错误/警告、截图;(c) Critic(多模态 LLM):检查渲染结果的视觉问题(元素重叠、清晰度不足)+ 控制台错误。循环最多 3 次或通过质量检查
- 设计动机:一次性生成的 D3.js 代码经常有渲染问题(重叠、比例不对),Actor-Critic 闭环通过实际渲染反馈来修正
评估框架¶
MultimodalReportBench:100 个多样化主题(科技、医疗、教育、气候等),5 个评估维度(信息量、连贯性、可验证性、可视化质量、可视化一致性)。
实验关键数据¶
主实验¶
| 模型 | 整体胜率 | 可验证性 | 可视化质量 |
|---|---|---|---|
| Claude 3.7 Sonnet (MDR) | 82% | 86% | 80% |
| 开源模型 (MDR) | 55% | — | — |
| 人类评估 (20 topics) | 100% | — | — |
图表质量对比(10分制)¶
| 指标 | MDR | Baseline(DataNarrative) |
|---|---|---|
| 布局 | 9.23 | 8.48 |
| 美观度 | 9.12 | 8.38 |
可视化多样性¶
| 图表类型 | MDR | Baseline |
|---|---|---|
| 流程图 | 15 | 2 |
| 仪表板 | 18 | 1 |
| 复杂类型总计 | 280 | 96 |
消融实验¶
| 移除组件 | 性能下降 |
|---|---|
| Planning(第3阶段) | 85% |
| 迭代精炼(第4阶段Critic) | 80% |
| 示例学习(第2阶段) | 70% |
关键发现¶
- 82% 自动胜率 + 100% 人类胜率:与 DataNarrative 基线对比优势明显
- 可视化多样性大幅提升:MDR 生成 280 种复杂图表类型 vs 基线仅 96 种,尤其在流程图(15 vs 2)和仪表板(18 vs 1)上
- Planning 是最关键阶段:去掉后 85% 性能下降,说明结构化规划对图文协调至关重要
- 人类-自动评估一致性高:80% 的评判结果一致,验证了自动评估的可靠性
- 效率代价:MDR 平均 767s vs 基线 373s(~2x),主要来自迭代渲染精炼
亮点与洞察¶
- FDV 是核心创新:解决了"LLM 如何理解和生成可视化"的根本问题。通过 Grammar of Graphics 的四维度结构化描述,将视觉设计转化为 LLM 可操作的文本空间
- Actor-Critic 渲染闭环非常实用:不是让 LLM 凭想象生成代码,而是实际渲染、看截图、读错误日志来迭代修正——这是真正的"grounded"代码生成
- AAAI Oral 实至名归:这个问题非常有实际价值——研究报告、商业分析、新闻可视化都需要图文交替内容,现有 Deep Research 只能输出纯文本是明显的短板
- 示例文本化的 in-context learning 策略很巧妙:不需要训练,通过将高质量示例转为 FDV 文本让 LLM 学习图文交替模式
局限性 / 可改进方向¶
- 空间定位复杂时 D3.js 图表仍有元素重叠问题
- 搜索信息不足时 LLM 会为图表编造虚假数据——这在研究报告中是严重问题
- 生成速度较慢(~13分钟/报告),主要瓶颈在浏览器渲染精炼循环
- 核心代码未完全开源(因公司原因)
- 仅评估了英文报告,多语言支持未验证
相关工作与启发¶
- vs DataNarrative:DataNarrative 只生成简单图表类型,MDR 通过 FDV + 示例学习生成复杂多样的可视化(仪表板、思维导图、信息图)
- vs Deep Research(OpenAI):Deep Research 输出纯文本报告,MDR 首次实现图文交替
- 对 Agent 研究的启示:Agent + 浏览器工具(渲染、截图、读日志)的组合模式可以迁移到所有需要"代码执行验证"的场景(如网页开发、UI 设计)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ FDV+图文交替报告生成是全新任务,AAAI Oral级别的开创性工作
- 实验充分度: ⭐⭐⭐⭐ 自动评估+人类评估+消融+多样性分析,但只有一个基线对比
- 写作质量: ⭐⭐⭐⭐ 四阶段框架描述清晰,FDV设计有理论支撑
- 价值: ⭐⭐⭐⭐⭐ 解决了Deep Research输出纯文本的核心短板,对研究助手/商业分析有直接应用价值