Multimodal DeepResearcher: Generating Text-Chart Interleaved Reports From Scratch with Agentic Framework¶

会议: AAAI 2026 (Oral)
arXiv: 2506.02454
代码: https://github.com/rickyang1114/multimodal-deepresearcher
领域: LLM Agent / 多模态报告生成 / 数据可视化
关键词: 深度研究Agent, 图文交替报告, 形式化可视化描述FDV, D3.js图表生成, Actor-Critic图表精炼

一句话总结¶

提出 Multimodal DeepResearcher，一个四阶段 Agent 框架从零生成图文交替研究报告：通过形式化可视化描述（FDV）让 LLM 学习和生成多样化图表，结合 Actor-Critic 迭代精炼机制（LLM生成D3.js代码→浏览器渲染→多模态LLM评审），在自建 MultimodalReportBench 上达到 82% 整体胜率（Claude 3.7），人类评估 100% 胜率。

研究背景与动机¶

领域现状：深度研究框架（如 Deep Research）已能让 LLM 通过迭代检索和推理生成综合文本报告，但输出仅限于纯文本——缺少图表、可视化等多模态内容。
现有痛点：真实的研究报告广泛使用图表来高效传达信息，但自动生成图文交替报告面临两大挑战：(a) 如何设计信息丰富且多样的可视化？LLM 缺乏对图表设计的系统性理解；(b) 如何将可视化与文本有机整合？图表不仅是装饰，需要与文本内容紧密关联。
核心矛盾：LLM 天然处理文本，但可视化是视觉对象——需要一种桥梁让 LLM 既能"理解"已有的高质量图表，又能"生成"新的多样化图表。
切入角度：受 Wilkinson 的 Grammar of Graphics 启发，设计 FDV（Formal Description of Visualization）——一种结构化的文本描述格式，将图表的布局、缩放、数据、视觉标记四个维度用文本表示，让 LLM 可以通过 in-context learning 学习图表设计模式。
核心 idea 一句话：用 FDV 文本化图表+四阶段 Agent pipeline（搜索→示例文本化→规划→图文生成）+Actor-Critic 渲染精炼，从零生成高质量图文交替研究报告。

方法详解¶

整体框架¶

四阶段 pipeline： 1. Researching：迭代检索和合成相关信息 2. Exemplar Report Textualization：将人工示例报告中的图表转为 FDV 文本表示 3. Planning：生成内容大纲和可视化风格指南 4. Multimodal Report Generation：生成文本+图表代码+迭代精炼

关键设计¶

FDV（Formal Description of Visualization）:
做什么：将可视化图表结构化为 4 个维度的文本描述
核心思路：Layout（子图布局、空间定位、边距、标题位置）+ Scale（数据到视觉通道的映射逻辑）+ Data（数值、文本元素、标签、图例）+ Marks（视觉元素设计：柱形/折线/点的字体、颜色、交互）
设计动机：非结构化自然语言无法精确描述复杂可视化的所有细节（如一个仪表板的多子图布局），FDV 提供了 LLM 可学习、可生成的结构化规范
Stage 1: Researching（研究阶段）:
做什么：针对给定主题迭代进行网络搜索和信息合成
核心思路：用 GPT-4o-mini 生成关键词→搜索→分析检索内容→合成为结构化"学习点"→生成新的研究问题进行下一轮搜索（迭代深化）
Stage 2: Exemplar Report Textualization（示例文本化）:
做什么：将人工创建的高质量多模态报告转为纯文本，使 LLM 可通过 in-context learning 学习图文交替的模式
核心思路：用多模态 LLM（Claude 3.7）识别示例报告中的图表，提取其 FDV 表示，将图片替换为文本描述。让 LLM 理解"什么样的文本段落后应该放什么类型的图表"
Stage 4: Actor-Critic 图表精炼:
做什么：迭代优化生成的可视化图表质量
核心思路：三步循环——(a) Actor（文本 LLM）：从 FDV 规范生成 D3.js 代码；(b) Browser Tool：渲染代码、捕获控制台错误/警告、截图；(c) Critic（多模态 LLM）：检查渲染结果的视觉问题（元素重叠、清晰度不足）+ 控制台错误。循环最多 3 次或通过质量检查
设计动机：一次性生成的 D3.js 代码经常有渲染问题（重叠、比例不对），Actor-Critic 闭环通过实际渲染反馈来修正

评估框架¶

MultimodalReportBench：100 个多样化主题（科技、医疗、教育、气候等），5 个评估维度（信息量、连贯性、可验证性、可视化质量、可视化一致性）。

实验关键数据¶

主实验¶

模型	整体胜率	可验证性	可视化质量
Claude 3.7 Sonnet (MDR)	82%	86%	80%
开源模型 (MDR)	55%	—	—
人类评估 (20 topics)	100%	—	—

图表质量对比（10分制）¶

指标	MDR	Baseline(DataNarrative)
布局	9.23	8.48
美观度	9.12	8.38

可视化多样性¶

图表类型	MDR	Baseline
流程图	15	2
仪表板	18	1
复杂类型总计	280	96

消融实验¶

移除组件	性能下降
Planning（第3阶段）	85%
迭代精炼（第4阶段Critic）	80%
示例学习（第2阶段）	70%

关键发现¶

82% 自动胜率 + 100% 人类胜率：与 DataNarrative 基线对比优势明显
可视化多样性大幅提升：MDR 生成 280 种复杂图表类型 vs 基线仅 96 种，尤其在流程图(15 vs 2)和仪表板(18 vs 1)上
Planning 是最关键阶段：去掉后 85% 性能下降，说明结构化规划对图文协调至关重要
人类-自动评估一致性高：80% 的评判结果一致，验证了自动评估的可靠性
效率代价：MDR 平均 767s vs 基线 373s（~2x），主要来自迭代渲染精炼

亮点与洞察¶

FDV 是核心创新：解决了"LLM 如何理解和生成可视化"的根本问题。通过 Grammar of Graphics 的四维度结构化描述，将视觉设计转化为 LLM 可操作的文本空间
Actor-Critic 渲染闭环非常实用：不是让 LLM 凭想象生成代码，而是实际渲染、看截图、读错误日志来迭代修正——这是真正的"grounded"代码生成
AAAI Oral 实至名归：这个问题非常有实际价值——研究报告、商业分析、新闻可视化都需要图文交替内容，现有 Deep Research 只能输出纯文本是明显的短板
示例文本化的 in-context learning 策略很巧妙：不需要训练，通过将高质量示例转为 FDV 文本让 LLM 学习图文交替模式

局限性 / 可改进方向¶

空间定位复杂时 D3.js 图表仍有元素重叠问题
搜索信息不足时 LLM 会为图表编造虚假数据——这在研究报告中是严重问题
生成速度较慢（~13分钟/报告），主要瓶颈在浏览器渲染精炼循环
核心代码未完全开源（因公司原因）
仅评估了英文报告，多语言支持未验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ FDV+图文交替报告生成是全新任务，AAAI Oral级别的开创性工作
实验充分度: ⭐⭐⭐⭐ 自动评估+人类评估+消融+多样性分析，但只有一个基线对比
写作质量: ⭐⭐⭐⭐ 四阶段框架描述清晰，FDV设计有理论支撑
价值: ⭐⭐⭐⭐⭐ 解决了Deep Research输出纯文本的核心短板，对研究助手/商业分析有直接应用价值