Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs¶
日期: 2026-03-13
arXiv: 2603.12597
代码: 即将开源
领域: LLM Agent / 多模态
关键词: diagram generation, LLM agent, Penrose, knowledge elicitation, visual reasoning benchmark
一句话总结¶
提出 Feynman,一个知识驱动的图表生成 Agent,将知识提取和视觉生成解耦——LLM 枚举领域知识并规划,再翻译为声明式 Penrose 程序并迭代视觉精修,用不到 $400 生成 106K 张对齐的图表-标题对,同时构建了 Diagramma 视觉推理 benchmark。
研究背景与动机¶
-
领域现状: MLLM 在通用视觉任务上进步显著,但在理解和生成概念性图表(数学图、分子结构、算法示意图等)方面仍然薄弱。训练数据匮乏是核心瓶颈。
-
现有痛点: 合成图表的两条路径均有严重缺陷:
- 扩散模型:可以生成美观图像,但图表中的文字不准确、概念关系混乱
- 代码生成(TikZ/SVG):LLM 直接写低级图形代码→编译成功率低,需要耗时的树搜索,难以规模化
- 两者都要求模型同时完成知识提取和视觉生成——太难了
-
核心矛盾: 知识正确性(概念是否正确)和视觉质量(布局是否清晰美观)是两个独立的难题,强行耦合导致两个都做不好。
-
切入角度: 解耦知识提取(LLM 擅长)和视觉生成(专业渲染工具擅长),让 LLM 只负责高级概念描述,Penrose 引擎负责优化布局。
-
核心 idea: LLM 枚举知识→规划视觉元素→写声明式 Penrose Substance 代码(只描述概念和关系,不含視覺细节)→ Penrose 优化渲染引擎自动生成多样化布局。
方法详解¶
整体框架¶
四阶段 Pipeline: Idea(知识枚举)→ Plan(代码规划)→ Iterate(迭代视觉精修)→ Render(Penrose 渲染+多变体生成)
关键设计¶
-
知识枚举(Idea Step):
- 用领域特定 prompt 让 LLM(GPT-4o-mini)枚举知识组件
- 如"列举 N 个具有教学意义的化学反应"
- 利用 LLM 的大规模预训练知识储备
- 关键:只要求概念层面的输出,不要求视觉代码
-
代码规划(Plan Step):
- LLM 将知识组件拆解为视觉元素,列出写 Penrose Substance 程序的步骤
- 显式设计:此步不写可执行代码,只做规划
- 消融实验证明:规划步骤对最终代码生成质量至关重要
-
迭代视觉精修(Iterate Step):
- Feynman 生成 Penrose 程序 → 编译为图表 → 多个 VLM 视觉评委打分和提供反馈
- 评委用布尔值评估质量(简化判断任务),分数低于阈值则返回建议继续迭代
- 三种失败情况:代码无法解析、编译失败、视觉质量不达标
- 最多 \(N_{\max}\) 轮迭代
-
Penrose 渲染引擎的优势:
- Substance(概念)和 Style(视觉表示)分离——Substance 简单声明式,Style 定义视觉映射
- 基于优化的布局:将概念关系翻译为约束 + 目标函数 → L-BFGS 求解
- 天然多样性:同一 Substance,不同随机种子 → 视觉一致但布局多样
- 每个程序生成 10 个变体 → 10693 程序 → 106930 张图表
-
数据质量控制:
- 基于 Levenshtein 距离的代码去重
- 每张图生成问答对:翻译概念为自然语言标题 → LLM 选择推理类型 → 生成 QA + 自验证
训练/资源消耗¶
- 使用 GPT-4o-mini,1550M input+output tokens,成本不到 $400
- 产出 10693 个唯一 Substance 程序,106930 张图表
实验关键数据¶
Diagramma Benchmark(1058 道视觉推理题)¶
| 模型 | 总体准确率 | 数学 | CS | 科学 |
|---|---|---|---|---|
| Claude-3.5-Sonnet | 59.64 | 64.59 | 42.98 | 74.69 |
| GPT-4o | 57.28 | 63.09 | 50.58 | 60.17 |
| Claude3-Opus | 49.15 | 54.11 | 40.35 | 55.60 |
| GPT-4o-mini | 44.42 | 47.63 | 36.55 | 53.53 |
消融实验¶
| 配置 | 编制成功率 | 图表质量 |
|---|---|---|
| 无规划步骤 | 显著下降 | 下降 |
| 无迭代精修 | ~首次编译率 | 缺乏反馈改进 |
| 完整 Feynman | 最高 | 最优 |
关键发现¶
- 即使最强模型(Claude-3.5-Sonnet)也只有 60% 准确率——图表推理仍是 MLLM 的显著弱点
- CS 领域最难(42.98%),科学领域相对容易(74.69%)
- 规划步骤是成功的关键——直接让 LLM 写代码的成功率远低于先规划后编码
- Penrose 的优化渲染比直接生成图像/SVG 在视觉多样性和语义保真度上都更好
亮点与洞察¶
- 解耦知识和视觉是核心洞察:让 LLM 只做它擅长的(知识提取+代码规划),视觉渲染交给专业工具——分工比要求 LLM 全包要好得多
- Penrose 的选择极其关键:声明式语言 + 优化渲染 = 语义保真 + 布局多样性,比 TikZ/SVG 简单一个数量级
- 成本效率惊人: 不到 $400 生成 10 万+ 高质量对齐数据——相比人工标注或大规模爬取高效得多
- Diagramma benchmark 填补了图表视觉推理评估的空白
局限性 / 可改进方向¶
- 高度依赖 Penrose 引擎——Penrose 支持的图表类型有限,无法覆盖所有科学图表
- 知识正确性依赖 LLM,可能有事实错误(尤其在专业领域)
- 目前仅用 GPT-4o-mini,更强模型可能提升质量和成功率
- 106K 数据规模仍然偏小,能否有效提升下游模型的图表理解能力需要验证
评分¶
- 新颖性: ⭐⭐⭐⭐ 知识-视觉解耦的思路+Penrose 集成很有创意
- 实验充分度: ⭐⭐⭐ 有 benchmark 评测和消融,但缺少用数据训练后的下游改进验证
- 写作质量: ⭐⭐⭐⭐ 流程清晰,图例丰富
- 价值: ⭐⭐⭐⭐ 低成本规模化图表数据合成 + 新 benchmark,对多模态研究有实用价值