Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs¶

日期: 2026-03-13
arXiv: 2603.12597
代码: 即将开源
领域: LLM Agent / 多模态
关键词: diagram generation, LLM agent, Penrose, knowledge elicitation, visual reasoning benchmark

一句话总结¶

提出 Feynman，一个知识驱动的图表生成 Agent，将知识提取和视觉生成解耦——LLM 枚举领域知识并规划，再翻译为声明式 Penrose 程序并迭代视觉精修，用不到 $400 生成 106K 张对齐的图表-标题对，同时构建了 Diagramma 视觉推理 benchmark。

研究背景与动机¶

领域现状: MLLM 在通用视觉任务上进步显著，但在理解和生成概念性图表（数学图、分子结构、算法示意图等）方面仍然薄弱。训练数据匮乏是核心瓶颈。
现有痛点: 合成图表的两条路径均有严重缺陷：
- 扩散模型：可以生成美观图像，但图表中的文字不准确、概念关系混乱
- 代码生成（TikZ/SVG）：LLM 直接写低级图形代码→编译成功率低，需要耗时的树搜索，难以规模化
- 两者都要求模型同时完成知识提取和视觉生成——太难了
核心矛盾: 知识正确性（概念是否正确）和视觉质量（布局是否清晰美观）是两个独立的难题，强行耦合导致两个都做不好。
切入角度: 解耦知识提取（LLM 擅长）和视觉生成（专业渲染工具擅长），让 LLM 只负责高级概念描述，Penrose 引擎负责优化布局。
核心 idea: LLM 枚举知识→规划视觉元素→写声明式 Penrose Substance 代码（只描述概念和关系，不含視覺细节）→ Penrose 优化渲染引擎自动生成多样化布局。

方法详解¶

整体框架¶

四阶段 Pipeline: Idea（知识枚举）→ Plan（代码规划）→ Iterate（迭代视觉精修）→ Render（Penrose 渲染+多变体生成）

关键设计¶

知识枚举（Idea Step）:
- 用领域特定 prompt 让 LLM（GPT-4o-mini）枚举知识组件
- 如"列举 N 个具有教学意义的化学反应"
- 利用 LLM 的大规模预训练知识储备
- 关键：只要求概念层面的输出，不要求视觉代码
代码规划（Plan Step）:
- LLM 将知识组件拆解为视觉元素，列出写 Penrose Substance 程序的步骤
- 显式设计：此步不写可执行代码，只做规划
- 消融实验证明：规划步骤对最终代码生成质量至关重要
迭代视觉精修（Iterate Step）:
- Feynman 生成 Penrose 程序 → 编译为图表 → 多个 VLM 视觉评委打分和提供反馈
- 评委用布尔值评估质量（简化判断任务），分数低于阈值则返回建议继续迭代
- 三种失败情况：代码无法解析、编译失败、视觉质量不达标
- 最多 $N_{\max}$ 轮迭代
Penrose 渲染引擎的优势:
- Substance（概念）和 Style（视觉表示）分离——Substance 简单声明式，Style 定义视觉映射
- 基于优化的布局：将概念关系翻译为约束 + 目标函数 → L-BFGS 求解
- 天然多样性：同一 Substance，不同随机种子 → 视觉一致但布局多样
- 每个程序生成 10 个变体 → 10693 程序 → 106930 张图表
数据质量控制:
- 基于 Levenshtein 距离的代码去重
- 每张图生成问答对：翻译概念为自然语言标题 → LLM 选择推理类型 → 生成 QA + 自验证

训练/资源消耗¶

使用 GPT-4o-mini，1550M input+output tokens，成本不到 $400
产出 10693 个唯一 Substance 程序，106930 张图表

实验关键数据¶

Diagramma Benchmark（1058 道视觉推理题）¶

模型	总体准确率	数学	CS	科学
Claude-3.5-Sonnet	59.64	64.59	42.98	74.69
GPT-4o	57.28	63.09	50.58	60.17
Claude3-Opus	49.15	54.11	40.35	55.60
GPT-4o-mini	44.42	47.63	36.55	53.53

消融实验¶

配置	编制成功率	图表质量
无规划步骤	显著下降	下降
无迭代精修	~首次编译率	缺乏反馈改进
完整 Feynman	最高	最优

关键发现¶

即使最强模型（Claude-3.5-Sonnet）也只有 60% 准确率——图表推理仍是 MLLM 的显著弱点
CS 领域最难（42.98%），科学领域相对容易（74.69%）
规划步骤是成功的关键——直接让 LLM 写代码的成功率远低于先规划后编码
Penrose 的优化渲染比直接生成图像/SVG 在视觉多样性和语义保真度上都更好

亮点与洞察¶

解耦知识和视觉是核心洞察：让 LLM 只做它擅长的（知识提取+代码规划），视觉渲染交给专业工具——分工比要求 LLM 全包要好得多
Penrose 的选择极其关键：声明式语言 + 优化渲染 = 语义保真 + 布局多样性，比 TikZ/SVG 简单一个数量级
成本效率惊人: 不到 $400 生成 10 万+ 高质量对齐数据——相比人工标注或大规模爬取高效得多
Diagramma benchmark 填补了图表视觉推理评估的空白

局限性 / 可改进方向¶

高度依赖 Penrose 引擎——Penrose 支持的图表类型有限，无法覆盖所有科学图表
知识正确性依赖 LLM，可能有事实错误（尤其在专业领域）
目前仅用 GPT-4o-mini，更强模型可能提升质量和成功率
106K 数据规模仍然偏小，能否有效提升下游模型的图表理解能力需要验证

评分¶

新颖性: ⭐⭐⭐⭐ 知识-视觉解耦的思路+Penrose 集成很有创意
实验充分度: ⭐⭐⭐ 有 benchmark 评测和消融，但缺少用数据训练后的下游改进验证
写作质量: ⭐⭐⭐⭐ 流程清晰，图例丰富
价值: ⭐⭐⭐⭐ 低成本规模化图表数据合成 + 新 benchmark，对多模态研究有实用价值