跳转至

Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs

日期: 2026-03-13
arXiv: 2603.12597
代码: 即将开源
领域: LLM Agent / 多模态
关键词: diagram generation, LLM agent, Penrose, knowledge elicitation, visual reasoning benchmark

一句话总结

提出 Feynman,一个知识驱动的图表生成 Agent,将知识提取和视觉生成解耦——LLM 枚举领域知识并规划,再翻译为声明式 Penrose 程序并迭代视觉精修,用不到 $400 生成 106K 张对齐的图表-标题对,同时构建了 Diagramma 视觉推理 benchmark。

研究背景与动机

  1. 领域现状: MLLM 在通用视觉任务上进步显著,但在理解和生成概念性图表(数学图、分子结构、算法示意图等)方面仍然薄弱。训练数据匮乏是核心瓶颈。

  2. 现有痛点: 合成图表的两条路径均有严重缺陷:

    • 扩散模型:可以生成美观图像,但图表中的文字不准确、概念关系混乱
    • 代码生成(TikZ/SVG):LLM 直接写低级图形代码→编译成功率低,需要耗时的树搜索,难以规模化
    • 两者都要求模型同时完成知识提取和视觉生成——太难了
  3. 核心矛盾: 知识正确性(概念是否正确)和视觉质量(布局是否清晰美观)是两个独立的难题,强行耦合导致两个都做不好。

  4. 切入角度: 解耦知识提取(LLM 擅长)和视觉生成(专业渲染工具擅长),让 LLM 只负责高级概念描述,Penrose 引擎负责优化布局。

  5. 核心 idea: LLM 枚举知识→规划视觉元素→写声明式 Penrose Substance 代码(只描述概念和关系,不含視覺细节)→ Penrose 优化渲染引擎自动生成多样化布局。

方法详解

整体框架

四阶段 Pipeline: Idea(知识枚举)→ Plan(代码规划)→ Iterate(迭代视觉精修)→ Render(Penrose 渲染+多变体生成)

关键设计

  1. 知识枚举(Idea Step):

    • 用领域特定 prompt 让 LLM(GPT-4o-mini)枚举知识组件
    • 如"列举 N 个具有教学意义的化学反应"
    • 利用 LLM 的大规模预训练知识储备
    • 关键:只要求概念层面的输出,不要求视觉代码
  2. 代码规划(Plan Step):

    • LLM 将知识组件拆解为视觉元素,列出写 Penrose Substance 程序的步骤
    • 显式设计:此步不写可执行代码,只做规划
    • 消融实验证明:规划步骤对最终代码生成质量至关重要
  3. 迭代视觉精修(Iterate Step):

    • Feynman 生成 Penrose 程序 → 编译为图表 → 多个 VLM 视觉评委打分和提供反馈
    • 评委用布尔值评估质量(简化判断任务),分数低于阈值则返回建议继续迭代
    • 三种失败情况:代码无法解析、编译失败、视觉质量不达标
    • 最多 \(N_{\max}\) 轮迭代
  4. Penrose 渲染引擎的优势:

    • Substance(概念)和 Style(视觉表示)分离——Substance 简单声明式,Style 定义视觉映射
    • 基于优化的布局:将概念关系翻译为约束 + 目标函数 → L-BFGS 求解
    • 天然多样性:同一 Substance,不同随机种子 → 视觉一致但布局多样
    • 每个程序生成 10 个变体 → 10693 程序 → 106930 张图表
  5. 数据质量控制:

    • 基于 Levenshtein 距离的代码去重
    • 每张图生成问答对:翻译概念为自然语言标题 → LLM 选择推理类型 → 生成 QA + 自验证

训练/资源消耗

  • 使用 GPT-4o-mini,1550M input+output tokens,成本不到 $400
  • 产出 10693 个唯一 Substance 程序,106930 张图表

实验关键数据

Diagramma Benchmark(1058 道视觉推理题)

模型 总体准确率 数学 CS 科学
Claude-3.5-Sonnet 59.64 64.59 42.98 74.69
GPT-4o 57.28 63.09 50.58 60.17
Claude3-Opus 49.15 54.11 40.35 55.60
GPT-4o-mini 44.42 47.63 36.55 53.53

消融实验

配置 编制成功率 图表质量
无规划步骤 显著下降 下降
无迭代精修 ~首次编译率 缺乏反馈改进
完整 Feynman 最高 最优

关键发现

  • 即使最强模型(Claude-3.5-Sonnet)也只有 60% 准确率——图表推理仍是 MLLM 的显著弱点
  • CS 领域最难(42.98%),科学领域相对容易(74.69%)
  • 规划步骤是成功的关键——直接让 LLM 写代码的成功率远低于先规划后编码
  • Penrose 的优化渲染比直接生成图像/SVG 在视觉多样性和语义保真度上都更好

亮点与洞察

  • 解耦知识和视觉是核心洞察:让 LLM 只做它擅长的(知识提取+代码规划),视觉渲染交给专业工具——分工比要求 LLM 全包要好得多
  • Penrose 的选择极其关键:声明式语言 + 优化渲染 = 语义保真 + 布局多样性,比 TikZ/SVG 简单一个数量级
  • 成本效率惊人: 不到 $400 生成 10 万+ 高质量对齐数据——相比人工标注或大规模爬取高效得多
  • Diagramma benchmark 填补了图表视觉推理评估的空白

局限性 / 可改进方向

  • 高度依赖 Penrose 引擎——Penrose 支持的图表类型有限,无法覆盖所有科学图表
  • 知识正确性依赖 LLM,可能有事实错误(尤其在专业领域)
  • 目前仅用 GPT-4o-mini,更强模型可能提升质量和成功率
  • 106K 数据规模仍然偏小,能否有效提升下游模型的图表理解能力需要验证

评分

  • 新颖性: ⭐⭐⭐⭐ 知识-视觉解耦的思路+Penrose 集成很有创意
  • 实验充分度: ⭐⭐⭐ 有 benchmark 评测和消融,但缺少用数据训练后的下游改进验证
  • 写作质量: ⭐⭐⭐⭐ 流程清晰,图例丰富
  • 价值: ⭐⭐⭐⭐ 低成本规模化图表数据合成 + 新 benchmark,对多模态研究有实用价值