ChArtist: Generating Pictorial Charts with Unified Spatial and Subject Control¶

日期: 2026-03-15
arXiv: 2603.14209
代码: ChArtist
领域: 图像生成
关键词: pictorial chart, diffusion transformer, LoRA, spatial control, data visualization

一句话总结¶

提出 ChArtist，基于 FLUX DiT 训练两个 LoRA（空间控制+主题控制），用 skeleton-based 图表表示和 Spatially-Gated Attention 生成保真且视觉丰富的图形化图表，配套 30K 三元组数据集和统一数据准确度评估指标。

领域现状: 图形化图表（pictorial chart）将视觉元素嵌入数据图表中（如用花朵形状的柱状图），是有效的视觉叙事工具。但创作需要同时平衡数据准确性和视觉美感，目前以人工设计为主。
现有痛点: (a) 自然图像的控制方法（Canny edge、depth map）过于密集，限制了风格变形的灵活性；(b) 稀疏控制（bounding box）又无法精确编码数据信息。没有专为图表设计的控制表示。
核心矛盾: 图表需要严格的数据编码（柱高、线趋势、饼角度必须精确），同时视觉元素需要灵活的变形和风格化。密集控制太死板，稀疏控制太松散。
切入角度: 设计 chart-specific 的 skeleton 表示——只编码数据维度（柱高用竖线、折线用折线段、饼图用径向线），保留其余维度给视觉创作。
核心 idea: Skeleton 控制表示 + 双 LoRA（空间/主题）+ Spatially-Gated Attention 消除双控制干扰。

输入 chart skeleton + (text/reference image) → FLUX DiT backbone + LoRA_S (空间控制) + LoRA_R (主题控制) → Spatially-Gated Attention 门控 → 生成图形化图表。

Skeleton-based Control Representation:
- 做什么：为图表设计极简但精确的空间控制信号
- 核心思路：柱状图 = 单竖线（编码高度）；折线图 = 折线段（编码趋势）；饼图 = 两条径向线（编码起止角度）
- 设计动机：在控制密度谱系的"最佳甜区"——精确编码数据维度，最小结构约束，从而最大化视觉变形空间
双 LoRA（LoRA_S + LoRA_R）:
- 做什么：分别学习空间控制和主题控制
- 核心思路：LoRA_S 从 (skeleton, pictorial chart) 对学习；LoRA_R 从 (reference, pictorial chart) 对学习。两者用不同位置编码——skeleton 与 latent 共享 RoPE 位置索引（空间对齐），reference 偏移 Δ
- 可独立或联合使用
Spatially-Gated Attention:
- 做什么：消除并行组合两个 LoRA 时的交叉条件干扰
- 核心思路：从 skeleton query 和 latent key 的注意力计算空间 mask \(M = \sum_{i \in I_S} (W_{S \to X})_i\)，用 mask 门控 subject attention：\(W'_{X \to R} = M \odot W_{X \to R} + \beta \cdot (1-M) \odot W_{X \to R}\)
- 设计动机：并行组合导致 structure misalignment（主题扭曲骨架）和 style leakage（主题溢出到背景）。门控确保主题只在骨架区域内表达

方法	Bar Acc↑	Line Acc↑	Pie Acc↑	Avg CLIP-T↑
ControlNet-Canny	0.741	0.819	0.725	0.204
ControlNet-Depth	0.686	0.858	0.626	0.215
Inpainting	0.923	0.754	0.794	0.209
ChArtist	0.894	0.920	0.778	0.268