DualTSR: Unified Dual-Diffusion Transformer for Scene Text Image Super-Resolution¶

日期: 2026-03-15
arXiv: 2603.14207
代码: 即将发布
领域: 图像生成 / NLP生成
关键词: scene text super-resolution, dual diffusion, flow matching, discrete diffusion, Chinese OCR

一句话总结¶

提出 DualTSR，用单一多模态 Transformer 同时建模图像超分（Conditional Flow Matching）和文字识别（Discrete Diffusion），去除对外部 OCR 的依赖，在中文场景文字超分上取得最优感知质量和文字保真度。

研究背景与动机¶

领域现状: 场景文字图像超分（STISR）要同时保证视觉质量和文字可读性。当前主流范式是 OCR-guided：用预训练 OCR 提取文字 prior 引导超分网络，DiffTSR 更进一步用双分支扩散分别建模图文。
现有痛点: (a) OCR-guided 方法的可靠性受限于外部 OCR 精度——错误预测传播到 SR 网络导致错误笔画/字形；(b) DiffTSR 等多模块架构将文字和图像分支独立建模，用 fusion module 连接，交互深度受限且系统复杂。
核心矛盾: 需要文字语义信息引导超分，但外部 OCR 不可靠；分支架构能力强但交互不够深。能否让模型自己学会文字理解？
切入角度: 如果把图像生成和文字识别放在同一个 Transformer 里联合训练，文字和图像 token 可以在每一层深度交互——模型不再需要外部 OCR，而是自己学会从低分辨率图像推断文字。
核心 idea: Dual diffusion = Flow Matching（连续，图像）+ Discrete Diffusion（离散，文字），共享一个多模态 Transformer backbone，实现端到端联合建模。

方法详解¶

整体框架¶

LR 图像 → VAE 编码到 latent → 同时初始化图像分支（高斯噪声）和文字分支（全 mask 序列）→ 共享 Transformer 迭代去噪（图像用 flow matching 更新，文字用 absorbing-state diffusion 更新）→ 图像 latent 解码为 HR 图像 + 文字序列输出。

关键设计¶

Conditional Flow Matching（图像分支）:
- 做什么：从噪声 latent 生成高分辨率图像 latent
- 核心思路：定义线性路径 \(\mathbf{x}_t = (1-t)\mathbf{x}_0 + t\mathbf{x}_1\)，学习速度场 \(\mathbf{v}_\theta(\mathbf{x}_t, t, \mathbf{c})\)，推理时用 Euler 步积分
- 设计动机：Flow Matching 比标准 DDPM 更高效，path 更直，采样步数更少
Discrete Diffusion（文字分支）:
- 做什么：从全 mask 序列恢复出原始文字
- 核心思路：采用 absorbing-state CTMC——forward 过程将 token 替换为 mask token，reverse 过程预测 clean text。用 NELBO + log-linear schedule \(\alpha_t = 1-t\)
- 设计动机：文字是离散数据，避免 continuous embedding 引入的映射误差
Joint Attention (MM-DiT):
- 做什么：图像和文字 token 深度融合
- 核心思路：借鉴 SD3 的 MM-DiT 设计——图像和文字 token 各自独立做 projection，然后拼接进同一个 self-attention 层，attention 后再 split 回各自分支
- 设计动机：比 DiffTSR 的外部 fusion module 深得多——每一层都做交叉注意力，文字信息可以即时反馈到图像生成（反之亦然）
Model-Guided Training (MG-CFG):
- 做什么：训练时引入 classifier-free guidance 风格的目标修正
- 核心思路：用 EMA teacher 的条件/无条件预测差来修正 flow matching target: \(\mathbf{u}'_t = \mathbf{u}_t + w \cdot (\text{sg}(\mathbf{v}^\text{ema}(\mathbf{x}_t,t,\mathbf{c})) - \mathbf{v}^\text{ema}(\mathbf{x}_t,t,\varnothing))\)
- 设计动机：直接在训练阶段就让模型学会 guidance 效果，推理时不需要额外的 CFG 开销

训练策略¶

三个 loss 联合优化：\(\mathcal{L}_\text{IMG-MG} + \mathcal{L}_\text{TXT} + \mathcal{L}_\text{Joint-MG}\)
Joint loss 用相同时间步同时 corrupt 图文，训练模型同时去噪两个模态
Text 分支用 K=8 antithetic sampling 近似连续时间目标
4×A100, 700k iterations, AdamW lr=1e-4 with cosine decay

实验关键数据¶

主实验（CTR-TSR ×4 超分）¶

方法	PSNR↑	LPIPS↓	FID↓	ACC↑	NED↑
ESRGAN	22.18	0.3986	18.25	43.69%	62.15%
SwinIR	24.73	0.3957	50.89	50.09%	68.93%
SRFormer	25.05	0.3801	46.23	51.83%	70.70%
DiffTSR	20.62	0.3952	22.24	44.87%	63.20%
DualTSR	20.54	0.3292	16.42	57.65%	76.64%

RealCE（真实场景 ×4）¶

方法	LPIPS↓	FID↓	ACC↑	NED↑
SwinIR	0.3271	56.77	62.10%	87.55%
DiffTSR	0.3382	41.13	58.00%	84.44%
DualTSR	0.3277	40.78	62.20%	88.49%

关键发现¶

DualTSR 的 PSNR 低于传统 SR 方法，但 FID/LPIPS/ACC/NED 全面领先——说明 pixel-wise 精度和感知质量/文字保真度存在 trade-off，DualTSR 优化的是后者
相比 DiffTSR（双分支 + fusion），DualTSR 的统一架构在 ACC 上高出 12.78%（CTR-TSR ×4），说明深度融合远好于浅层 fusion
Joint loss 的贡献：联合 corrupt + 联合恢复迫使模型真正学会图文协同，而非各做各的
MG-CFG 在 guidance scale w=1.0 时效果最好

亮点与洞察¶

统一双扩散: 在同一个 Transformer 中同时做 flow matching（连续）和 discrete diffusion（离散），简洁优雅。可推广到任何需要同时生成连续和离散输出的场景
去除外部 OCR 依赖: 让模型通过 joint training 自行学会 text prior，从根源解决 error propagation
Joint attention 的威力: 每层都做图文交互 vs DiffTSR 的偶尔 fusion → ACC 提升 12.78%

局限性 / 可改进方向¶

PSNR 偏低——扩散模型天然倾向生成多样性而非 pixel-exact，如果下游需要精确像素对齐可能是问题
只在中文文字 SR 上评估，英文/多语言泛化性未验证
RealCE 只评估了 300 个 curated 样本子集，不是完整 benchmark
4-step ODE sampler 的推理效率 vs DiffTSR 的比较未详细报告

评分¶

新颖性: ⭐⭐⭐⭐ 统一 flow matching + discrete diffusion 的思路有新意，但 MM-DiT 结构来自 SD3
实验充分度: ⭐⭐⭐ 只有中文 SR 评估，RealCE 是子集，缺少推理速度比较
写作质量: ⭐⭐⭐⭐ 结构清晰，公式自洽
价值: ⭐⭐⭐⭐ 端到端文字 SR 框架，去除 OCR 依赖有实际价值