Recognition-Synergistic Scene Text Editing¶

会议: CVPR 2025
arXiv: 2503.08387
代码: https://github.com/ZhengyaoFang/RS-STE (有)
领域: 多模态VLM
关键词: 场景文字编辑, 文字识别协同, 循环自监督微调, 风格内容解耦, 多模态并行解码

一句话总结¶

提出 RS-STE（Recognition-Synergistic Scene Text Editing）方法，将文字识别与文字编辑统一到一个多模态并行解码器中，利用识别模型隐式解耦风格与内容的天然能力来辅助编辑，并设计循环自监督微调策略使模型能在无配对标注的真实数据上有效训练。

研究背景与动机¶

场景文字编辑（STE）需要在保持原始风格（背景、字体、布局）的同时修改文字内容。传统方法（如 SRNet、MOSTEL、DARLING 等）遵循"显式解耦风格和内容 → 融合目标内容 → 外部识别模型验证内容一致性"的复杂流水线，存在两个核心问题：(1) 显式分离风格和内容本身就很困难，分离不精确会导致融合效果差；(2) 多模块联合优化容易产生次优结果。

作者的关键观察是：文字识别模型天然具备隐式分离风格与内容的能力——如图2所示，识别模型编码的特征空间中，相同文字内容但不同背景风格的图像会聚集在一起。因此，将识别与编辑协同建模，可以同时实现隐式风格-内容解耦和内容一致性保证，大幅简化流水线。

方法详解¶

整体框架¶

RS-STE 由三个组件构成：(1) Input Tokenizer：分别编码目标文本 $T_B$ 和参考风格图像 $I_A$ 为嵌入序列；(2) Multi-modal Parallel Decoder (MMPD)：基于 Transformer 解码器，同时预测原始文本内容 $T_A'$（识别）和目标图像的 token 特征 $\mathbf{D}_{I_B}^i$（编辑）；(3) Image Detokenizer：使用预训练 VAE 解码器从特征还原为目标图像。训练分为两阶段：合成数据预训练 + 真实数据循环自监督微调。

关键设计¶

多模态并行解码器（MMPD）:
- 功能：在统一框架中同时执行文字识别和文字编辑
- 核心思路：初始化文本查询嵌入 $\mathbf{E}_{query}^t \in \mathbb{R}^{L \times C}$ 和图像查询嵌入 $\mathbf{E}_{query}^i \in \mathbb{R}^{N \times C}$，将其与目标文本嵌入和风格图像嵌入拼接后送入 Transformer 解码器：$[\mathbf{D}_{NULL}^t, \mathbf{D}_{NULL}^i, \mathbf{D}_{T_A}^t, \mathbf{D}_{I_B}^i] = \mathcal{F}_{MMPD}([\mathbf{E}_{T_B}^t, \mathbf{E}_{I_A}^i, \mathbf{E}_{query}^t, \mathbf{E}_{query}^i])$。$\mathbf{D}_{T_A}^t$ 用于文字识别，$\mathbf{D}_{I_B}^i$ 用于图像生成
- 设计动机：识别分支迫使模型理解"图像中当前写了什么"（即隐式学习风格-内容解耦），编辑分支利用这一理解生成新内容。两个任务共享特征表达，形成天然协同
循环自监督微调策略（Cyclic Self-Supervised Fine-tuning）:
- 功能：在没有配对标注的真实场景数据上有效训练
- 核心思路：对风格图像 $I_A$ 编辑生成 $I_B'$，然后将 $I_B'$ 作为新的风格图像反向编辑回原始文本 $T_A'$，得到重建图像 $I_A'$。即 $(I_B', T_A') = \mathcal{F}_{RS-STE}(I_A, T_B)$, $(I_A', T_B') = \mathcal{F}_{RS-STE}(I_B', T_A')$。用 $I_A$ 和 $I_A'$ 之间的差异作为监督信号
- 设计动机：STE 缺乏配对真实数据，仅在合成数据上训练存在严重域偏差。循环编辑使模型能利用无标注真实数据自监督学习，且识别损失防止模型退化为恒等映射
输入分词器（Input Tokenizer）:
- 功能：将文本和图像统一编码为可处理的 token 序列
- 核心思路：文本通过字符嵌入矩阵 $\mathbf{E} \in \mathbb{R}^{(|\Sigma|+1) \times C}$ 逐字符编码；图像采用 ViT 风格的 patch 嵌入，用 $P \times P$ 卷积核将 $I_A$ 分为 $N = HW/P^2$ 个 patch
- 设计动机：统一的 token 化使文本和图像可以在同一个 Transformer 解码器中交互处理

损失函数 / 训练策略¶

预训练阶段（合成配对数据）： $$\mathcal{L}^{pre} = \lambda_1 \mathcal{L}_{rec}^{pre} + \lambda_2 \mathcal{L}_{mse}^{pre} + \lambda_3 \mathcal{L}_{per}^{pre}$$ - $\mathcal{L}_{rec}$：交叉熵识别损失，$\lambda_1=1$ - $\mathcal{L}_{mse}$：像素级MSE损失，$\lambda_2=10$ - $\mathcal{L}_{per}$：VGG-16感知损失（relu1_2~relu4_3），$\lambda_3=1$

循环微调阶段（无配对真实数据）： $$\mathcal{L}^{cyc} = \lambda_4 \mathcal{L}_{mse}^{cyc} + \lambda_5 \mathcal{L}_{per}^{cyc} + \lambda_6 \mathcal{L}_{rec}^{cyc\text{-}1} + \lambda_7 \mathcal{L}_{rec}^{cyc\text{-}2}$$ - 两次编辑的识别损失（$\lambda_6=\lambda_7=50$）防止恒等映射退化 - 像素损失（$\lambda_4=10$）和感知损失（$\lambda_5=1$）保证风格一致性 - 在 MLT-2017 或 Union14M-L 真实数据上微调仅1k iterations

实验关键数据¶

主实验¶

数据集	指标	RS-STE	STEEM	MOSTEL	TextCtrl
Tamper-Syn2k	MSE↓	0.0076	0.0122	0.0135	0.0130
Tamper-Syn2k	PSNR↑	22.54	20.83	20.27	20.79
Tamper-Syn2k	RecAcc↑	86.12	78.80	66.54	74.17
Tamper-Scene	RecAcc↑	91.80	-	37.69	84.67
ScenePair	MSE↓	0.0267	-	0.0519	0.0447
ScenePair	RecAcc↑	91.80	-	37.69	84.67
STR Bench Avg	RecAcc↑	82.9	-	36.8	66.2

下游识别增强	模型	无增强 Avg	+MOSTEL Avg	+RS-STE Avg
Union14M-Bench	ABINet	67.3	68.0(+0.7)	69.5(+2.2)
Union14M-Bench	MAERec-S	78.6	78.9(+0.3)	81.1(+2.5)

消融实验¶

配置	MSE↓	PSNR↑	SSIM↑	FID↓	说明
Ours (完整)	0.0076	22.54	72.90	30.29	-
w/o $\mathcal{L}_{rec}^{pre}$	0.0082	22.26	69.70	33.96	去掉识别损失，SSIM下降3.2
w/ 外部识别模型	0.0079	22.44	70.71	31.73	不如内在识别协同
w/o $\mathcal{L}^{cyc}$	-	-	-	-	RecAcc从86.12%降到69.01%
w/o $\mathcal{L}_{rec}^{cyc}$	-	-	-	-	模型退化为恒等映射（RecAcc=0%）

关键发现¶

内在识别vs外部识别：联合训练的识别分支（SSIM=72.90）优于外接预训练识别模型监督（SSIM=70.71），因为内在识别能同时实现风格-内容解耦和内容一致性
循环微调的识别损失是防止退化的关键：去掉 $\mathcal{L}_{rec}^{cyc-1}$ 或 $\mathcal{L}_{rec}^{cyc-2}$ 后模型直接退化为恒等映射（RecAcc=0%），因为模型会学习直接复制输入图像
在标准 STR benchmark 上，RS-STE 用 MLT2017 微调后识别准确率81.8%，用 Union14M-L 可达82.9%，接近原始图像的上限（91.8%）
作为数据增强工具，RS-STE 生成的困难样本使 MAERec-S 在 Union14M-Benchmark 上提升2.5%，远超 MOSTEL 的0.3%

亮点与洞察¶

核心洞察极有说服力：识别模型天然隐式解耦风格和内容——相同文字不同风格在特征空间中聚集（图2），这一定量证据支撑了整个方法设计
极简架构：用一个 Transformer 解码器同时做识别和编辑，无需前景/背景分离模块、无需外部识别验证器，参数量仅54.4M（vs TextCtrl的1216M）
循环微调策略：巧妙利用编辑的可逆性构造自监督信号，解决了STE领域长期存在的"无配对真实数据"难题
下游应用价值：编辑结果可直接作为困难样本增强文字识别模型，形成"编辑→识别"正反馈循环

局限与展望¶

图像分辨率固定为 $32 \times 128$，无法处理大尺寸或非水平文字
基于 minGPT（22.5M参数）的 Transformer 解码器容量有限，可能限制复杂场景下的编辑质量
循环微调策略依赖于"编辑两次能还原"的假设，当第一次编辑质量太差时可能导致训练不稳定
未支持多行文字编辑和任意形状文字

评分¶

新颖性: ⭐⭐⭐⭐ 识别-编辑协同的核心观察有创意，循环微调策略设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 合成+真实+STR benchmark+下游增强全覆盖，消融极其详尽
写作质量: ⭐⭐⭐⭐ 动机清晰，实验丰富，但方法描述略偏冗长
价值: ⭐⭐⭐⭐ STE 领域的 SOTA，且下游数据增强的应用使其实用价值翻倍