D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping¶

会议: CVPR 2026
arXiv: 2507.08492
代码: 有
领域: 自监督学习 / 文档图像理解
关键词: Document Dewarping, Dual Dimension, Geometric Lines, UNet, HV Fusion

一句话总结¶

提出 D2Dewarp——首个从水平和垂直双维度学习文档几何表示的去畸变方法：UNet 双解码器分别预测水平线（文档/表格/文本行的上下边界）和垂直线（左右边界），HV Fusion Module 通过混合注意力交叉融合两个方向的特征，并构建了包含 114K 张图的 DocDewarpHV 数据集提供双维度标注。

研究背景与动机¶

1. 领域现状¶

文档图像去畸变（Document Image Dewarping）旨在将拍摄的弯曲/褶皱文档图像恢复为平整状态，是 OCR 和文档分析的关键前处理步骤。现有方法大致分为三类：(i) 基于 3D 坐标回归的方法（如 DewarpNet）；(ii) 基于 2D 光流/位移场的方法（如 DocTr）；(iii) 基于几何线条的方法（如 RDGR），通过预测文档中的文本行边界线提供几何约束。

2. 痛点¶

只关注水平线：RDGR 等方法仅利用水平方向的几何线条（文本行的上下边界），完全忽略了垂直方向的结构信息
垂直畸变被忽视：书本折页、表格列边界、段落分栏等场景中垂直方向的弯曲同样严重，但无方法显式建模
特征融合不足：即使同时提取水平和垂直特征，缺乏有效的交叉融合机制也无法充分利用双维度互补信息
数据标注缺失：现有数据集（Doc3D、DocUNet）不提供垂直线标注，限制了双维度学习的可行性

3. 核心矛盾¶

文档畸变本质是二维空间中的形变，但现有方法只用了一维（水平方向）的几何约束，存在根本性的信息不完备。

4. 要解决什么¶

同时利用水平和垂直两个维度的几何结构信息来指导文档去畸变，并提供配套数据集。

5. 切入角度¶

从几何表示学习的双维度出发：分别学习水平线和垂直线的结构特征，再通过注意力机制融合两个方向的互补信息，生成高质量的变形映射。

方法详解¶

整体框架¶

D2Dewarp 采用 UNet 架构，包含三个核心模块：

共享编码器：提取文档图像的通用多尺度特征
双解码器：两条并行解码器分支分别负责预测水平线图（H-Line Map）和垂直线图（V-Line Map）
HV Fusion Module：在解码器的中间层交叉融合水平和垂直特征，增强几何感知能力

最终输出为 2D backward mapping（位移场），将畸变图像中每个像素映射回平整文档的对应位置。

关键设计¶

设计一：双解码器架构¶

做什么：共享编码器输出后分叉为 H-Decoder 和 V-Decoder，各自预测对应方向的几何线条
H-Line（水平线）：定义为文档中水平结构元素（文本行、表格行、图像、段落）的上下边界线，反映文档在竖直方向上的弯曲模式
V-Line（垂直线）：定义为垂直结构元素（表格列、段落侧边界、装订线）的左右边界线，反映文档在水平方向上的弯曲模式
设计动机：分离两个方向的解码使模型可以专注学习各方向的几何特征，避免水平和垂直信息在共享解码中相互干扰

设计二：HV Fusion Module¶

做什么：融合 H-Decoder 和 V-Decoder 中间层的特征，使两个方向互相提供上下文
核心结构：
方向感知池化：对水平特征沿 X 方向做 AvgPool（保留垂直空间信息），对垂直特征沿 Y 方向做 AvgPool（保留水平空间信息）
Mixed Attention：将池化后的 H/V 特征拼接，做交叉注意力，让水平分支感知垂直结构，反之亦然
方向自注意力：融合后分别通过 X-Self Attention 和 Y-Self Attention 恢复各方向的空间分辨率
Sigmoid 重加权：用 Sigmoid 门控将融合后的特征加权叠加回原始解码器特征
设计动机：简单拼接或相加无法有效建模方向间的依赖关系；方向感知池化先压缩无关维度减少计算量，交叉注意力再显式建模跨方向关联

设计三：DocDewarpHV 数据集¶

规模：114,000 张训练图 + 验证/测试集，分辨率 512×512
标注内容：每张图提供 3D 坐标、UV mapping、H-Line map、V-Line map 四种标注
生成方式：基于 Blender 3D 渲染引擎，将平整文档映射到弯曲 3D 网格上，自动提取水平和垂直边界线
多样性：支持中文和英文文档，包含纯文本、表格、图文混排等多种版式
与 Doc3D 对比：Doc3D 仅有 102K 张且无 V-Line 标注，DocDewarpHV 在规模和标注丰富度上均超越

损失函数 / 训练策略¶

总损失为重建损失和线条预测损失的加权和：

\[\mathcal{L} = \alpha \cdot \mathcal{L}_{\text{rec}} + \mathcal{L}_{\text{line}}\]

\(\mathcal{L}_{\text{rec}}\)（重建损失）：L1 损失，计算预测 backward mapping 与 GT 位移场之间的像素级差异
\(\mathcal{L}_{\text{line}}\)（线条预测损失）：类似 RDGR 的加权 BCE 损失，分别对 H-Line 和 V-Line 预测图计算，正样本（线条像素）加权以缓解正负样本极端不平衡（线条像素占比 < 5%）
权重 \(\alpha\)：平衡两个损失的超参数

训练配置：Adam 优化器，学习率 1e-4，batch size 16，300 epochs。在 DocDewarpHV 数据集上训练，在 DocUNet、DIR300、WarpDoc 三个真实场景 benchmark 上测试。

实验关键数据¶

主实验¶

表1：DocUNet Benchmark 上的对比（130 张真实畸变文档）

方法	MS-SSIM↑	LD↓	CER↓
DewarpNet	0.4735	8.39	0.4210
DocTr	0.5105	7.76	0.3561
DocGeoNet	0.5040	7.71	0.3806
RDGR	0.5224	7.61	0.3343
RecDocNet	0.5198	7.42	0.3482
D2Dewarp (Ours)	0.5387	7.18	0.3127

表2：DIR300 Benchmark 上的对比（300 张文档）

方法	MS-SSIM↑	LD↓
DewarpNet	0.4868	8.98
DocTr	0.5241	7.94
RDGR	0.5356	7.63
D2Dewarp (Ours)	0.5521	7.28

表3：WarpDoc Benchmark 上的对比 (1020 张文档)

方法	MS-SSIM↑	LD↓	CER↓
DocTr	0.6842	5.31	0.1987
RDGR	0.7015	5.08	0.1842
D2Dewarp (Ours)	0.7234	4.76	0.1653

消融实验¶

表4：核心组件消融（DocUNet Benchmark）

配置	MS-SSIM↑	LD↓
Baseline（单解码器 + H-Line only）	0.5224	7.61
+ V-Line 分支（双解码器，无融合）	0.5298	7.42
+ 简单拼接融合	0.5315	7.36
+ HV Fusion Module (Full)	0.5387	7.18

表5：HV Fusion Module 内部消融

配置	MS-SSIM↑	LD↓
无方向感知池化（直接交叉注意力）	0.5341	7.31
无 Sigmoid 重加权（直接相加）	0.5328	7.35
无方向自注意力	0.5352	7.29
Full HV Fusion	0.5387	7.18

关键发现¶

双维度显著优于单维度：仅加入 V-Line 分支（无融合）即可将 MS-SSIM 从 0.5224 提升到 0.5298，证实垂直几何信息的重要性
融合机制至关重要：HV Fusion Module 比简单拼接额外贡献 0.72% MS-SSIM 提升，方向感知设计比朴素注意力更有效
三个 benchmark 一致领先：在 DocUNet/DIR300/WarpDoc 上 MS-SSIM、LD、CER 三个指标全面 SOTA
OCR 性能提升明显：CER 从 RDGR 的 0.3343 降到 0.3127（DocUNet），降幅 6.5%，说明去畸变质量直接改善了下游文字识别
DocDewarpHV 数据集效果：使用 DocDewarpHV 训练比用 Doc3D 训练在 MS-SSIM 上高 1.2%，归因于 V-Line 标注和更大规模

亮点与洞察¶

直觉简单但长期被忽视：文档畸变显然是二维问题，但所有先前方法只用水平线——D2Dewarp 首次指出并解决了这个盲点
端到端双维度学习：共享编码器 + 双解码器 + HV Fusion 的设计既保证了效率又实现了方向间信息互补
贡献数据集：DocDewarpHV（114K，含 H/V-Line 标注）对社区是重要贡献，解决了缺乏垂直线标注的瓶颈
方向感知注意力设计：先沿对应轴池化压缩再做交叉注意力，比直接全局注意力更高效且几何含义更清晰

局限性 / 可改进方向¶

数据集通过 3D 渲染生成，与真实场景的分布差距（domain gap）仍可能限制泛化性
H-Line 和 V-Line 的定义依赖于规则的文档结构（文本行、表格），对手写文档、不规则排版可能效果不佳
双解码器增加了约 40% 的参数量和计算量，在移动端/边缘设备部署可能受限
HV Fusion 固定在解码器特定层，未探索多尺度融合的效果
未与最新的基于 Transformer 全局注意力的方法（如 DocFormerv2）进行对比
仅关注 backward mapping 输出形式，未尝试结合 3D 坐标重建提供更丰富的几何先验

评分¶

新颖性: ⭐⭐⭐⭐ 首次系统引入双维度线条建模，HV Fusion Module设计直观有效
实验充分度: ⭐⭐⭐⭐⭐ 三个benchmark全面评估，包含完整消融实验和Bad Case分析
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，可视化对比直观
价值: ⭐⭐⭐⭐ DocDewarpHV数据集是持续贡献，双维度思路可推广到其他文档任务