跳转至

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

会议: CVPR 2026
arXiv: 2507.08492
代码:
领域: 自监督学习 / 文档图像理解
关键词: Document Dewarping, Dual Dimension, Geometric Lines, UNet, HV Fusion

一句话总结

提出 D2Dewarp——首个从水平和垂直双维度学习文档几何表示的去畸变方法:UNet 双解码器分别预测水平线(文档/表格/文本行的上下边界)和垂直线(左右边界),HV Fusion Module 通过混合注意力交叉融合两个方向的特征,并构建了包含 114K 张图的 DocDewarpHV 数据集提供双维度标注。

研究背景与动机

1. 领域现状

文档图像去畸变(Document Image Dewarping)旨在将拍摄的弯曲/褶皱文档图像恢复为平整状态,是 OCR 和文档分析的关键前处理步骤。现有方法大致分为三类:(i) 基于 3D 坐标回归的方法(如 DewarpNet);(ii) 基于 2D 光流/位移场的方法(如 DocTr);(iii) 基于几何线条的方法(如 RDGR),通过预测文档中的文本行边界线提供几何约束。

2. 痛点

  • 只关注水平线:RDGR 等方法仅利用水平方向的几何线条(文本行的上下边界),完全忽略了垂直方向的结构信息
  • 垂直畸变被忽视:书本折页、表格列边界、段落分栏等场景中垂直方向的弯曲同样严重,但无方法显式建模
  • 特征融合不足:即使同时提取水平和垂直特征,缺乏有效的交叉融合机制也无法充分利用双维度互补信息
  • 数据标注缺失:现有数据集(Doc3D、DocUNet)不提供垂直线标注,限制了双维度学习的可行性

3. 核心矛盾

文档畸变本质是二维空间中的形变,但现有方法只用了一维(水平方向)的几何约束,存在根本性的信息不完备。

4. 要解决什么

同时利用水平和垂直两个维度的几何结构信息来指导文档去畸变,并提供配套数据集。

5. 切入角度

从几何表示学习的双维度出发:分别学习水平线和垂直线的结构特征,再通过注意力机制融合两个方向的互补信息,生成高质量的变形映射。

方法详解

整体框架

D2Dewarp 采用 UNet 架构,包含三个核心模块:

  1. 共享编码器:提取文档图像的通用多尺度特征
  2. 双解码器:两条并行解码器分支分别负责预测水平线图(H-Line Map)和垂直线图(V-Line Map)
  3. HV Fusion Module:在解码器的中间层交叉融合水平和垂直特征,增强几何感知能力

最终输出为 2D backward mapping(位移场),将畸变图像中每个像素映射回平整文档的对应位置。

关键设计

设计一:双解码器架构

  • 做什么:共享编码器输出后分叉为 H-Decoder 和 V-Decoder,各自预测对应方向的几何线条
  • H-Line(水平线):定义为文档中水平结构元素(文本行、表格行、图像、段落)的上下边界线,反映文档在竖直方向上的弯曲模式
  • V-Line(垂直线):定义为垂直结构元素(表格列、段落侧边界、装订线)的左右边界线,反映文档在水平方向上的弯曲模式
  • 设计动机:分离两个方向的解码使模型可以专注学习各方向的几何特征,避免水平和垂直信息在共享解码中相互干扰

设计二:HV Fusion Module

  • 做什么:融合 H-Decoder 和 V-Decoder 中间层的特征,使两个方向互相提供上下文
  • 核心结构
  • 方向感知池化:对水平特征沿 X 方向做 AvgPool(保留垂直空间信息),对垂直特征沿 Y 方向做 AvgPool(保留水平空间信息)
  • Mixed Attention:将池化后的 H/V 特征拼接,做交叉注意力,让水平分支感知垂直结构,反之亦然
  • 方向自注意力:融合后分别通过 X-Self Attention 和 Y-Self Attention 恢复各方向的空间分辨率
  • Sigmoid 重加权:用 Sigmoid 门控将融合后的特征加权叠加回原始解码器特征
  • 设计动机:简单拼接或相加无法有效建模方向间的依赖关系;方向感知池化先压缩无关维度减少计算量,交叉注意力再显式建模跨方向关联

设计三:DocDewarpHV 数据集

  • 规模:114,000 张训练图 + 验证/测试集,分辨率 512×512
  • 标注内容:每张图提供 3D 坐标、UV mapping、H-Line map、V-Line map 四种标注
  • 生成方式:基于 Blender 3D 渲染引擎,将平整文档映射到弯曲 3D 网格上,自动提取水平和垂直边界线
  • 多样性:支持中文和英文文档,包含纯文本、表格、图文混排等多种版式
  • 与 Doc3D 对比:Doc3D 仅有 102K 张且无 V-Line 标注,DocDewarpHV 在规模和标注丰富度上均超越

损失函数 / 训练策略

总损失为重建损失和线条预测损失的加权和:

\[\mathcal{L} = \alpha \cdot \mathcal{L}_{\text{rec}} + \mathcal{L}_{\text{line}}\]
  • \(\mathcal{L}_{\text{rec}}\)(重建损失):L1 损失,计算预测 backward mapping 与 GT 位移场之间的像素级差异
  • \(\mathcal{L}_{\text{line}}\)(线条预测损失):类似 RDGR 的加权 BCE 损失,分别对 H-Line 和 V-Line 预测图计算,正样本(线条像素)加权以缓解正负样本极端不平衡(线条像素占比 < 5%)
  • 权重 \(\alpha\):平衡两个损失的超参数

训练配置:Adam 优化器,学习率 1e-4,batch size 16,300 epochs。在 DocDewarpHV 数据集上训练,在 DocUNet、DIR300、WarpDoc 三个真实场景 benchmark 上测试。

实验关键数据

主实验

表1:DocUNet Benchmark 上的对比(130 张真实畸变文档)

方法 MS-SSIM↑ LD↓ CER↓
DewarpNet 0.4735 8.39 0.4210
DocTr 0.5105 7.76 0.3561
DocGeoNet 0.5040 7.71 0.3806
RDGR 0.5224 7.61 0.3343
RecDocNet 0.5198 7.42 0.3482
D2Dewarp (Ours) 0.5387 7.18 0.3127

表2:DIR300 Benchmark 上的对比(300 张文档)

方法 MS-SSIM↑ LD↓
DewarpNet 0.4868 8.98
DocTr 0.5241 7.94
RDGR 0.5356 7.63
D2Dewarp (Ours) 0.5521 7.28

表3:WarpDoc Benchmark 上的对比 (1020 张文档)

方法 MS-SSIM↑ LD↓ CER↓
DocTr 0.6842 5.31 0.1987
RDGR 0.7015 5.08 0.1842
D2Dewarp (Ours) 0.7234 4.76 0.1653

消融实验

表4:核心组件消融(DocUNet Benchmark)

配置 MS-SSIM↑ LD↓
Baseline(单解码器 + H-Line only) 0.5224 7.61
+ V-Line 分支(双解码器,无融合) 0.5298 7.42
+ 简单拼接融合 0.5315 7.36
+ HV Fusion Module (Full) 0.5387 7.18

表5:HV Fusion Module 内部消融

配置 MS-SSIM↑ LD↓
无方向感知池化(直接交叉注意力) 0.5341 7.31
无 Sigmoid 重加权(直接相加) 0.5328 7.35
无方向自注意力 0.5352 7.29
Full HV Fusion 0.5387 7.18

关键发现

  1. 双维度显著优于单维度:仅加入 V-Line 分支(无融合)即可将 MS-SSIM 从 0.5224 提升到 0.5298,证实垂直几何信息的重要性
  2. 融合机制至关重要:HV Fusion Module 比简单拼接额外贡献 0.72% MS-SSIM 提升,方向感知设计比朴素注意力更有效
  3. 三个 benchmark 一致领先:在 DocUNet/DIR300/WarpDoc 上 MS-SSIM、LD、CER 三个指标全面 SOTA
  4. OCR 性能提升明显:CER 从 RDGR 的 0.3343 降到 0.3127(DocUNet),降幅 6.5%,说明去畸变质量直接改善了下游文字识别
  5. DocDewarpHV 数据集效果:使用 DocDewarpHV 训练比用 Doc3D 训练在 MS-SSIM 上高 1.2%,归因于 V-Line 标注和更大规模

亮点与洞察

  • 直觉简单但长期被忽视:文档畸变显然是二维问题,但所有先前方法只用水平线——D2Dewarp 首次指出并解决了这个盲点
  • 端到端双维度学习:共享编码器 + 双解码器 + HV Fusion 的设计既保证了效率又实现了方向间信息互补
  • 贡献数据集:DocDewarpHV(114K,含 H/V-Line 标注)对社区是重要贡献,解决了缺乏垂直线标注的瓶颈
  • 方向感知注意力设计:先沿对应轴池化压缩再做交叉注意力,比直接全局注意力更高效且几何含义更清晰

局限性 / 可改进方向

  • 数据集通过 3D 渲染生成,与真实场景的分布差距(domain gap)仍可能限制泛化性
  • H-Line 和 V-Line 的定义依赖于规则的文档结构(文本行、表格),对手写文档、不规则排版可能效果不佳
  • 双解码器增加了约 40% 的参数量和计算量,在移动端/边缘设备部署可能受限
  • HV Fusion 固定在解码器特定层,未探索多尺度融合的效果
  • 未与最新的基于 Transformer 全局注意力的方法(如 DocFormerv2)进行对比
  • 仅关注 backward mapping 输出形式,未尝试结合 3D 坐标重建提供更丰富的几何先验

相关工作与启发

  • RDGR [Li et al.]:基于水平文本行线条的去畸变方法,D2Dewarp 的直接前身;本文将其从"单维度"扩展到"双维度"
  • DewarpNet [Das et al.]:首个端到端深度学习去畸变方法,预测 3D 坐标映射;D2Dewarp 证明几何线条比 3D 坐标更有效
  • DocTr [Feng et al.]:引入 Transformer 做文档去畸变,用全局注意力捕获长距离依赖;D2Dewarp 的方向感知注意力是一种更有针对性的设计
  • Doc3D [Das et al.]:100K 规模渲染数据集,是文档去畸变领域的标准训练集;DocDewarpHV 在其基础上增加 V-Line 标注和更多样本
  • 启发:方向解耦的思想可推广到其他文档分析任务——如版面分析可同时关注行切割(水平)和列切割(垂直),表格识别可分别建模行线和列线

评分

  • 新颖性: ⭐⭐⭐⭐ 首次系统引入双维度线条建模,HV Fusion Module设计直观有效
  • 实验充分度: ⭐⭐⭐⭐⭐ 三个benchmark全面评估,包含完整消融实验和Bad Case分析
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,图表丰富,可视化对比直观
  • 价值: ⭐⭐⭐⭐ DocDewarpHV数据集是持续贡献,双维度思路可推广到其他文档任务