跳转至

DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation

会议: CVPR 2026 arXiv: 2603.03744 代码: https://github.com/dage-site (有) 领域: 模型压缩 关键词: 多视图几何估计, 双流 Transformer, 深度估计, 知识蒸馏, 高分辨率推理

一句话总结

提出 DAGE 双流 Transformer 架构,将全局一致性建模(低分辨率流)与细粒度细节保持(高分辨率流)解耦,通过轻量 Cross-Attention Adapter 融合,实现 2K 分辨率和 1000 帧长序列上的高质量深度/点图估计和位姿预测,速度比 Pi3 快 2-28 倍,视频几何估计取得新 SOTA。

研究背景与动机

从多视图图像估计 3D 几何和相机位姿是计算机视觉基础问题。当前面临三个同时满足的挑战:(1) 全局跨视图一致性,(2) 高分辨率细粒度细节保持,(3) 长序列可扩展的计算效率。

  • 前馈式多视图方法(VGGT, Pi3)用全局 attention 实现跨视图一致性,但 \(O(N^2)\) 复杂度限制分辨率和帧数,细节模糊
  • 单视图方法(DepthPro, MoGe2)可处理高分辨率但缺乏多视图一致性
  • 视频扩散模型(GeoCrafter)计算昂贵且通常无法估计位姿

核心矛盾:全局 attention 对分辨率的二次复杂度 vs 高分辨率细节保持的需求。DAGE 的切入:将分辨率和序列长度解耦

方法详解

整体框架

给定 \(N\) 张未标定 RGB 图像,DAGE 预测每帧 3D 点图、相机位姿和全局度量尺度。架构由 LR Stream、HR Stream 和轻量 Adapter 三部分组成。

关键设计

  1. 低分辨率流(LR Stream):
  2. 做什么:252px 低分辨率上处理全部帧,提取全局一致特征并估计位姿
  3. 核心思路:DINOv2 tokenizer + 交替 Frame/Global Attention。用 Pi3 教师模型做特征蒸馏补偿低分辨率信息损失
  4. 设计动机:全局 attention 在低分辨率下可控,位姿不需要高频细节

  5. 高分辨率流(HR Stream):

  6. 做什么:原始分辨率(可达 2K)逐帧独立处理
  7. 核心思路:冻结 MoGe2 的 24 层 ViT 编码器,每帧独立编码。计算量随分辨率线性增长
  8. 设计动机:冻结权重保持零样本泛化能力,避免小数据集过拟合

  9. 轻量 Adapter:

  10. 做什么:将 LR 流全局一致信息注入 HR 流
  11. 核心思路:Cross-Attention(HR 作 Q,LR 作 K/V)+ Self-Attention 恢复帧内空间连贯性,堆叠 5 个块
  12. 设计动机:Cross-Attention 天然支持任意 token 数量比

  13. RoPE 位置编码策略:

  14. Self-Attention:插值 RoPE 使位置谱在高分辨率下稳定
  15. Cross-Attention:snap-to-grid 将 HR token 映射到最近 LR 网格单元
  16. 设计动机:标准 RoPE 在训练分辨率之外严重退化

损失函数 / 训练策略

  • 点图 \(\ell_1\) 损失(全局对齐,不用 confidence 加权)
  • 相机位姿损失(旋转测地距离 + 平移 \(\ell_1\)
  • 梯度损失(多尺度 Scharr/Laplace 滤波对逆深度梯度监督,替代 multi-scale 对齐)
  • 法线损失和蒸馏损失
  • HR ViT 冻结,LR 流从 Pi3 初始化,18 个数据集训练

实验关键数据

主实验:视频点图估计(8 数据集平均排名)

方法 多视图 高分辨率 位姿 平均排名
VGGT Yes No Yes 3.4
Pi3 Yes No Yes 3.3
GeoCrafter Yes Partial No 3.9
DAGE Yes Yes Yes 1.6

消融实验

配置 关键变化 说明
Adapter在中间层注入 一致性下降 需要完整全局处理
拼接替代CrossAttn 质量下降 固定尺度比不足
无梯度损失 锐利度下降 梯度监督对细节至关重要
MoGe multi-scale对齐 一致性下降 逐patch独立对齐破坏跨视图一致性

运行效率(A100, 100帧视频)

方法 540p FPS 2K FPS 540p显存
Pi3 32.7 OOM 37.3 GB
VGGT 13.5 OOM 71.3 GB
DAGE 65.4 5.6 12.4 GB

关键发现

  • 平均排名 1.6 显著领先 Pi3(3.3)和 VGGT(3.4)
  • 高分辨率场景优势明显:UrbanSyn Rel 误差比 Pi3 低 47%
  • 540p 速度是 Pi3 的 2 倍,2K 下 Pi3/VGGT OOM 而 DAGE 仍可 5.6 FPS
  • 252px 估计位姿精度 match Pi3/VGGT 在 518px 下的表现

亮点与洞察

  • "解耦分辨率与序列长度"是核心洞察:全局一致性不需要高分辨率,细节保持不需要跨视图 attention
  • 冻结 HR ViT + 轻量 adapter:高效迁移范式
  • snap-to-grid RoPE:跨尺度 attention 的优雅解决方案
  • 梯度损失替代 multi-scale 对齐:多视图下保持全局单一对齐更重要

局限性 / 可改进方向

  • LR 流固定 252px,某些场景可能不足
  • 依赖 MoGe2 和 Pi3 预训练权重
  • 未测试动态场景(运动物体)
  • 5 层 Adapter 在极长序列下仍有显存压力

相关工作与启发

  • Pi3/VGGT 的交替 attention 是 LR 流基础,DAGE 贡献在于限制到低分辨率
  • MoGe2 的 coarse-to-fine 损失被放弃(破坏多视图一致性),体现设计原则冲突
  • 知识蒸馏从"模型压缩"变为"分辨率补偿"

评分

  • 新颖性: ⭐⭐⭐⭐ 双流解耦设计和 snap-to-grid RoPE 是有洞察力的新贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ 8 数据集 + 4 任务 + 详细消融 + 速度对比
  • 写作质量: ⭐⭐⭐⭐ 动机论证清晰,架构描述系统
  • 价值: ⭐⭐⭐⭐⭐ 解决高分辨率多视图几何估计实际瓶颈,SOTA + 实用效率