DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation¶
会议: CVPR 2026 arXiv: 2603.03744 代码: https://github.com/dage-site (有) 领域: 模型压缩 关键词: 多视图几何估计, 双流 Transformer, 深度估计, 知识蒸馏, 高分辨率推理
一句话总结¶
提出 DAGE 双流 Transformer 架构,将全局一致性建模(低分辨率流)与细粒度细节保持(高分辨率流)解耦,通过轻量 Cross-Attention Adapter 融合,实现 2K 分辨率和 1000 帧长序列上的高质量深度/点图估计和位姿预测,速度比 Pi3 快 2-28 倍,视频几何估计取得新 SOTA。
研究背景与动机¶
从多视图图像估计 3D 几何和相机位姿是计算机视觉基础问题。当前面临三个同时满足的挑战:(1) 全局跨视图一致性,(2) 高分辨率细粒度细节保持,(3) 长序列可扩展的计算效率。
- 前馈式多视图方法(VGGT, Pi3)用全局 attention 实现跨视图一致性,但 \(O(N^2)\) 复杂度限制分辨率和帧数,细节模糊
- 单视图方法(DepthPro, MoGe2)可处理高分辨率但缺乏多视图一致性
- 视频扩散模型(GeoCrafter)计算昂贵且通常无法估计位姿
核心矛盾:全局 attention 对分辨率的二次复杂度 vs 高分辨率细节保持的需求。DAGE 的切入:将分辨率和序列长度解耦。
方法详解¶
整体框架¶
给定 \(N\) 张未标定 RGB 图像,DAGE 预测每帧 3D 点图、相机位姿和全局度量尺度。架构由 LR Stream、HR Stream 和轻量 Adapter 三部分组成。
关键设计¶
- 低分辨率流(LR Stream):
- 做什么:252px 低分辨率上处理全部帧,提取全局一致特征并估计位姿
- 核心思路:DINOv2 tokenizer + 交替 Frame/Global Attention。用 Pi3 教师模型做特征蒸馏补偿低分辨率信息损失
-
设计动机:全局 attention 在低分辨率下可控,位姿不需要高频细节
-
高分辨率流(HR Stream):
- 做什么:原始分辨率(可达 2K)逐帧独立处理
- 核心思路:冻结 MoGe2 的 24 层 ViT 编码器,每帧独立编码。计算量随分辨率线性增长
-
设计动机:冻结权重保持零样本泛化能力,避免小数据集过拟合
-
轻量 Adapter:
- 做什么:将 LR 流全局一致信息注入 HR 流
- 核心思路:Cross-Attention(HR 作 Q,LR 作 K/V)+ Self-Attention 恢复帧内空间连贯性,堆叠 5 个块
-
设计动机:Cross-Attention 天然支持任意 token 数量比
-
RoPE 位置编码策略:
- Self-Attention:插值 RoPE 使位置谱在高分辨率下稳定
- Cross-Attention:snap-to-grid 将 HR token 映射到最近 LR 网格单元
- 设计动机:标准 RoPE 在训练分辨率之外严重退化
损失函数 / 训练策略¶
- 点图 \(\ell_1\) 损失(全局对齐,不用 confidence 加权)
- 相机位姿损失(旋转测地距离 + 平移 \(\ell_1\))
- 梯度损失(多尺度 Scharr/Laplace 滤波对逆深度梯度监督,替代 multi-scale 对齐)
- 法线损失和蒸馏损失
- HR ViT 冻结,LR 流从 Pi3 初始化,18 个数据集训练
实验关键数据¶
主实验:视频点图估计(8 数据集平均排名)¶
| 方法 | 多视图 | 高分辨率 | 位姿 | 平均排名 |
|---|---|---|---|---|
| VGGT | Yes | No | Yes | 3.4 |
| Pi3 | Yes | No | Yes | 3.3 |
| GeoCrafter | Yes | Partial | No | 3.9 |
| DAGE | Yes | Yes | Yes | 1.6 |
消融实验¶
| 配置 | 关键变化 | 说明 |
|---|---|---|
| Adapter在中间层注入 | 一致性下降 | 需要完整全局处理 |
| 拼接替代CrossAttn | 质量下降 | 固定尺度比不足 |
| 无梯度损失 | 锐利度下降 | 梯度监督对细节至关重要 |
| MoGe multi-scale对齐 | 一致性下降 | 逐patch独立对齐破坏跨视图一致性 |
运行效率(A100, 100帧视频)¶
| 方法 | 540p FPS | 2K FPS | 540p显存 |
|---|---|---|---|
| Pi3 | 32.7 | OOM | 37.3 GB |
| VGGT | 13.5 | OOM | 71.3 GB |
| DAGE | 65.4 | 5.6 | 12.4 GB |
关键发现¶
- 平均排名 1.6 显著领先 Pi3(3.3)和 VGGT(3.4)
- 高分辨率场景优势明显:UrbanSyn Rel 误差比 Pi3 低 47%
- 540p 速度是 Pi3 的 2 倍,2K 下 Pi3/VGGT OOM 而 DAGE 仍可 5.6 FPS
- 252px 估计位姿精度 match Pi3/VGGT 在 518px 下的表现
亮点与洞察¶
- "解耦分辨率与序列长度"是核心洞察:全局一致性不需要高分辨率,细节保持不需要跨视图 attention
- 冻结 HR ViT + 轻量 adapter:高效迁移范式
- snap-to-grid RoPE:跨尺度 attention 的优雅解决方案
- 梯度损失替代 multi-scale 对齐:多视图下保持全局单一对齐更重要
局限性 / 可改进方向¶
- LR 流固定 252px,某些场景可能不足
- 依赖 MoGe2 和 Pi3 预训练权重
- 未测试动态场景(运动物体)
- 5 层 Adapter 在极长序列下仍有显存压力
相关工作与启发¶
- Pi3/VGGT 的交替 attention 是 LR 流基础,DAGE 贡献在于限制到低分辨率
- MoGe2 的 coarse-to-fine 损失被放弃(破坏多视图一致性),体现设计原则冲突
- 知识蒸馏从"模型压缩"变为"分辨率补偿"
评分¶
- 新颖性: ⭐⭐⭐⭐ 双流解耦设计和 snap-to-grid RoPE 是有洞察力的新贡献
- 实验充分度: ⭐⭐⭐⭐⭐ 8 数据集 + 4 任务 + 详细消融 + 速度对比
- 写作质量: ⭐⭐⭐⭐ 动机论证清晰,架构描述系统
- 价值: ⭐⭐⭐⭐⭐ 解决高分辨率多视图几何估计实际瓶颈,SOTA + 实用效率