DAGE: Dual-Stream Architecture for Efficient and Fine-Grained Geometry Estimation¶

会议: CVPR 2026 arXiv: 2603.03744 代码: https://github.com/dage-site (有) 领域: 模型压缩 关键词: 多视图几何估计, 双流 Transformer, 深度估计, 知识蒸馏, 高分辨率推理

一句话总结¶

提出 DAGE 双流 Transformer 架构，将全局一致性建模（低分辨率流）与细粒度细节保持（高分辨率流）解耦，通过轻量 Cross-Attention Adapter 融合，实现 2K 分辨率和 1000 帧长序列上的高质量深度/点图估计和位姿预测，速度比 Pi3 快 2-28 倍，视频几何估计取得新 SOTA。

研究背景与动机¶

从多视图图像估计 3D 几何和相机位姿是计算机视觉基础问题。当前面临三个同时满足的挑战：(1) 全局跨视图一致性，(2) 高分辨率细粒度细节保持，(3) 长序列可扩展的计算效率。

前馈式多视图方法（VGGT, Pi3）用全局 attention 实现跨视图一致性，但 \(O(N^2)\) 复杂度限制分辨率和帧数，细节模糊
单视图方法（DepthPro, MoGe2）可处理高分辨率但缺乏多视图一致性
视频扩散模型（GeoCrafter）计算昂贵且通常无法估计位姿

核心矛盾：全局 attention 对分辨率的二次复杂度 vs 高分辨率细节保持的需求。DAGE 的切入：将分辨率和序列长度解耦。

方法详解¶

整体框架¶

给定 \(N\) 张未标定 RGB 图像，DAGE 预测每帧 3D 点图、相机位姿和全局度量尺度。架构由 LR Stream、HR Stream 和轻量 Adapter 三部分组成。

关键设计¶

低分辨率流（LR Stream）:
做什么：252px 低分辨率上处理全部帧，提取全局一致特征并估计位姿
核心思路：DINOv2 tokenizer + 交替 Frame/Global Attention。用 Pi3 教师模型做特征蒸馏补偿低分辨率信息损失
设计动机：全局 attention 在低分辨率下可控，位姿不需要高频细节
高分辨率流（HR Stream）:
做什么：原始分辨率（可达 2K）逐帧独立处理
核心思路：冻结 MoGe2 的 24 层 ViT 编码器，每帧独立编码。计算量随分辨率线性增长
设计动机：冻结权重保持零样本泛化能力，避免小数据集过拟合
轻量 Adapter:
做什么：将 LR 流全局一致信息注入 HR 流
核心思路：Cross-Attention（HR 作 Q，LR 作 K/V）+ Self-Attention 恢复帧内空间连贯性，堆叠 5 个块
设计动机：Cross-Attention 天然支持任意 token 数量比
RoPE 位置编码策略:
Self-Attention：插值 RoPE 使位置谱在高分辨率下稳定
Cross-Attention：snap-to-grid 将 HR token 映射到最近 LR 网格单元
设计动机：标准 RoPE 在训练分辨率之外严重退化

损失函数 / 训练策略¶

点图 \(\ell_1\) 损失（全局对齐，不用 confidence 加权）
相机位姿损失（旋转测地距离 + 平移 \(\ell_1\)）
梯度损失（多尺度 Scharr/Laplace 滤波对逆深度梯度监督，替代 multi-scale 对齐）
法线损失和蒸馏损失
HR ViT 冻结，LR 流从 Pi3 初始化，18 个数据集训练

实验关键数据¶

主实验：视频点图估计（8 数据集平均排名）¶

方法	多视图	高分辨率	位姿	平均排名
VGGT	Yes	No	Yes	3.4
Pi3	Yes	No	Yes	3.3
GeoCrafter	Yes	Partial	No	3.9
DAGE	Yes	Yes	Yes	1.6

消融实验¶

配置	关键变化	说明
Adapter在中间层注入	一致性下降	需要完整全局处理
拼接替代CrossAttn	质量下降	固定尺度比不足
无梯度损失	锐利度下降	梯度监督对细节至关重要
MoGe multi-scale对齐	一致性下降	逐patch独立对齐破坏跨视图一致性

运行效率（A100, 100帧视频）¶

方法	540p FPS	2K FPS	540p显存
Pi3	32.7	OOM	37.3 GB
VGGT	13.5	OOM	71.3 GB
DAGE	65.4	5.6	12.4 GB

关键发现¶

平均排名 1.6 显著领先 Pi3（3.3）和 VGGT（3.4）
高分辨率场景优势明显：UrbanSyn Rel 误差比 Pi3 低 47%
540p 速度是 Pi3 的 2 倍，2K 下 Pi3/VGGT OOM 而 DAGE 仍可 5.6 FPS
252px 估计位姿精度 match Pi3/VGGT 在 518px 下的表现

亮点与洞察¶

"解耦分辨率与序列长度"是核心洞察：全局一致性不需要高分辨率，细节保持不需要跨视图 attention
冻结 HR ViT + 轻量 adapter：高效迁移范式
snap-to-grid RoPE：跨尺度 attention 的优雅解决方案
梯度损失替代 multi-scale 对齐：多视图下保持全局单一对齐更重要

局限性 / 可改进方向¶

LR 流固定 252px，某些场景可能不足
依赖 MoGe2 和 Pi3 预训练权重
未测试动态场景（运动物体）
5 层 Adapter 在极长序列下仍有显存压力

评分¶

新颖性: ⭐⭐⭐⭐ 双流解耦设计和 snap-to-grid RoPE 是有洞察力的新贡献
实验充分度: ⭐⭐⭐⭐⭐ 8 数据集 + 4 任务 + 详细消融 + 速度对比
写作质量: ⭐⭐⭐⭐ 动机论证清晰，架构描述系统
价值: ⭐⭐⭐⭐⭐ 解决高分辨率多视图几何估计实际瓶颈，SOTA + 实用效率