MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer¶

会议: CVPR 2026 arXiv: 2603.05078 代码: 项目页面领域: 3D视觉 关键词: 4D重建, 动态场景, 注意力强制, 流式推理, 运动解耦

一句话总结¶

提出 MoRe，一种前馈式运动感知 4D 重建 Transformer，通过注意力强制策略在训练时解耦动态运动与静态结构，结合分组因果注意力实现高效流式推理，在动态场景的相机位姿估计和深度预测上达到 SOTA。

研究背景与动机¶

从单目视频重建时序演化的 3D 结构（4D 重建）是 AR/机器人/数字孪生等应用的核心需求。现有方法面临的困境：

静态假设的前馈模型（DUSt3R、VGGT、Fast3R）：直接回归点图和位姿，速度快但在动态物体存在时，用于相机估计的特征被严重污染（注意力分散到运动物体上），导致位姿精度显著退化
优化式管线（MonST3R、CasualSAM）：集成光流/分割/深度估计等模块，处理动态场景更鲁棒，但多阶段结构计算开销大，不适合实时或长序列处理
流式重建方法（CUT3R、StreamVGGT）：采用 LLM 风格的因果注意力实现在线处理，但标准因果注意力破坏帧内 token 之间的空间一致性，且误差沿时间累积

核心挑战：如何设计一个快速、可泛化的框架，在动态场景和流式输入下同时保证位姿和深度的精度？

方法详解¶

整体框架¶

MoRe 基于强静态重建骨干（VGGT 架构），从单目视频帧序列 $\{I_t\}_{t=1}^T$ 联合估计深度 $\{D_t\}$、相机参数 $\{g_t\}$、点图 $\{P_t\}$ 和运动掩码 $\{M_t\}$。训练阶段通过注意力强制策略注入运动感知能力，推理阶段完全不依赖额外运动先验或分割输入。支持全注意力模式（最优质量）和流式因果注意力模式（在线处理）。

关键设计¶

运动对齐注意力（Motion-aligned Attention）：核心创新，在训练时利用 GT 运动掩码显式引导 camera token 的注意力分布。将运动掩码按 patch 大小 $s \times s$ 划分，计算每个 image token 的静态得分： $$a_i = 1 - \frac{1}{s^2} \sum_{(u,v) \in m_i} m_i(u,v)$$ 其中 $a_i \in [0,1]$，越高表示越静态。通过监督 camera token 的注意力权重 $\alpha_i$ 对齐 $a_i$，使模型学会聚焦静态区域、忽略运动物体。关键优势：完全无测试时开销——GT 掩码仅用于训练，推理时模型已内化了运动解耦能力。设计动机来自对 VGGT 注意力图的直接观察：动态场景中 camera token 注意力均匀分散到运动和静态区域，导致位姿估计混乱。
分组因果注意力（Grouped Causal Attention）：将标准因果注意力改造为帧感知因果注意力，允许同帧内的 image token 双向注意（保持空间一致性），同时帧间仅允许前向注意（保持时序因果性）。流式推理时，首帧对初始化 KV 缓存，后续帧增量处理： $$F_t = \text{Attn}(\mathbf{Q}_t, [\mathbf{K}_{1:t-1}, \mathbf{K}_t], [\mathbf{V}_{1:t-1}, \mathbf{V}_t])$$ 设计动机：标准 LLM 因果注意力将 image token 视为扁平序列，破坏了帧内空间对应关系。
BA-like Token 聚合优化：流式因果推理后的轻量级全局优化步骤。缓存所有帧的 camera query $\mathbf{Q}_t^{\text{cam}}$ 和 KV 特征，序列处理完成后让每个 camera token 重新注意所有帧的特征： $$\mathbf{C}_t^{\text{opt}} = \text{Attn}(\mathbf{Q}_t^{\text{cam}}, [\mathbf{K}_{1:T}], [\mathbf{V}_{1:T}])$$ 类比 Bundle Adjustment 的全局一致性优化，但仅需一次额外的注意力计算，开销极小。训练时通过复制 camera token 在序列末尾并行监督两条路径（流式 + 全局），确保两者一致。

损失函数 / 训练策略¶

深度/点图：置信度加权回归损失 $\mathcal{L}_{\text{conf}} = \sum_i (\hat{c}_i \|\hat{y}_i - y_i\|_2^2 - \lambda \log(\hat{c}_i))$
运动掩码：标准 BCE 损失 $\mathcal{L}_{\text{motion}}$
注意力对齐：$\mathcal{L}_{\text{attn}} = \frac{1}{M} \sum_i \max(0, a_i - C) \cdot \alpha_i$，仅惩罚动态区域的注意力权重
相机位姿：相对变换监督 $\mathcal{L}_{\text{cam}}$，对流式 token 截断早期梯度，对复制的全局 token 保留完整梯度
训练数据：12个数据集混合（Dynamic Replica, PointOdyssey, Spring, KITTI, ScanNet, Co3Dv2 等），覆盖室内外、动态静态

实验关键数据¶

主实验¶

相机位姿估计（动态场景）：

方法	类型	Sintel ATE↓	Bonn ATE↓	TUM-dyn ATE↓	ScanNet ATE↓
VGGT	全注意力	0.1715	0.0141	0.0109	0.0347
MoRe (FA)	全注意力	0.0877	0.0138	0.0115	0.0375
CUT3R	流式	0.2163	0.0420	0.0438	0.0929
Stream3R	流式	0.2144	0.0235	0.0240	0.0521
MoRe	流式	0.1474	0.0211	0.0260	0.0605

视频深度估计：

方法	类型	Sintel AbsRel↓	Bonn AbsRel↓	KITTI AbsRel↓
VGGT	全注意力	0.387	0.055	0.073
MoRe (FA)	全注意力	0.335	0.055	0.066
Stream3R	流式	0.397	0.070	0.079
MoRe	流式	0.254	0.068	0.072

消融实验¶

配置	Sintel ATE↓	Sintel RPE_trans↓	TUM ATE↓	说明
w/o 注意力强制	0.163	0.092	0.028	去掉运动对齐注意力
w/o BA-like 优化	0.155	0.085	0.027	去掉全局 token 聚合
Full MoRe	0.147	0.082	0.026	完整方法

配置	Sintel AbsRel↓	Bonn AbsRel↓	KITTI AbsRel↓	说明
w/o GCA	0.277	0.070	0.079	标准因果注意力
w/ GCA	0.254	0.068	0.072	分组因果注意力

关键发现¶

注意力强制策略在 Sintel（大量动态物体）上效果最显著：ATE 从 0.163→0.147，验证了运动解耦的有效性
分组因果注意力在所有深度估计基准上一致提升，证明帧内空间一致性对几何推理至关重要
全注意力模式下，MoRe 在 Sintel ATE 上将 VGGT 从 0.1715 大幅降低到 0.0877（-49%），突破性提升
流式模式下全面超越同类方法（CUT3R、StreamVGGT、Wint3R、Stream3R），且支持增量处理
零样本泛化：所有动态评测数据集均未在训练中出现

亮点与洞察¶

注意力强制思路极其优雅：不修改推理架构，仅在训练时通过注意力监督教会模型"看哪里"，实现免费的运动解耦能力
从 VGGT 注意力图的直接观察出发（图3），动机可视化清晰有力，问题定义精准
分组因果注意力设计简洁有效，保留因果性同时恢复帧内空间一致——针对图像 token 对 LLM 因果注意力的最小改造
BA-like token 聚合仅需一次额外注意力计算就获得全局一致性，比传统 BA 高效得多

局限性 / 可改进方向¶

训练依赖 GT 运动掩码，限制了可用训练数据的规模和多样性（需要带分割标注的动态数据集）
流式模式下在 ScanNet（静态场景）上 ATE 0.0605 高于全注意力的 0.0375，说明因果限制在长序列静态场景中仍有损失
BA-like 优化需等待全序列处理完毕才能执行，不算严格的实时流式处理
未报告运动掩码预测本身的精度，也未做下游任务（如动态物体分割/移除）的评测
可探索自监督的运动掩码生成以摆脱对 GT 标注的依赖

评分¶

新颖性: ⭐⭐⭐⭐ 注意力强制策略新颖且效果显著，分组因果注意力设计精巧
实验充分度: ⭐⭐⭐⭐⭐ 4个基准、10+对比方法、全注意力+流式两种模式、完整消融
写作质量: ⭐⭐⭐⭐ 注意力图可视化动机清晰，公式推导严谨，实验组织有条理
价值: ⭐⭐⭐⭐ 为4D重建提供了实用的前馈解决方案，注意力强制策略具有广泛迁移潜力