跳转至

Aether: Geometric-Aware Unified World Modeling

会议: ICCV 2025
arXiv: 2503.18945
代码: 有(Project Page)
领域: 视频生成 / 世界模型 / 3D重建
关键词: world model, 4D reconstruction, action-conditioned prediction, visual planning, geometry-aware, zero-shot

一句话总结

提出Aether统一框架,通过任务交错特征学习联合优化4D动态重建、动作条件视频预测和目标条件视觉规划三个核心能力,实现geometry-aware的世界建模,纯合成数据训练即可零样本泛化到真实世界。

背景与动机

构建能进行人类级空间推理的AI系统需要将几何重建和生成建模统一。当前的世界模型(world model)通常只能做视频预测(给定动作生成未来帧),缺乏对3D几何的理解;而3D重建方法通常不具备预测和规划能力。将重建、预测、规划三者统一在一个框架中,使模型同时理解"世界是什么"(重建)、"做了什么会发生什么"(预测)和"如何达到目标"(规划),是world model领域的核心挑战。

核心问题

如何在一个视频生成模型中同时实现几何感知的4D重建、动作条件预测和目标条件规划,且三者能互相增益?

方法详解

整体框架

Aether建立在视频生成模型之上,通过统一的transformer设计同时处理三个任务。使用相机轨迹作为geometry-informed的动作空间,任务交错训练实现知识共享。

关键设计

  1. 三任务统一:(a) 4D动态重建——从视频重建出3D几何结构和动态运动;(b) 动作条件视频预测——给定相机轨迹动作,预测未来视频帧;(c) 目标条件视觉规划——给定目标图像,规划达到目标的相机动作序列。三者共享backbone,通过task-interleaved training实现协同学习。

  2. 几何感知的动作空间:用相机轨迹(而非抽象动作向量)作为动作表示,这使得动作具有明确的几何意义——旋转、平移、缩放等都有物理对应。这种geometry-informed设计使得重建和预测可以共享空间推理能力。

  3. 零样本合成到真实泛化:尽管仅在合成数据上训练,Aether在真实世界数据上实现零样本泛化——这归功于几何建模的内在结构先验(相机运动的物理规律是universal的)。重建性能可比甚至超过domain-specific的真实数据训练模型。

损失函数 / 训练策略

多任务联合训练:重建loss + 视频预测loss + 规划loss,任务交错训练。

实验关键数据

  • 零样本syn-to-real重建:性能comparable甚至优于domain-specific模型
  • 动作条件预测:零样本泛化到未见环境
  • 视觉规划:能规划出达到目标的相机轨迹
  • 三个任务的联合训练带来了synergistic提升——每个任务因为与其他两个共享知识而受益

消融实验要点

  • 三任务联合训练 > 任何两个 > 单任务——证明协同学习的有效性
  • 相机轨迹作为动作空间:比抽象动作向量对几何理解更友好
  • 合成数据训练+几何先验足以泛化到真实世界

亮点

  • 三任务统一是world model的重要里程碑:重建理解"是什么",预测理解"因果",规划理解"目标"——三者统一意味着模型具备了完整的空间推理能力
  • 零样本syn-to-real泛化很惊艳——不需要真实数据就能在真实场景工作,说明几何先验的强大迁移性
  • 相机轨迹作为动作空间的设计桥接了视频生成和机器人导航
  • 来自多所顶尖团队合作(Chunhua Shen等),质量有保证

局限性 / 可改进方向

  • 当前验证主要在室内/驾驶场景,更广泛的户外场景未充分测试
  • 相机轨迹作为动作空间限制了非相机运动(如物体操控)的建模
  • 合成数据的diversity可能限制某些真实场景的泛化
  • 计算开销:三任务联合训练比单任务更贵

与相关工作的对比

  • vs. VACE:VACE统一视频的生成和编辑任务;Aether统一重建、预测和规划——更侧重3D几何理解
  • vs. Sora/CogVideoX:这些是纯视频生成;Aether加入了3D几何意识,使生成更physically grounded
  • vs. DrivingGPT/Epona:这些用于自动驾驶的world model通常只做预测;Aether还做重建和规划

启发与关联

  • Aether的三任务统一框架可以为机器人导航提供基础——重建环境+预测未来+规划路径
  • 与Dita结合:Aether做高层规划,Dita做低层动作执行——形成完整的embodied AI pipeline

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 重建+预测+规划的三任务统一是world model的范式性贡献
  • 实验充分度: ⭐⭐⭐⭐ 三任务零样本泛化验证,但更多真实场景测试会更好
  • 写作质量: ⭐⭐⭐⭐ 框架阐述清晰
  • 价值: ⭐⭐⭐⭐⭐ 定义了geometry-aware world model的新标准,对embodied AI有深远影响