Aether: Geometric-Aware Unified World Modeling¶

会议: ICCV 2025
arXiv: 2503.18945
代码: 有（Project Page）
领域: 视频生成 / 世界模型 / 3D重建
关键词: world model, 4D reconstruction, action-conditioned prediction, visual planning, geometry-aware, zero-shot

一句话总结¶

提出Aether统一框架，通过任务交错特征学习联合优化4D动态重建、动作条件视频预测和目标条件视觉规划三个核心能力，实现geometry-aware的世界建模，纯合成数据训练即可零样本泛化到真实世界。

背景与动机¶

构建能进行人类级空间推理的AI系统需要将几何重建和生成建模统一。当前的世界模型（world model）通常只能做视频预测（给定动作生成未来帧），缺乏对3D几何的理解；而3D重建方法通常不具备预测和规划能力。将重建、预测、规划三者统一在一个框架中，使模型同时理解"世界是什么"（重建）、"做了什么会发生什么"（预测）和"如何达到目标"（规划），是world model领域的核心挑战。

核心问题¶

如何在一个视频生成模型中同时实现几何感知的4D重建、动作条件预测和目标条件规划，且三者能互相增益？

方法详解¶

整体框架¶

Aether建立在视频生成模型之上，通过统一的transformer设计同时处理三个任务。使用相机轨迹作为geometry-informed的动作空间，任务交错训练实现知识共享。

关键设计¶

三任务统一：(a) 4D动态重建——从视频重建出3D几何结构和动态运动；(b) 动作条件视频预测——给定相机轨迹动作，预测未来视频帧；(c) 目标条件视觉规划——给定目标图像，规划达到目标的相机动作序列。三者共享backbone，通过task-interleaved training实现协同学习。
几何感知的动作空间：用相机轨迹（而非抽象动作向量）作为动作表示，这使得动作具有明确的几何意义——旋转、平移、缩放等都有物理对应。这种geometry-informed设计使得重建和预测可以共享空间推理能力。
零样本合成到真实泛化：尽管仅在合成数据上训练，Aether在真实世界数据上实现零样本泛化——这归功于几何建模的内在结构先验（相机运动的物理规律是universal的）。重建性能可比甚至超过domain-specific的真实数据训练模型。

损失函数 / 训练策略¶

多任务联合训练：重建loss + 视频预测loss + 规划loss，任务交错训练。

实验关键数据¶

零样本syn-to-real重建：性能comparable甚至优于domain-specific模型
动作条件预测：零样本泛化到未见环境
视觉规划：能规划出达到目标的相机轨迹
三个任务的联合训练带来了synergistic提升——每个任务因为与其他两个共享知识而受益

消融实验要点¶

三任务联合训练 > 任何两个 > 单任务——证明协同学习的有效性
相机轨迹作为动作空间：比抽象动作向量对几何理解更友好
合成数据训练+几何先验足以泛化到真实世界

亮点¶

三任务统一是world model的重要里程碑：重建理解"是什么"，预测理解"因果"，规划理解"目标"——三者统一意味着模型具备了完整的空间推理能力
零样本syn-to-real泛化很惊艳——不需要真实数据就能在真实场景工作，说明几何先验的强大迁移性
相机轨迹作为动作空间的设计桥接了视频生成和机器人导航
来自多所顶尖团队合作（Chunhua Shen等），质量有保证

局限性 / 可改进方向¶

当前验证主要在室内/驾驶场景，更广泛的户外场景未充分测试
相机轨迹作为动作空间限制了非相机运动（如物体操控）的建模
合成数据的diversity可能限制某些真实场景的泛化
计算开销：三任务联合训练比单任务更贵

与相关工作的对比¶

vs. VACE：VACE统一视频的生成和编辑任务；Aether统一重建、预测和规划——更侧重3D几何理解
vs. Sora/CogVideoX：这些是纯视频生成；Aether加入了3D几何意识，使生成更physically grounded
vs. DrivingGPT/Epona：这些用于自动驾驶的world model通常只做预测；Aether还做重建和规划

启发与关联¶

Aether的三任务统一框架可以为机器人导航提供基础——重建环境+预测未来+规划路径
与Dita结合：Aether做高层规划，Dita做低层动作执行——形成完整的embodied AI pipeline

评分¶

新颖性: ⭐⭐⭐⭐⭐ 重建+预测+规划的三任务统一是world model的范式性贡献
实验充分度: ⭐⭐⭐⭐ 三任务零样本泛化验证，但更多真实场景测试会更好
写作质量: ⭐⭐⭐⭐ 框架阐述清晰
价值: ⭐⭐⭐⭐⭐ 定义了geometry-aware world model的新标准，对embodied AI有深远影响