Astra: General Interactive World Model with Autoregressive Denoising¶
会议: ICLR 2026
arXiv: 2512.08931
代码: https://github.com/EternalEvan/Astra
领域: 自动驾驶 / 视频生成
关键词: world model, autoregressive denoising, action control, interactive video, mixture of experts
一句话总结¶
提出 Astra,一个通用交互式世界模型,通过自回归去噪框架在预训练视频扩散模型上实现动作条件化的长程视频预测,引入 ACT-Adapter(动作注入)、噪声增强历史记忆(缓解视觉惯性)和 Mixture of Action Experts(统一多异构动作模态),在自动驾驶、机器人操控和场景探索等多场景上实现 SOTA 的保真度和动作跟随能力。
研究背景与动机¶
- 领域现状:视频扩散模型(如 Wan-2.1)能生成高质量短视频,但缺乏交互性——不能根据动作输入动态调整生成。真正的世界模型需要能够响应任意时刻的任意动作。
- 现有痛点:(1) 标准 T2V/I2V 模型只生成固定片段,无长程 rollout;(2) 自回归扩散混合方法面临误差累积和时序漂移;(3) 增长历史条件长度可提升时序一致性但会削弱动作响应——"视觉惯性"问题;(4) 真实环境涉及异构动作模态(相机位姿、机器人关节、键盘命令),单一模型难以统一。
- 核心矛盾:长程时序一致性 vs 动作响应性——模型倾向于从过去帧平滑外推而忽略新的动作控制信号。
- 本文要解决什么? 构建能在多种真实场景中根据多种动作类型生成交互式长程视频的通用世界模型。
- 切入角度:在预训练视频扩散模型上附加轻量 adapter 注入动作信号 + 噪声增强历史帧缓解视觉惯性 + MoE 路由异构动作。
- 核心idea一句话:用噪声降低历史帧的主导地位、用 adapter 注入动作信号、用 MoE 统一多模态动作——让视频扩散模型变成交互式世界模型。
方法详解¶
整体框架¶
Astra 在预训练 Wan-2.1 视频扩散模型上构建,chunk-wise 自回归生成:每次预测下一个视频块(33帧),将生成的块追加到历史中继续预测。通过时序因果注意力聚合历史。
关键设计¶
- ACT-Adapter(动作感知适配器):
- 做什么:将动作信号注入视频扩散模型的去噪过程
- 核心思路:动作编码器将动作投影到与视频隐变量对齐的特征空间,在每个 DiT block 中逐元素相加。冻结大部分预训练参数,仅微调自注意力层 + 单层线性适配器(恒等矩阵初始化)
-
设计动机:动作对视频的影响可以解释为隐空间中的特征偏移(类似光流),逐元素加法最直接地实现这种偏移
-
Noise-as-Mask(噪声增强历史记忆):
- 做什么:训练时对历史条件帧注入随机噪声,减少其信息主导性
- 核心思路:噪声独立于扩散噪声,纯粹用于降级历史帧——迫使模型在生成时同时依赖动作信号而非仅复制过去帧。推理时使用干净历史帧
-
vs YUME 的 mask:YUME 随机 mask 视觉 token;Astra 用噪声模糊——无需架构修改或额外参数
-
Mixture of Action Experts (MoAE):
- 做什么:统一处理异构动作模态(相机位姿 7D、机器人关节 7D、键盘/鼠标命令)
- 核心思路:各模态先通过模态特定投影器映射到共享空间,然后路由网络计算门控分数选择 top-K 专家(独立 MLP),加权聚合专家输出
-
设计动机:不同动作模态结构和尺度差异大,单一编码器难以统一
-
Action-Free Guidance (AFG):
- 类比 CFG:训练时随机丢弃动作条件,推理时用 \(v_{guided} = v_\emptyset + s \cdot (v_a - v_\emptyset)\) 增强动作效果
损失函数 / 训练策略¶
Flow matching 损失。基于 Wan-2.1 预训练,8 GPU 训练 30 epoch(~24h)。训练数据:~397K 视频(360 小时),覆盖 nuScenes、Sekai、SpatialVID、RT-1、Multi-Cam Video。
实验关键数据¶
主实验(Astra-Bench,480×832,96帧)¶
| 方法 | Instruction Following↑ | Subject Consistency↑ | Motion Smoothness↑ |
|---|---|---|---|
| Wan-2.1 | 0.061 | 0.854 | 0.958 |
| MatrixGame | 0.268 | 0.916 | 0.981 |
| YUME | 0.652 | 0.936 | 0.985 |
| Astra | 0.669 | 0.939 | 0.989 |
消融实验¶
| 配置 | 效果 |
|---|---|
| 无 ACT-Adapter (用 cross-attn) | 动作跟随显著下降 |
| 无 AFG | 动作响应减弱 |
| 无 noise-as-mask | 视觉惯性加重,动作被忽略 |
| 无 MoAE | 不能处理多模态动作,性能下降 |
关键发现¶
- Astra 在所有 6 个指标上均超越 SOTA,尤其在 Instruction Following 上大幅领先(0.669 vs Wan-2.1 的 0.061)
- 长程 rollout(96帧+)中 Astra 保持稳定而竞争方法出现漂移和退化
- 噪声增强策略比 token masking 更简洁(无需架构修改)且效果更好
- MoAE 使单一模型能同时处理自动驾驶(相机位姿)和机器人操控(关节角度)
- AFG 类比 CFG,有效放大了动作条件的影响力
亮点与洞察¶
- "视觉惯性"是世界模型的核心挑战:首次命名并系统性解决了这个长期一致性与动作响应性之间的矛盾
- 噪声增强历史帧的简洁性:不修改架构、不增加参数,仅在训练时加噪——通过降低信息质量来平衡信息来源的权重
- 多场景统一的野心:同一个模型做自动驾驶、机器人操控和第一人称探索——通过 MoAE 实现
局限性 / 可改进方向¶
- 训练数据主要是驾驶和探索场景,复杂物理交互(如流体、碰撞)可能不够
- 误差累积在极长 rollout(>数百帧)中仍可能出现
- MoAE 的路由机制是否真的做了有意义的模态区分需要更多分析
- 评估中 Instruction Following 依赖人工评估,可扩展性有限
相关工作与启发¶
- vs YUME: YUME 用 masked video diffusion transformer,Astra 用 noise-as-mask——更简洁
- vs MatrixGame: MatrixGame 用因果 action guidance,Astra 的 ACT-Adapter 更直接地注入动作
- vs Genie2/UniSim (大规模世界模型): Astra 用更小的数据量(~400K vs 百万级)达到竞争性能
评分¶
- 新颖性: ⭐⭐⭐⭐ 噪声增强历史、ACT-Adapter、MoAE 三个设计各有创意
- 实验充分度: ⭐⭐⭐⭐⭐ 5 个数据集、多场景、完整消融、人工评估
- 写作质量: ⭐⭐⭐⭐ 架构图清晰,"视觉惯性"概念形象
- 价值: ⭐⭐⭐⭐⭐ 通用交互世界模型的实用框架,代码开源