AdaWorld: Learning Adaptable World Models with Latent Actions¶

会议: ICML 2025
arXiv: 2503.18938
代码: https://adaptable-world-model.github.io
领域: 自监督学习
关键词: 世界模型, 潜在动作, 自监督, 视频预训练, 动作迁移

一句话总结¶

提出 AdaWorld——通过从视频中自监督提取潜在动作（latent actions）进行动作感知预训练，构建高度可适应的世界模型，支持零样本动作迁移和少量交互快速适应新环境。

领域现状：世界模型旨在学习动作可控的未来预测，对智能体开发至关重要。现有方法依赖大量动作标注数据和昂贵训练来获得动作可控性。

现有痛点：(a) 不同环境的动作格式各异，难以定义统一格式; (b) 适应新环境需要重新收集大量动作标签和训练; (c) 仅用无动作视频预训练的世界模型缺乏动作可控性。

核心矛盾：如何在预训练阶段就引入动作信息，同时不依赖显式动作标签？

本文目标：构建可快速适应新环境的世界模型。

切入角度：从视频帧对中自监督提取潜在动作——用信息瓶颈迫使编码器只保留最关键的帧间变化（即动作信息），去除上下文（颜色、纹理等）。

核心 idea：潜在动作是上下文无关的，可跨环境迁移——给一个演示就能将动作迁到新场景。

两个组件： 1. 潜在动作自编码器：从无标签视频中提取潜在动作 2. 自回归世界模型：以潜在动作为条件预测下一帧

潜在动作自编码器（Latent Action Autoencoder）:
- 功能：从两连续帧 \(f_t, f_{t+1}\) 中提取紧凑的潜在动作 \(\tilde{a}\)
- 核心思路：编码器用时空 Transformer 从帧对中提取潜在动作，解码器基于 \(\tilde{a}\) 和 \(f_t\) 预测 \(f_{t+1}\)。使用 \(\beta\)-VAE 的信息瓶颈，迫使 \(\tilde{a}\) 只编码最关键的帧间变化
- 设计动机：信息瓶颈使潜在动作自动从上下文中解耦——相比像素空间的巨大维度，潜在动作极其紧凑
动作感知预训练:
- 功能：用基于 Stable Video Diffusion 的世界模型，以潜在动作为条件预测下一帧
- 核心思路：将潜在动作与时间步嵌入和 CLIP 图像嵌入拼接，作为扩散模型的条件
- 设计动机：预训练中就学会了"不同潜在动作导致不同状态转移"，适应新环境只需找到动作映射
适应机制:
- 零样本迁移：给一个演示视频，提取潜在动作并在新场景中复用
- 少量交互适应：有动作标签时，用潜在动作编码器找到映射，少量微调即可

任务	AdaWorld	无动作预训练基线	改进
动作迁移（跨场景）	可行	不可行	质的突破
50次交互适应	FVD 85.2	FVD 142.3	40%↓
视觉规划成功率	72.4%	48.1%	+24.3%