Sparse Imagination for Efficient Visual World Model Planning¶

会议: ICLR 2026
arXiv: 2506.01392
代码: 无（基于 DINO-WM 框架）
领域: Robotics / World Model / Planning
关键词: world model, sparse tokens, MPC, DINO, VLA, token dropout, planning efficiency

一句话总结¶

提出 Sparse Imagination，在基于 ViT patch token 的世界模型规划中随机丢弃 token 以大幅加速推理（50% 丢弃率减少约 50% 时间），同时通过随机分组注意力训练保持任务性能不变。

背景与动机¶

基于世界模型的规划（MPC）通过想象未来轨迹实现决策，但计算代价随 token 数量二次增长
ViT patch token 作为视觉状态表示（如 DINO-WM）比单一 CLS token 保留更丰富的空间信息
但全量 patch token 在 MPC 中需要 K×M×H 次前向传播（候选数×迭代数×规划步长），实时部署极其困难
ViT 表示存在已知的冗余性——并非所有 patch 对规划都同等重要
机器人场景下计算资源尤其受限，需要在保持精度的同时降低推理开销
现有 token 剪枝方法（注意力/学习排序/聚类合并）在规划中存在"盲点问题"

方法（框架/设计）¶

Sparse Imagination: 在世界模型推理阶段随机丢弃比例为 \(p\) 的 patch token，仅用 \((1-p)N\) 个 token 进行前向预测
随机分组注意力训练: 训练时将每帧 token 随机分为两组，注意力掩码限制组内交互，使模型学会处理任意 token 子集
MPC 集成: 每个规划步重新采样 dropout mask，预测和 CEM 优化均在稀疏 token 上进行
损失函数: 标准 MSE 预测损失 \(\mathcal{L}_{wm} = \frac{1}{N}\sum\|{\hat{z} - z}\|^2\)，目标距离同样用 MSE
VLA 引导规划: 对长时程任务从预训练 VLA（SmolVLA）采样候选动作序列，替代随机采样
关键发现: 简单随机采样优于复杂的注意力/学习排序方法，因为静态重要性度量在动态规划中存在"盲点"，随机采样的无偏覆盖反而更鲁棒

实验关键数据¶

设置	性能	时间节省
PushT (50% drop)	70.0% vs Full 75.0%	82s vs 173s (−52.6%)
Granular (30% drop)	85.0% vs Full 75.0%	性能反超
真实 PickPlace (50% drop)	80% vs VLA-only 60%	10.4s vs 19.1s
真实 Drawer (50% drop)	70% vs VLA-only 60%	10.6s vs 14.0s
LIBERO-10 (50% drop)	33% vs VLA-only 29%	29.7s vs 53.4s
Meta-World (50% drop)	47.73% vs Full 48.80%	2.37s vs 3.63s

CLS-token 基线在空间敏感任务上严重退化（Granular 20%, Rope 36.7%）
10%-50% 丢弃率为最佳工作区间，>70% 开始明显退化
分组注意力训练是关键（消融实验确认）

亮点¶

极其简洁优雅：仅通过随机 dropout 即实现大幅加速，无需额外模型
"盲点问题"分析深刻——解释了为何复杂 token 选择不如随机采样
通用性强：从简单轨迹优化到 VLA 引导规划到真实机器人均验证有效
训练阶段的分组注意力策略可无缝嵌入任何 Transformer 世界模型

局限性¶

最佳 drop ratio 需要根据任务手动选择，缺乏自适应机制
分组数固定为 2，未探索更多分组的效果
依赖 DINO 特征的冗余性假设，对信息密集场景可能不成立
真实世界验证仅限于两个简单任务（PickPlace + Drawer）

评分¶

新颖性: ⭐⭐⭐⭐ (简单但有效的洞察，盲点问题分析有价值)
实验充分度: ⭐⭐⭐⭐⭐ (8个仿真+2个真实任务，多方法对比，消融充分)
写作质量: ⭐⭐⭐⭐ (逻辑清晰，图表精美)
价值: ⭐⭐⭐⭐ (实用贡献，可直接集成到现有世界模型流水线)