APPLE: Toward General Active Perception via Reinforcement Learning¶
会议: ICLR 2026
arXiv: 2505.06182
领域: 主动感知 / 强化学习
关键词: active perception, reinforcement learning, POMDP, supervised learning, off-policy, ViViT, CrossQ
一句话总结¶
提出APPLE——一种结合强化学习与监督学习的通用主动感知框架,将主动感知建模为POMDP,奖励函数设计为RL奖励减去预测损失,梯度自然分解为策略梯度和预测损失梯度两部分,基于off-policy算法(SAC/CrossQ)和共享ViViT骨干网络,在5个不同任务基准上验证通用性,其中CrossQ变体无需逐任务调参且训练效率提高53%。
研究背景与动机¶
-
主动感知的核心挑战:主动感知要求智能体通过主动控制传感器(如移动相机视角、执行触觉探索)来获取信息,同时完成感知预测任务,需要同时优化"如何感知"和"如何预测"。
-
现有方法的碎片化:当前主动感知方法通常针对特定任务和传感模态设计(如主动物体识别、主动触觉感知),缺乏统一的框架适用于多种任务。
-
RL与预测任务的耦合难题:纯RL方法需要设计奖励函数来间接评估感知质量,难以直接优化预测性能;纯监督学习方法无法学习感知策略。
-
On-policy方法的失败:实验发现REINFORCE和PPO等on-policy方法在主动感知任务上完全失败,因为探索效率过低且奖励信号稀疏。
-
超参数敏感性:现有方法往往需要针对每个任务精心调整超参数,限制了实际应用的通用性。
-
计算效率需求:实际部署场景要求高效的训练和推理,需要在不牺牲性能的前提下减少计算开销。
方法详解¶
整体框架¶
APPLE将主动感知建模为POMDP,智能体在每个时间步根据历史观测选择动作(控制传感器),获得新观测后更新预测。奖励函数 \(r = r_{RL} - \mathcal{L}_{pred}\),其梯度自然分解为策略梯度(优化感知策略)和预测损失梯度(优化预测模型)。
关键设计¶
- 统一的奖励-损失设计
- 做什么:将奖励定义为RL任务奖励减去监督预测损失 \(r_t = r_t^{RL} - \mathcal{L}_{pred}(\hat{y}_t, y)\)
- 核心思路:梯度 \(\nabla J\) 分解为 \(\nabla_\theta J_{RL} + \nabla_\phi \mathcal{L}_{pred}\),策略参数 \(\theta\) 通过策略梯度优化,预测参数 \(\phi\) 通过监督损失优化
-
设计动机:避免了纯RL框架中需要手动设计代理奖励的困难,同时保留了监督学习对预测模型的直接优化
-
Off-policy算法选择(SAC/CrossQ)
- 做什么:提出APPLE-SAC和APPLE-CrossQ两种变体
- 核心思路:off-policy方法通过经验回放实现高效探索;CrossQ通过批归一化替代target network,消除了关键超参数
-
设计动机:on-policy方法(REINFORCE/PPO)在主动感知中完全失败;CrossQ相比SAC更鲁棒,无需调整target network更新频率
-
共享ViViT骨干网络
- 做什么:使用Video Vision Transformer(ViViT)风格的架构作为策略网络和预测网络的共享特征提取器
- 核心思路:将历史观测序列视为视频序列,利用时空注意力机制捕获跨时间步的信息聚合
- 设计动机:共享骨干减少参数量,同时序列化建模自然适配主动感知中观测逐步积累的特性
实验关键数据¶
主实验¶
| 任务 | APPLE-SAC | APPLE-CrossQ | 最优基线 | 基线方法 |
|---|---|---|---|---|
| MHSB (分类) | 94.2% | 95.1% | 89.7% | InfoGain |
| CircleSquare (检测) | 0.82 IoU | 0.84 IoU | 0.76 IoU | Random |
| TactileMNIST (识别) | 92.8% | 93.5% | 88.3% | Coverage |
| Volume (估计) | 0.031 MSE | 0.028 MSE | 0.045 MSE | Heuristic |
| Toolbox (6DoF) | 78.5% | 80.2% | 71.4% | AcTPa |
消融实验¶
| 方法/变体 | 平均排名 | 训练时间 (相对) | 超参调整需求 |
|---|---|---|---|
| APPLE-CrossQ | 1.2 | 1.0x | 低 |
| APPLE-SAC | 1.8 | 1.53x | 中 |
| REINFORCE | 4.5 | 0.8x | 高(效果差) |
| PPO | 4.8 | 1.1x | 高(效果差) |
| 纯监督 (无RL) | 3.2 | 0.6x | 低 |
关键发现¶
- On-policy方法完全失败:REINFORCE和PPO在所有5个基准上均无法学到有效策略,验证了off-policy方法对主动感知的必要性。
- CrossQ全面优于SAC:跨任务平均排名更高,训练速度快53%,且无需调整target network超参。
- 通用性验证:同一框架和超参设定在5个差异巨大的任务上均取得SOTA或接近SOTA。
- RL+监督优于纯监督:去掉RL部分后性能显著下降,说明学习感知策略的重要性。
亮点与洞察¶
- 统一框架:首次提出适用于多种传感模态和任务类型的通用主动感知框架。
- 优雅的梯度分解:奖励-损失设计使策略梯度和预测梯度自然分离,理论清晰。
- 重要的负面结果:on-policy方法完全失败的发现对主动感知社区有重要参考价值。
- 实用性突出:CrossQ变体几乎不需要调参,显著降低了实际应用门槛。
局限性 / 可改进方向¶
- 离散动作空间:当前实验均为离散动作,连续动作空间(如连续视角控制)的效果未验证。
- 模拟环境为主:5个基准均为模拟环境,真实物理场景的泛化性有待验证。
- 计算资源需求:ViViT骨干的计算开销在资源受限的嵌入式平台上可能成为瓶颈。
- 长时间序列:当前实验的感知步数较短(5-20步),更长序列的性能趋势未探索。
相关工作与启发¶
- 主动感知:Bajcsy et al. (2018) 的主动感知综述;AcTPa (Liang et al., 2025) 的触觉主动感知
- Off-policy RL:SAC (Haarnoja et al., 2018), CrossQ (Bhatt et al., 2024) 的高效off-policy方法
- 视觉Transformer:ViViT (Arnab et al., 2021) 的视频理解架构
- POMDP求解:Kaelbling et al. (1998) 的POMDP理论框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 统一框架和梯度分解设计新颖
- 实验充分度: ⭐⭐⭐⭐ 5个基准覆盖多种模态和任务类型
- 写作质量: ⭐⭐⭐⭐ 框架清晰,实验详实
- 价值: ⭐⭐⭐⭐ 通用主动感知框架的实际应用潜力大