跳转至

APPLE: Toward General Active Perception via Reinforcement Learning

会议: ICLR 2026
arXiv: 2505.06182
领域: 主动感知 / 强化学习
关键词: active perception, reinforcement learning, POMDP, supervised learning, off-policy, ViViT, CrossQ

一句话总结

提出APPLE——一种结合强化学习与监督学习的通用主动感知框架,将主动感知建模为POMDP,奖励函数设计为RL奖励减去预测损失,梯度自然分解为策略梯度和预测损失梯度两部分,基于off-policy算法(SAC/CrossQ)和共享ViViT骨干网络,在5个不同任务基准上验证通用性,其中CrossQ变体无需逐任务调参且训练效率提高53%。

研究背景与动机

  1. 主动感知的核心挑战:主动感知要求智能体通过主动控制传感器(如移动相机视角、执行触觉探索)来获取信息,同时完成感知预测任务,需要同时优化"如何感知"和"如何预测"。

  2. 现有方法的碎片化:当前主动感知方法通常针对特定任务和传感模态设计(如主动物体识别、主动触觉感知),缺乏统一的框架适用于多种任务。

  3. RL与预测任务的耦合难题:纯RL方法需要设计奖励函数来间接评估感知质量,难以直接优化预测性能;纯监督学习方法无法学习感知策略。

  4. On-policy方法的失败:实验发现REINFORCE和PPO等on-policy方法在主动感知任务上完全失败,因为探索效率过低且奖励信号稀疏。

  5. 超参数敏感性:现有方法往往需要针对每个任务精心调整超参数,限制了实际应用的通用性。

  6. 计算效率需求:实际部署场景要求高效的训练和推理,需要在不牺牲性能的前提下减少计算开销。

方法详解

整体框架

APPLE将主动感知建模为POMDP,智能体在每个时间步根据历史观测选择动作(控制传感器),获得新观测后更新预测。奖励函数 \(r = r_{RL} - \mathcal{L}_{pred}\),其梯度自然分解为策略梯度(优化感知策略)和预测损失梯度(优化预测模型)。

关键设计

  1. 统一的奖励-损失设计
  2. 做什么:将奖励定义为RL任务奖励减去监督预测损失 \(r_t = r_t^{RL} - \mathcal{L}_{pred}(\hat{y}_t, y)\)
  3. 核心思路:梯度 \(\nabla J\) 分解为 \(\nabla_\theta J_{RL} + \nabla_\phi \mathcal{L}_{pred}\),策略参数 \(\theta\) 通过策略梯度优化,预测参数 \(\phi\) 通过监督损失优化
  4. 设计动机:避免了纯RL框架中需要手动设计代理奖励的困难,同时保留了监督学习对预测模型的直接优化

  5. Off-policy算法选择(SAC/CrossQ)

  6. 做什么:提出APPLE-SAC和APPLE-CrossQ两种变体
  7. 核心思路:off-policy方法通过经验回放实现高效探索;CrossQ通过批归一化替代target network,消除了关键超参数
  8. 设计动机:on-policy方法(REINFORCE/PPO)在主动感知中完全失败;CrossQ相比SAC更鲁棒,无需调整target network更新频率

  9. 共享ViViT骨干网络

  10. 做什么:使用Video Vision Transformer(ViViT)风格的架构作为策略网络和预测网络的共享特征提取器
  11. 核心思路:将历史观测序列视为视频序列,利用时空注意力机制捕获跨时间步的信息聚合
  12. 设计动机:共享骨干减少参数量,同时序列化建模自然适配主动感知中观测逐步积累的特性

实验关键数据

主实验

任务 APPLE-SAC APPLE-CrossQ 最优基线 基线方法
MHSB (分类) 94.2% 95.1% 89.7% InfoGain
CircleSquare (检测) 0.82 IoU 0.84 IoU 0.76 IoU Random
TactileMNIST (识别) 92.8% 93.5% 88.3% Coverage
Volume (估计) 0.031 MSE 0.028 MSE 0.045 MSE Heuristic
Toolbox (6DoF) 78.5% 80.2% 71.4% AcTPa

消融实验

方法/变体 平均排名 训练时间 (相对) 超参调整需求
APPLE-CrossQ 1.2 1.0x
APPLE-SAC 1.8 1.53x
REINFORCE 4.5 0.8x 高(效果差)
PPO 4.8 1.1x 高(效果差)
纯监督 (无RL) 3.2 0.6x

关键发现

  1. On-policy方法完全失败:REINFORCE和PPO在所有5个基准上均无法学到有效策略,验证了off-policy方法对主动感知的必要性。
  2. CrossQ全面优于SAC:跨任务平均排名更高,训练速度快53%,且无需调整target network超参。
  3. 通用性验证:同一框架和超参设定在5个差异巨大的任务上均取得SOTA或接近SOTA。
  4. RL+监督优于纯监督:去掉RL部分后性能显著下降,说明学习感知策略的重要性。

亮点与洞察

  1. 统一框架:首次提出适用于多种传感模态和任务类型的通用主动感知框架。
  2. 优雅的梯度分解:奖励-损失设计使策略梯度和预测梯度自然分离,理论清晰。
  3. 重要的负面结果:on-policy方法完全失败的发现对主动感知社区有重要参考价值。
  4. 实用性突出:CrossQ变体几乎不需要调参,显著降低了实际应用门槛。

局限性 / 可改进方向

  1. 离散动作空间:当前实验均为离散动作,连续动作空间(如连续视角控制)的效果未验证。
  2. 模拟环境为主:5个基准均为模拟环境,真实物理场景的泛化性有待验证。
  3. 计算资源需求:ViViT骨干的计算开销在资源受限的嵌入式平台上可能成为瓶颈。
  4. 长时间序列:当前实验的感知步数较短(5-20步),更长序列的性能趋势未探索。

相关工作与启发

  • 主动感知:Bajcsy et al. (2018) 的主动感知综述;AcTPa (Liang et al., 2025) 的触觉主动感知
  • Off-policy RL:SAC (Haarnoja et al., 2018), CrossQ (Bhatt et al., 2024) 的高效off-policy方法
  • 视觉Transformer:ViViT (Arnab et al., 2021) 的视频理解架构
  • POMDP求解:Kaelbling et al. (1998) 的POMDP理论框架

评分

  • 新颖性: ⭐⭐⭐⭐ 统一框架和梯度分解设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 5个基准覆盖多种模态和任务类型
  • 写作质量: ⭐⭐⭐⭐ 框架清晰,实验详实
  • 价值: ⭐⭐⭐⭐ 通用主动感知框架的实际应用潜力大