APPLE: Toward General Active Perception via Reinforcement Learning¶

会议: ICLR 2026
arXiv: 2505.06182
领域: 主动感知 / 强化学习
关键词: active perception, reinforcement learning, POMDP, supervised learning, off-policy, ViViT, CrossQ

一句话总结¶

提出APPLE——一种结合强化学习与监督学习的通用主动感知框架，将主动感知建模为POMDP，奖励函数设计为RL奖励减去预测损失，梯度自然分解为策略梯度和预测损失梯度两部分，基于off-policy算法（SAC/CrossQ）和共享ViViT骨干网络，在5个不同任务基准上验证通用性，其中CrossQ变体无需逐任务调参且训练效率提高53%。

研究背景与动机¶

主动感知的核心挑战：主动感知要求智能体通过主动控制传感器（如移动相机视角、执行触觉探索）来获取信息，同时完成感知预测任务，需要同时优化"如何感知"和"如何预测"。
现有方法的碎片化：当前主动感知方法通常针对特定任务和传感模态设计（如主动物体识别、主动触觉感知），缺乏统一的框架适用于多种任务。
RL与预测任务的耦合难题：纯RL方法需要设计奖励函数来间接评估感知质量，难以直接优化预测性能；纯监督学习方法无法学习感知策略。
On-policy方法的失败：实验发现REINFORCE和PPO等on-policy方法在主动感知任务上完全失败，因为探索效率过低且奖励信号稀疏。
超参数敏感性：现有方法往往需要针对每个任务精心调整超参数，限制了实际应用的通用性。
计算效率需求：实际部署场景要求高效的训练和推理，需要在不牺牲性能的前提下减少计算开销。

方法详解¶

整体框架¶

APPLE将主动感知建模为POMDP，智能体在每个时间步根据历史观测选择动作（控制传感器），获得新观测后更新预测。奖励函数 \(r = r_{RL} - \mathcal{L}_{pred}\)，其梯度自然分解为策略梯度（优化感知策略）和预测损失梯度（优化预测模型）。

关键设计¶

统一的奖励-损失设计
做什么：将奖励定义为RL任务奖励减去监督预测损失 \(r_t = r_t^{RL} - \mathcal{L}_{pred}(\hat{y}_t, y)\)
核心思路：梯度 \(\nabla J\) 分解为 \(\nabla_\theta J_{RL} + \nabla_\phi \mathcal{L}_{pred}\)，策略参数 \(\theta\) 通过策略梯度优化，预测参数 \(\phi\) 通过监督损失优化
设计动机：避免了纯RL框架中需要手动设计代理奖励的困难，同时保留了监督学习对预测模型的直接优化
Off-policy算法选择（SAC/CrossQ）
做什么：提出APPLE-SAC和APPLE-CrossQ两种变体
核心思路：off-policy方法通过经验回放实现高效探索；CrossQ通过批归一化替代target network，消除了关键超参数
设计动机：on-policy方法（REINFORCE/PPO）在主动感知中完全失败；CrossQ相比SAC更鲁棒，无需调整target network更新频率
共享ViViT骨干网络
做什么：使用Video Vision Transformer（ViViT）风格的架构作为策略网络和预测网络的共享特征提取器
核心思路：将历史观测序列视为视频序列，利用时空注意力机制捕获跨时间步的信息聚合
设计动机：共享骨干减少参数量，同时序列化建模自然适配主动感知中观测逐步积累的特性

实验关键数据¶

主实验¶

任务	APPLE-SAC	APPLE-CrossQ	最优基线	基线方法
MHSB (分类)	94.2%	95.1%	89.7%	InfoGain
CircleSquare (检测)	0.82 IoU	0.84 IoU	0.76 IoU	Random
TactileMNIST (识别)	92.8%	93.5%	88.3%	Coverage
Volume (估计)	0.031 MSE	0.028 MSE	0.045 MSE	Heuristic
Toolbox (6DoF)	78.5%	80.2%	71.4%	AcTPa

消融实验¶

方法/变体	平均排名	训练时间 (相对)	超参调整需求
APPLE-CrossQ	1.2	1.0x	低
APPLE-SAC	1.8	1.53x	中
REINFORCE	4.5	0.8x	高（效果差）
PPO	4.8	1.1x	高（效果差）
纯监督 (无RL)	3.2	0.6x	低

关键发现¶

On-policy方法完全失败：REINFORCE和PPO在所有5个基准上均无法学到有效策略，验证了off-policy方法对主动感知的必要性。
CrossQ全面优于SAC：跨任务平均排名更高，训练速度快53%，且无需调整target network超参。
通用性验证：同一框架和超参设定在5个差异巨大的任务上均取得SOTA或接近SOTA。
RL+监督优于纯监督：去掉RL部分后性能显著下降，说明学习感知策略的重要性。

亮点与洞察¶

统一框架：首次提出适用于多种传感模态和任务类型的通用主动感知框架。
优雅的梯度分解：奖励-损失设计使策略梯度和预测梯度自然分离，理论清晰。
重要的负面结果：on-policy方法完全失败的发现对主动感知社区有重要参考价值。
实用性突出：CrossQ变体几乎不需要调参，显著降低了实际应用门槛。

局限性 / 可改进方向¶

离散动作空间：当前实验均为离散动作，连续动作空间（如连续视角控制）的效果未验证。
模拟环境为主：5个基准均为模拟环境，真实物理场景的泛化性有待验证。
计算资源需求：ViViT骨干的计算开销在资源受限的嵌入式平台上可能成为瓶颈。
长时间序列：当前实验的感知步数较短（5-20步），更长序列的性能趋势未探索。

评分¶

新颖性: ⭐⭐⭐⭐ 统一框架和梯度分解设计新颖
实验充分度: ⭐⭐⭐⭐ 5个基准覆盖多种模态和任务类型
写作质量: ⭐⭐⭐⭐ 框架清晰，实验详实
价值: ⭐⭐⭐⭐ 通用主动感知框架的实际应用潜力大