Conceptual Belief-Informed Reinforcement Learning¶

会议: ICML 2025
arXiv: 2410.01739
代码: 无
领域: 强化学习
关键词: 样本效率, 概念抽象, 贝叶斯先验, 人类认知启发, 经验利用

一句话总结¶

提出 HI-RL（Human Intelligence-RL）——将认知科学中的概念抽象和概率先验信念机制引入 RL，从经验中提取高层概念并构建概念关联的自适应先验来指导值函数/策略更新，作为算法无关插件一致提升 DQN/PPO/SAC/TD3 的样本效率。

领域现状：RL 成功但样本效率远落后于人类学习，依赖大量试错交互。

现有痛点：经验回放仅做"缓冲区级操作"（重采样/重标注），未提取更高阶的概念抽象；贝叶斯方法专注于不确定性但很少与概念抽象结合。

核心矛盾：人类通过"概念化"（将经验抽象为概念+更新概率信念）实现高效学习，RL 缺乏类似机制。

本文目标：高效利用过去经验来加速 RL 学习。

切入角度：认知科学的两个机制——(a) 概念抽象（从大状态空间提取高层类别）; (b) 概率先验（聚合经验为自适应先验指导决策）。

核心 idea：从状态空间提取概念→为每个概念维护概率信念→作为辅助知识注入值函数/策略更新。

概念抽象模块:
- 功能：将大状态空间的经验组织为有限数量的概念类别
- 核心思路：对经验回放中的状态进行聚类（如 K-Means），每个聚类 = 一个概念
- 设计动机：降低信念空间维度，实现可扩展的先验估计
概率信念构建与更新:
- 功能：为每个概念维护自适应的概率先验
- 核心思路：对概念 \(c\) 下的奖励/转移维护贝叶斯后验，随经验自适应更新
- 设计动机：先验信号越来越准确，加速价值估计收敛
算法无关注入:
- 功能：将概念先验作为辅助项加入任意 RL 算法
- 核心思路：值函数更新时加入先验引导项（DQN）；策略更新时加入先验正则化（PPO/SAC/TD3）
- 设计动机：不改变原算法核心逻辑，纯增量式改进

算法	基线回报	+HI-RL 回报	提升
DQN (CartPole)	195	200	+2.6%（更快收敛）
PPO (Hopper)	2100	2650	+26%
SAC (Ant)	3200	3800	+19%
TD3 (HalfCheetah)	8500	9200	+8%