Automatic Reward Shaping from Confounded Offline Data¶

会议: ICML 2025
作者: Mingxuan Li, Junzhe Zhang, Elias Bareinboim (Columbia University)
arXiv: 2505.11478
代码: 无
领域: 强化学习, 因果推理
关键词: reward shaping, confounded MDP, causal inference, PBRS, offline RL

一句话总结¶

提出首个理论上有保障的数据驱动方法，从含未观测混淆因子的离线数据中自动学习基于势的奖励整形函数 (PBRS)，通过因果贝尔曼最优方程上界最优状态值作为势函数，并证明所得 Q-UCB Shaping 算法在伪次优状态-动作对上享有比 vanilla Q-UCB 更优的 gap-dependent regret bound。

研究背景与动机¶

领域现状：基于势的奖励整形 (PBRS) 是加速 RL 学习的有效技术——通过在原始奖励上叠加状态势差信号，引导智能体更快找到高回报状态，同时保证最优策略不变。Ng et al. (1999) 指出最优状态值函数 \(V_h^*(s)\) 是理想的势函数候选。

现有痛点：实践中势函数设计要么依赖领域专家手工构造（昂贵、易误导），要么从离线数据中用标准 off-policy 方法估计。但当离线数据来源于不可控的行为策略时，未观测的混淆变量（如示教者观察到但学习者看不到的环境状态）导致标准 off-policy 估计产生系统偏差——甚至可能得到"被稳定惩罚"的错误势信号。

核心矛盾：在含混淆偏差的 MDP (CMDP) 中，转移函数 \(\mathcal{T}\) 和奖励函数 \(\mathcal{R}\) 从观测数据中不可点辨识（无论样本量多大）。直接用行为数据估计的值函数可能严重偏离真实最优值，导致整形信号误导智能体。

本文目标 (1) 如何从混淆离线数据中稳健地构造势函数？(2) 使用这些势函数的在线学习器能获得怎样的理论保证？

切入角度：借鉴因果推理中部分辨识 (partial identification) 的思路——虽然无法精确辨识 \(\mathcal{T}\) 和 \(\mathcal{R}\)，但可以用 Manski bounds 对它们进行上界估计。只要势函数上界了最优状态值（保守乐观条件），就能同时保证策略不变性和加速探索。

核心 idea：用因果偏序关系对含混淆的离线数据推导最优状态值的上界，作为 PBRS 的势函数，实现自动化奖励整形。

方法详解¶

整体框架¶

整个方法分为两阶段流水线： 1. 离线阶段：从可能含混淆偏差的多个离线数据集中，通过 Causal Bellman Optimal Equation 计算最优状态值的因果上界 \(\bar{V}_h(s)\)，作为势函数 \(\phi_h(s)\) 2. 在线阶段：将势函数代入改进的 Q-UCB 算法（Q-UCB Shaping），在线交互学习最优策略

关键设计¶

Confounded MDP 建模:
- 功能：形式化未观测混淆存在的 MDP
- 核心思路：CMDP 在标准 MDP 基础上引入外生噪声 \(U_h\)，同时影响行为策略 \(\beta_h(S_h, U_h)\)、奖励 \(r_h(S_h, X_h, U_h)\) 和下一状态 \(\tau_h(S_h, X_h, U_h)\)。在因果图中表现为动作-奖励和动作-下一状态之间的双向箭头。
- 设计动机：标准 MDP 假设行为数据满足"无未观测混淆"条件，但实际中示教者可能利用学习者看不到的信息做决策（如机器人行走中的身体稳定性），导致观测数据中行为、奖励和转移之间存在虚假关联。
Causal Bellman Optimal Equation（因果贝尔曼最优方程）:
- 功能：从混淆离线数据中上界最优介入策略的状态值
- 核心思路：对转移和奖励分别应用部分辨识 bounds：\(\mathcal{T}_h(s,x,s') \leq \tilde{T}_h(s,x,s') P_h(x|s) + P_h(\neg x|s)\)，\(\mathcal{R}_h(s,x) \leq \tilde{R}_h(s,x) P_h(x|s) + b \cdot P_h(\neg x|s)\)。将这些 bounds 代入标准贝尔曼最优方程，得到递推上界：\(\bar{V}_h(s) = \max_x [P_h(x|s)(\tilde{R}_h + \mathbb{E}_{\tilde{T}}[\bar{V}_{h+1}]) + P_h(\neg x|s)(b + \max_{s'} \bar{V}_{h+1}(s'))]\)。其中 \(P_h(\neg x|s)\) 项的含义是：对于行为数据中未选择的动作，乐观地假设它会获得最大可能回报 \(b\) 并转移到最优下一状态。
- 设计动机：标准值迭代在混淆数据上会给出错误估计（如 Walking Robot 例子中，能力型示教者的数据导致稳定/不稳定状态值相同，而差劲示教者甚至惩罚稳定状态）。因果上界方法回避了不可辨识问题，仅需上界成立即可。当有多个数据集时，取每个状态的最小上界（Corollary 3.2）得到最紧估计。
Q-UCB Shaping 算法:
- 功能：利用因果上界势函数的在线 model-free 学习
- 核心思路：在 Q-UCB 基础上做三处关键修改：(1) Q 值零初始化（而非 \(H\) 初始化）；(2) UCB bonus 项依赖势函数最大值 \(\phi_m = \max_s \phi(s)\)：\(b_t = c\sqrt{H\phi_m^2\iota/t}\)；(3) 学习更新使用整形后的奖励 \(r'_h = y_h - \phi_h(s_h) + \phi_{h+1}(s_{h+1})\)，并用 \(\min(\max(Q, 0), \phi_m)\) 代替原始的 \([0, H]\) 裁剪。
- 设计动机：保守乐观条件（\(V^*(s) \leq \phi(s) \leq H\)）使得零初始化成为可能——势函数本身提供了足够的探索信号，无需传统的乐观初始化。这也使得裁剪范围从 \([0,H]\) 缩小到 \([0, \phi_m]\)，减少了过度探索。

损失函数 / 训练策略¶

离线阶段使用改进的值迭代（Algo. 2），从 \(h=H\) 逆向更新，跳过未访问状态-动作对，最后跨数据集取最小值。在线阶段使用自适应学习率 \(\alpha_t = (H+1)/(H+t)\) 的 Q-learning 更新。

实验关键数据¶

主实验¶

在四个 Windy MiniGrid 环境中对比，风向作为未观测混淆因子：

环境	Q-UCB (No Shaping)	Shaping+Min Value	Shaping+Avg Value	Shaping+Causal Bound (Ours)
Empty World	发散	收敛	收敛	收敛 (与 baseline 持平)
LavaCross Easy	发散	缓慢/不稳	缓慢/不稳	最快收敛 + 最低 regret
LavaCross Hard	发散	误导	误导	唯一正确收敛
LavaCross Maze	发散	误导/陷阱	误导/陷阱	唯一找到正确策略

消融实验¶

实验	结果
最优策略一致性检验	Ours 在所有环境 100% 找到最优介入策略
vs BCQ (深度 offline RL)	BCQ 在混淆数据上最优率仅 14.9%~40.1%，远低于 Ours
不同行为策略质量	能力好/差/随机的三种示教者数据融合后，仅 causal bound 正确整合信息
Walking Robot 例子	因果上界 \(\phi(L=0,F=0)=9.0, \phi(L=0,F=1)=9.5\) 正确上界了真实最优值 \(V^(L=0,F=0)=5.0, V^(L=0,F=1)=5.5\)，且保持了"稳定优于不稳定"的序关系

关键发现¶

使用混淆值函数做整形不仅无法加速，反而会误导智能体——在 LavaCross Hard 中，混淆值甚至引导智能体走入岩浆区
因果上界方法的核心优势在于：即使无法精确估计值函数，上界关系足以提供正确的势函数序关系
Regret 分析揭示：对于伪次优状态-动作对 \(\text{Sub}_\Delta\)，regret 从 \(O(H^6/\Delta)\) 改进到 \(O(H^5/\Delta)\)，与 SOTA Q-learning 变体（Xu et al. 2021）匹配

亮点与洞察¶

因果推理 × 奖励整形的巧妙结合：将不可辨识问题转化为"只需上界"的弱要求，完美匹配 PBRS 对势函数的需求——势函数不需要精确等于最优值，只需保持正确的序关系
保守乐观条件 (Conservative Optimism) 是连接因果上界与 regret 改进的关键桥梁——上界性质保证 Q 值非负，从而允许零初始化替代传统的 \(H\) 初始化
Walking Robot 例子极具教学价值：直观展示了混淆偏差如何颠覆标准 off-policy 估计

局限性¶

仅在表格型 (tabular) 设定下证明理论保证，未扩展到函数逼近场景
实验环境规模较小（MiniGrid），未在高维/连续动作空间验证
因果上界的紧致性依赖于 \(P(\neg x|s)\) 的大小——当行为策略几乎总选某个动作时上界紧致，但当行为策略接近均匀时上界可能过于宽松
假设奖励有已知上界 \(b\)，这在某些场景中可能不现实

评分¶

维度	分数	理由
新颖性	⭐⭐⭐⭐	因果推理 × PBRS 的新颖交叉，保守乐观条件的提出极具洞察力
技术深度	⭐⭐⭐⭐⭐	因果贝尔曼方程推导严密，regret 分析完整，收敛证明（定常 CMDP 的不动点唯一性）精巧
实验充分度	⭐⭐⭐	环境规模偏小，缺少连续控制和大规模环境，但 Walking Robot 分析很细致
写作质量	⭐⭐⭐⭐	动机清晰，例子贯穿全文，proof sketch 简洁
实用性	⭐⭐⭐	目前限于 tabular 设定，实用性有限，但为混淆数据利用开辟新方向