跳转至

A Generalized Bisimulation Metric of State Similarity between Markov Decision Processes: From Theoretical Propositions to Applications

会议: NeurIPS 2025 (Poster)
arXiv: 2509.18714
代码: 无
领域: 强化学习 / MDP理论
关键词: bisimulation metric, MDP状态相似性, 策略迁移, 状态聚合, Wasserstein距离

一句话总结

将传统只能在单个MDP内度量状态相似性的bisimulation metric (BSM)推广到跨MDP场景,提出广义双模拟度量(GBSM),严格证明了对称性、跨MDP三角不等式和同状态距离上界三个基本度量性质,并在策略迁移、状态聚合和基于采样的估计三个应用中推导出比标准BSM更紧的误差界和闭式样本复杂度。

背景与动机

Bisimulation metric (BSM) 是RL理论中度量单个MDP内状态相似性的有力工具——BSM距离越小的状态,其最优价值函数越接近。BSM已被成功用于状态表征学习和策略探索等任务。然而,当面临多MDP场景(如sim-to-real策略迁移、多任务RL),需要衡量来自不同MDP的状态之间的相似性时,标准BSM就无能为力了。

Song et al. (2016) 曾尝试用BSM评估不同MDP间的相似性,但只做了经验评估(用Hausdorff距离度量),缺乏严格的数学性质分析。正如García et al. (2022)综述中指出的,现有MDP相似性度量"没有理论保证最相似的MDP足够相似以产生正向迁移"。这个理论空白限制了进一步的理论推进和实际应用。

核心问题

如何将BSM从单一MDP内的状态相似性度量严格推广为跨MDP的状态相似性度量,并建立其数学性质以支撑策略迁移、状态聚合等理论分析?

核心挑战在于:跨MDP的度量不再是在单一状态空间上的伪度量。同一个状态\(s\)在不同MDP \(M_1\)\(M_2\)中是本质不同的对象(因为转移概率\(P\)和奖励\(R\)不同),这导致BSM已有的证明技巧(如三角不等式)不能直接搬用。

方法详解

整体框架

GBSM定义在状态-MDP对上:\(d((s, M_1), (s', M_2))\),简写为\(d_{1-2}(s, s')\)。输入是两个共享动作空间\(A\)但状态空间可不同的MDP \(M_1 = \langle S_1, A, P_1, R_1, \gamma \rangle\)\(M_2 = \langle S_2, A, P_2, R_2, \gamma \rangle\),输出是任意一对跨MDP状态\((s \in S_1, s' \in S_2)\)之间的距离。

流程分三步:(1) 定义GBSM的递归不动点方程并证明存在性与收敛性;(2) 严格证明三个度量性质;(3) 基于这些性质推导策略迁移、聚合和估计的理论界。

关键设计

  1. GBSM不动点定义 (Theorem 3.2):定义算子\(F(d|s,s') = \max_a \{|R_1(s,a) - R_2(s',a)| + \gamma W_1(P_1(\cdot|s,a), P_2(\cdot|s',a); d)\}\),其中\(W_1\)是1-Wasserstein距离。通过Knaster-Tarski不动点定理证明\(F\)存在唯一不动点\(d_{1-2}\),且迭代收敛。这个定义的精妙之处在于将BSM的框架自然推广到跨MDP,使用Wasserstein距离耦合两个MDP的转移分布。

  2. 三个度量性质

  3. GBSM对称性 (Theorem 3.4)\(d_{1-2}(s, s') = d_{2-1}(s', s)\)。虽然看起来自然,但因为\(d_{1-2}\)\(d_{2-1}\)涉及不同的概率和奖励组合,证明需要利用Wasserstein距离的对称性。
  4. 跨MDP三角不等式 (Theorem 3.5)\(d_{1-3}(s_1, s_3) \leq d_{1-2}(s_1, s_2) + d_{2-3}(s_2, s_3)\)。这是最核心的性质,也是证明最难的部分。因为GBSM不是单一空间上的伪度量,作者需要引入额外的第三个MDP \(M_3\),并使用Gluing Lemma构造联合运输计划来完成归纳证明。
  5. 同状态空间距离上界 (Theorem 3.6):当\(M_1\)\(M_2\)共享状态空间\(S\)时,\(d_{1-2}(s, s')\)被TV距离描述的上界所约束。注意\(d_{1-2}(s, s) \neq 0\)(因为同一状态在不同MDP中行为不同),只有\(M_1 = M_2\)时才有\(d_{1-1}(s,s) = 0\)

  6. 价值函数差异界 (Theorem 3.3)\(|V_1^*(s) - V_2^*(s')| \leq d_{1-2}(s, s')\)。GBSM距离直接上界了跨MDP最优价值函数的差异,这是所有应用分析的基础。

应用理论

  1. 策略迁移 (Theorem 4.1, Corollary 4.2):给定状态映射\(f: S_2 \to S_1\),将\(M_1\)上训练的策略\(\pi\)迁移到\(M_2\),后悔值(regret)\(V_2^* - V_2^\pi\)被GBSM严格约束。相比Song et al. (2016)仅展示正相关性,GBSM给出了可证明的上界,且适用于任意策略和任意状态映射。

  2. 状态聚合 (Theorem 4.4):将连续/大规模MDP聚合为小规模MDP时的误差界从现有的\(\frac{2\sigma(2+\gamma)}{1-\gamma}\)收紧到\(\frac{2\sigma}{1-\gamma}\)。收紧的关键在于跨MDP三角不等式允许解耦误差分析

  3. 采样估计 (Theorem 4.5):在转移概率未知需要通过采样估计的场景下,提供了闭式样本复杂度\(K = \frac{-\ln(\alpha/2) \gamma^2 \bar{R}^2 |S|^2}{2\epsilon^2(1-\gamma)^4}\),改进了Ferns et al. (2011)的渐近结果。

误差解耦分析

跨MDP三角不等式的核心价值在于允许分离不同误差源。例如,近似误差\(|d_{1-1} - d_{\hat{[1]}-\hat{[1]}}|\)可以解耦为聚合误差\(2d_{1-[1]}\)和估计误差\(2d_{[1]-\hat{[1]}}\),分别分析后再组合,避免了Ferns et al. (2011)需要联合分析导致的松弛。

实验关键数据

实验使用随机Garnet风格MDP(\(|S|=20, |A|=5\),50%分支因子)和真实5G无线网络测试平台。

状态聚合实验

折扣因子\(\gamma\) 0.1 0.2 0.3 0.4 0.5 0.55 0.65 0.75 0.8
BSM-based界 0.111 0.181 0.255 0.389 0.669 0.818 1.311 2.374 4.159
GBSM-based界 0.101 0.156 0.187 0.275 0.390 0.455 0.618 1.078 1.536
  • \(\gamma\)越大(接近1),GBSM相比BSM的优势越显著,在\(\gamma=0.8\)时GBSM界约为BSM界的37%
  • 整体GBSM-based界比BSM-based界改进60-80%
  • 在5G Digital Twin实验中,GBSM距离与策略迁移后的最差性能呈强线性相关

消融实验要点

  • 策略迁移:Song et al. (2016)的度量无法作为后悔值的上界,而GBSM界始终有效
  • 估计实验:在转移概率加入标准差0.1-0.3的高斯噪声下验证估计误差界
  • 解耦分析的优势在\(\gamma\)较大时尤为突出

亮点

  • 跨MDP度量的严格理论基础:首次为跨MDP状态相似性建立了具备完整度量性质的框架,填补了该领域的理论空白
  • Gluing Lemma的巧妙运用:在证明跨MDP三角不等式时引入第三个MDP并利用Gluing Lemma构造联合运输计划,这是一个优雅的证明技巧
  • 解耦误差分析:跨MDP三角不等式带来的最大实用价值——可以将不同误差源独立分析再组合,得到更紧的界
  • 向lax BSM和on-policy BSM的兼容性:框架足够灵活,可适配BSM的现代变体,解决了max-over-actions的已知缺陷
  • 首个闭式样本复杂度:相比之前的渐近结果,给出了明确的样本数量要求

局限性 / 可改进方向

  • 要求共享动作空间:当前GBSM要求两个MDP有相同的动作空间\(A\)。虽然作者在rebuttal中展示了可扩展到lax GBSM以支持不同动作空间,但正文未完整展开
  • 不兼容平均奖励设定:所有界都除以\((1-\gamma)\),当\(\gamma \to 1\)时发散,无法处理average-reward MDP
  • 实验规模有限:主要实验在\(|S|=20\)的随机MDP上进行,大规模/高维场景的可扩展性需进一步验证
  • 计算复杂度:GBSM的精确计算需要在\(|S_1| \times |S_2|\)的空间上迭代求解Wasserstein距离,大规模环境下不够实用
  • 缺乏深度RL实验:没有在Atari等标准RL benchmark上验证(reviewer建议了Pac-Man颜色置换实验等)

与相关工作的对比

方法 适用范围 理论界 样本复杂度
BSM (Ferns et al., 2011) 单MDP内 \(\frac{2\sigma(2+\gamma)}{1-\gamma}\) (聚合) 渐近
Song et al. (2016) 跨MDP(经验) 无严格上界
Kemertas et al. (2021) 单MDP内 \(\frac{2\sigma}{1-\gamma}\) (聚合) 无闭式
GBSM (本文) 跨MDP \(\frac{2\sigma'}{1}\)(更紧) 闭式

与Song et al. (2016)的核心差异:Song的Hausdorff度量只是GBSM策略迁移界第一项的简化版(不含\(\frac{1}{1-\gamma}\)系数),且仅适用于最优策略+最优映射的理想场景。GBSM提供了任意策略和映射下的严格界。

启发与关联

  • Sim-to-real迁移的理论工具:GBSM可用于在策略部署前预测最差性能下降,对安全关键系统(如5G网络、自动驾驶)有实际价值
  • 多任务RL:GBSM可用于任务聚类和梯度冲突判断——高GBSM距离的任务需要gradient surgery,低GBSM距离的冲突可能只是采样噪声
  • Digital Twin评估:GBSM为评估数字孪生保真度提供了理论度量,可指导DT的设计与优化
  • 该框架的解耦分析思想可能启发其他需要多源误差分析的RL理论工作

评分

  • 新颖性: ⭐⭐⭐⭐ 问题设定新颖(跨MDP度量)但证明技巧多为已有BSM理论的推广
  • 实验充分度: ⭐⭐⭐ 主要在小规模随机MDP上验证,5G实验是rebuttal后补充的
  • 写作质量: ⭐⭐⭐⭐ 理论清晰严谨,写作结构好,但实验描述不够详细
  • 价值: ⭐⭐⭐⭐ 填补了跨MDP理论分析的空白,对sim-to-real迁移有实际意义