Benchmarking Quantum Reinforcement Learning¶

会议: ICML 2025
arXiv: 2501.15893
代码: 无
领域: 强化学习
关键词: 量子强化学习, benchmark, 样本复杂度, 变分量子电路, 统计检验

一句话总结¶

提出量子强化学习（QRL）的严格基准测试方法论——基于样本复杂度的统计估计器和统计显著性定义的"超越"概念，在新设计的 6G 波束管理环境上进行迄今最大规模（100 seeds）的 QRL vs 经典 RL 比较，发现先前关于 QRL 优越性的声称需要更审慎看待。

领域现状：QRL 将经典 RL 中的神经网络替换为变分量子电路（VQC），希望在样本复杂度上获得量子优势。一些研究声称 QRL 在某些任务上优于经典 RL。

现有痛点：QRL 研究普遍存在可复现性问题——(a) 仅用 5 个 seeds 就声称优越性; (b) 统计范围不一致; (c) 量子计算额外引入的随机性（shot noise、硬件缺陷）增加比较难度; (d) 缺乏灵活可伸缩的基准环境。

核心矛盾：没有被广泛接受的统计方法来判定 QRL 是否显著优于经典 RL。

本文目标：建立 QRL 的严格评估方法论。

切入角度：(a) 定义基于样本复杂度的统计估计器; (b) 设计可灵活调节复杂度的基准环境; (c) 用 100 seeds 进行大规模计算实验。

核心 idea：统计显著性检验 + 足够多的 seeds 才是判断量子优势的可靠方式。

样本复杂度统计估计器:
- 功能：给定性能阈值，估计算法达到该阈值所需的样本数分布
- 核心思路：对 N=100 次独立训练运行，记录每次首次达到阈值的步数→得到 \(\hat{S}\) 的经验分布
- 设计动机：点估计不可靠，需要分布级别的比较
统计超越定义:
- 功能：用假设检验（Mann-Whitney U 检验）判断一个算法是否显著优于另一个
- 核心思路：如果算法 A 的样本复杂度分布显著低于算法 B（p < 0.05），则 A 超越 B
- 设计动机：避免仅看平均值导致的错误结论
BeamManagement6G 基准环境:
- 功能：基于 6G 无线通信的波束管理任务，可灵活调节复杂度
- 核心思路：状态/动作空间小但任务复杂度可调，适合量子算法（因量子比特数有限）
- 设计动机：Atari 等标准环境状态空间太大不适合当前量子硬件

算法配置	参数量	样本复杂度 \(\hat{S}\) (中位数)	统计检验
经典 DNN (小, 387参数)	387	高	基线
量子 VQC (437+101参数)	538	中	显著优于小经典
经典 DNN (大, 4611参数)	4611	低	与量子可比