Rethink the Role of Deep Learning towards Large-scale Quantum Systems¶

会议: ICML2025
arXiv: 2505.13852
代码: GitHub (部分数据集生成代码已开源)
领域: 物理 / 量子系统学习
关键词: 量子系统学习, 基态性质估计, 量子相分类, 深度学习 vs 机器学习, classical shadow, 大规模量子系统

一句话总结¶

在统一量子资源约束下系统性地对比 ML 与 DL 在量子系统学习 (QSL) 任务中的表现，发现传统 ML（Lasso/Ridge/核方法）往往匹配甚至超越 DL，挑战了"大规模量子系统必须用深度学习"的直觉。

研究背景与动机¶

核心问题: 量子系统基态性质（关联函数、纠缠熵）估计和量子相分类是量子物理的基础问题，经典精确模拟受维度诅咒限制
AI for Quantum: 近年涌现大量 ML/DL 方法用于量子系统学习 (QSL)，包括线性回归、核方法、MLP、CNN、自监督大模型 (LLM4QPE) 等
公平性缺失: 已有研究在对比 DL 与 ML 时，DL 常使用远多于 ML 的量子测量资源构造训练数据（如无限量测量生成标签），导致比较不公平
关键疑问: 在量子资源稀缺的现实约束下，我们真的需要深度学习来完成 QSL 任务吗？

方法详解¶

统一资源框架¶

论文的核心设计是 统一量子资源预算：所有模型的训练数据集 \(\mathcal{D}\) 满足总查询量约束 \(n \times M\) 相同，其中 \(n\) 为训练样本数，\(M\) 为每个样本的测量快照 (snapshot) 数。

对于自监督模型 (SSL)，需满足：

\[n_{\text{pre}} \times M_{\text{pre}} + n_{\text{sft}} \times M_{\text{sft}} = n \times M\]

探索的哈密顿量族¶

Heisenberg 模型 (HB): \(\mathsf{H}_{\text{HB}}(\mathbf{x}) = \sum_{i<j} J_{ij}(X_iX_j + Y_iY_j + Z_iZ_j)\)，其中 \(J_{ij} = 369 / |i-j|^a\)，\(a \in (1,2)\)
横场 Ising 模型 (TFIM): \(\mathsf{H}_{\text{TFIM}}(\mathbf{x}) = -\sum_{i=1}^{N-1} J_i Z_i Z_{i+1} - \sum_{i=1}^{N} h_i X_i\)
Rydberg 原子模型: \(\mathsf{H}_{\text{Ryd}}(\mathbf{x}) = \sum_{i<j} \frac{\Omega R_b^6}{a^6|i-j|^6} N_i N_j + \sum_{i=1}^{N} \frac{\Omega}{2}X_i - \Delta_i N_i\)

基态性质目标¶

关联函数 \(C_{ij}\): \(C_{ij} = \frac{\text{tr}(X_iX_j\rho) + \text{tr}(Y_iY_j\rho) + \text{tr}(Z_iZ_j\rho)}{3}\)
2阶 Rényi 纠缠熵: \(\mathcal{S}_2(\rho_A) = -\log[\text{tr}(\rho_A^2)]\)
量子相分类: 对 Rydberg 模型分 \(Z_2\)-有序相、\(Z_3\)-有序相和无序相三类

Benchmark 模型¶

类别	模型	特点
ML — 线性回归	Lasso, Ridge	随机傅里叶特征 + \(L_1/L_2\) 正则化
ML — 核方法	DK, RBFK, NTK	Dirichlet 核 / 径向基核 / 神经正切核
ML — 树模型	RF, GBT, LGBM, XGBoost	用于分类任务
DL — 监督学习	MLP, CNN (及 MLP-A, CNN-A)	带/不带测量辅助信息
DL — 自监督	SG, LLM4QPE-F, LLM4QPE-T	Shadow Generator; LLM4QPE (± 预训练)

随机化测试¶

为检验测量结果作为输入特征的作用，将真实测量值 \(\mathbf{v}\) 替换为从 \([0,5]\) 均匀采样的随机整数 \(\mathbf{v}'\)，观察模型性能变化。

实验关键数据¶

关联函数预测 (HB, RMSE \(\epsilon(\bar{C})\), \(M=64\))¶

模型	\(N=48, n=100\)	\(N=127, n=100\)
Classical Shadow	0.2114	0.2145
MLP-4层	0.0352	0.0861
CNN-4层	0.0346	0.0522
LLM4QPE-T	0.0320	0.0263
Lasso	0.0249	0.0208
Ridge	0.0248	0.0216

关键结论: Lasso/Ridge 在几乎所有设置下以显著优势超越 DL 模型。

Scaling 行为 (127-qubit HB, \(n=100, M=512\))¶

Lasso: \(\epsilon(\bar{C}) = 0.011\)
Ridge: \(\epsilon(\bar{C}) = 0.012\)
LLM4QPE-F (~18.1M 参数): \(\epsilon(\bar{C}) = 0.017\)

模型规模实验¶

带强正则化 (\(\lambda\) 大) 的 MLP 仅需 LLM4QPE-F 1/36 的参数即可匹配其性能
无正则化时模型越大反而过拟合更严重

量子相分类 (31-qubit Rydberg, 准确率 %)¶

模型	\(M=64, n=100\)	\(M=256, n=100\)
MLP	92.79	94.50
CNN	92.50	92.79
LLM4QPE-T	—	—

随机化测试结果¶

GSPE 任务: 用随机值替换真实测量结果后，LLM4QPE-T 性能基本不变 → 测量结果对属性估计冗余
QPC 任务: 替换后性能显著下降 → 测量结果对相分类重要

亮点与洞察¶

公平对比框架: 首次在统一量子资源预算 (\(n \times M\) 相同) 下系统对比 ML 与 DL，填补了领域内公平 benchmark 的空白
反直觉发现: 简单的 Lasso/Ridge 在 GSPE 任务上持续优于复杂 DL（MLP/CNN/LLM4QPE），挑战"深度学习万能"假设
测量冗余性: 随机化测试揭示测量结果作为输入在 GSPE 中冗余、在 QPC 中关键——这一对偶性为未来模型设计提供明确指导
规模不是万能: 更大的 DL 模型不一定更好，正则化策略远比盲目增加参数重要
大尺度验证: 实验扩展到 127 量子比特，覆盖三大主流哈密顿量族，结论稳健

局限与展望¶

任务覆盖有限: 仅考虑关联函数、纠缠熵和相分类三类任务，未涉及量子态层析、保真度估计等更广泛任务
哈密顿量范围: 三族哈密顿量虽经典但未覆盖化学分子、拓扑序等更复杂系统
真实量子硬件: 所有实验基于模拟数据；真实量子设备的噪声可能改变 ML/DL 的优劣关系
DL 架构探索不足: 未测试 Transformer、Graph Neural Network 等更现代架构在 QSL 中的潜力
理论分析缺乏: 未从理论角度解释为何线性模型在这些任务中足够——仅有经验观察

评分¶

新颖性: ⭐⭐⭐⭐ — 视角新颖，首次系统公平对比 ML vs DL 在 QSL 中的角色
实验充分度: ⭐⭐⭐⭐ — 多模型、多任务、多尺度（最大 127 qubit），含随机化测试
写作质量: ⭐⭐⭐⭐ — 结构清晰、问题驱动，但部分记号较密集
价值: ⭐⭐⭐⭐ — 对量子 ML 社区有重要警示：不要盲目追求 DL 复杂度