跳转至

Dynamic Regret Reduces to Kernelized Static Regret

会议: NeurIPS 2025
arXiv: 2507.05478
代码: 无
领域: reinforcement_learning / 在线学习
关键词: dynamic regret, online convex optimization, RKHS, kernel methods, path-length

一句话总结

将动态遗憾最小化问题重新建模为再生核希尔伯特空间(RKHS)中的静态遗憾问题,通过精心设计平移不变核实现最优路径长度依赖 \(\widetilde{\mathcal{O}}(\sqrt{MP_TT})\),且天然不需要时间范围先验知识。

研究背景与动机

  1. 领域现状:在线凸优化(OCO)中,学习者每轮选择 \(w_t \in \mathcal{W}\),环境揭示凸损失 \(\ell_t\)。经典目标是最小化相对于固定基准的静态遗憾(static regret)。当环境非平稳时,需要最小化相对于时变基准 \(u_1,\dots,u_T\)动态遗憾(dynamic regret)。
  2. 现有痛点:现有动态遗憾算法面临三个问题:(a) 最优 \(\sqrt{P_T}\) 依赖需要时间范围 \(T\) 的先验知识,或借助 doubling trick 但实际效果差;(b) 已有的动态到静态的 reduction 仅对线性损失有效;(c) 无法利用损失函数的曲率获得更紧的 bound。
  3. 核心矛盾:将比较器序列叠成高维向量的方法(Jacobsen & Orabona 2024)受限于有限维特征空间和线性损失假设,无法自然地处理无限维设计和非线性损失。
  4. 本文要解决什么:(a) 不依赖 \(T\) 先验实现最优 \(\sqrt{P_T}\) 依赖;(b) 将 reduction 推广到任意凸损失;(c) 利用损失曲率获得 \(\mathcal{O}(\|u\|_{\mathcal{H}}^2 + d_{\text{eff}}(\lambda)\ln T)\) 的 bound。
  5. 切入角度:观察到与任意比较器序列竞争等价于与一个固定函数 \(u(\cdot)\) 竞争,只要 \(u(t) = u_t\)。将这个函数嵌入 RKHS 中,就把动态遗憾降维为函数空间中的静态遗憾。
  6. 核心idea一句话:动态遗憾 = RKHS 中的核化静态遗憾,通过设计合适的核函数控制 RKHS 范数与路径长度的关系。

方法详解

整体框架

输入为在线凸损失序列 \(\ell_1,\dots,\ell_T\),输出为学习者每轮决策 \(w_t\)。核心 pipeline:(1) 选择 RKHS \(\mathcal{H}\) 及其特征映射 \(\phi\);(2) 将原始损失 \(\ell_t\) 转化为算子空间 \(L(\mathcal{H}, \mathcal{W})\) 上的辅助损失 \(\tilde{\ell}_t(W) = \ell_t(W\phi(t))\);(3) 在算子空间上运行任意静态遗憾算法 \(\mathcal{A}\);(4) 每轮通过 \(w_t = W_t\phi(t)\) 得到决策。

关键设计

  1. 动态-静态等价定理 (Theorem 1):
  2. 做什么:证明动态遗憾与核化静态遗憾严格相等
  3. 核心思路:对任意满足 \(u_t = U\phi(t)\) 的算子 \(U\),有 \(R_T(u_1,\dots,u_T) = \sum_t (\tilde{\ell}_t(W_t) - \tilde{\ell}_t(U)) = \tilde{R}_T(U)\)。这是一个恒等式而非上界,对任意损失成立
  4. 设计动机:之前的 reduction 只对线性损失有效(因为需要将梯度分解为 \(g_t \otimes \phi(t)\)),本文的 reduction 直接操作损失函数本身,保留了曲率信息

  5. 核化 FTRL 与 Kernel Trick (Example 1):

  6. 做什么:展示如何在无限维空间中高效计算
  7. 核心思路:利用再生性质,FTRL 的决策可表示为 \(w_t = -\frac{(\Psi_t^*)'}{\|\theta_t\|_{\text{HS}}} \sum_{s=1}^{t-1} k(s,t)g_s\),只需核函数值 \(k(s,t)\) 而无需显式计算 \(\phi(t)\)
  8. 设计动机:虽然 RKHS 是无限维空间,但核技巧使得算法实际可计算

  9. 平移不变核的精心设计 (Proposition 2):

  10. 做什么:构造谱密度 \(Q(\omega)\) 使 RKHS 范数与路径长度成正比
  11. 核心思路:希望 \(Q(\omega) \approx 1/|\omega|\)(因为由 Parseval 恒等式可得 \(\|u\|_{\mathcal{H}}^2 \approx \sup_t|u(t)| \cdot \|\nabla u\|_{L^1}\)),但 \(1/|\omega|\) 不可积。通过添加微量正则化得到具体谱密度 \(Q(\omega)\)
  12. 关键性质:\(k(t,t) \leq 8\pi^2\) 对所有 \(t\) 成立(不依赖 \(T\)),且 \(\|f\|_{\mathcal{H}}^2 = \widetilde{\mathcal{O}}(\|\nabla f\|_{L^1}\|f - \nabla^2 f\|_{L^\infty})\)
  13. 设计动机:标准核(如高斯核、Matérn 核)的 RKHS 范数包含 \(\|u\|_{L^2}^2 = \Omega(T)\) 项导致次优 bound;样条核虽然 \(\|u\|_{\mathcal{H}}^2 = \|\nabla u\|_{L^2}^2\)\(k(t,t) = t\) 也是次优的

  14. 连续路径长度到离散路径长度的桥接 (Theorem 4):

  15. 做什么:证明存在 RKHS 函数 \(u\) 满足 \(u(t)=u_t\)\(\|\nabla u\|_{L^1} = \mathcal{O}(P_T)\)
  16. 核心思路:构造有限支撑的光滑插值函数,利用 RKHS 包含有界导数的有限支撑函数的条件
  17. 设计动机:连续路径长度和离散路径长度可能差很大(函数在插值点之间可能剧烈振荡),需要证明存在"好的"插值

损失函数 / 训练策略

对于线性损失:使用 parameter-free 算法,结合设计的核函数直接得到最优 bound \(\widetilde{\mathcal{O}}(\sqrt{(M^2+MP_T)\sum_t\|g_t\|^2})\)

对于曲线损失: - exp-concave 损失:reduction 保留 exp-concavity,可直接应用 Kernelized ONS (KONS),得到 \(R_T = \mathcal{O}(\lambda\|U\|_{\text{HS}}^2 + d_{\text{eff}}(\lambda)\ln T / \beta)\) - 强凸损失:利用特征协方差矩阵的加权范数获得类似对数 bound - 在线线性回归:恢复核化 Vovk-Azoury-Warmuth 预测器的标准 bound

实验关键数据

主要理论结果对比

损失类型 已有最优 bound 本文 bound 改进
线性 (bounded domain) \(\mathcal{O}(\sqrt{DP_TT})\) 需知 \(T\) \(\widetilde{\mathcal{O}}(\sqrt{(M^2+MP_T)T})\) 不需知 \(T\) 首个不需 \(T\) 先验的最优 bound
线性 (scale-free) 无已有结果 \(\widetilde{\mathcal{O}}(\sqrt{(M^2+MP_T)\sum_t\|g_t\|^2})\) 首个 scale-free 动态遗憾
exp-concave 无动态遗憾结果 \(\mathcal{O}(\lambda\|U\|_{\text{HS}}^2 + d_{\text{eff}}(\lambda)\ln T)\) 首次利用曲率获得对数 bound
强凸 无动态遗憾结果 类似对数 bound 同上

与先前 reduction 的对比

特性 Jacobsen & Orabona (2024) 本文
适用损失 仅线性损失 任意凸损失
特征维度 有限维 (\(\mathbb{R}^{dT}\)) 无限维 RKHS
需要 \(T\) 先验
Scale-free
利用损失曲率
方向自适应

关键发现

  • 选择 Dirac 核可以精确恢复 Jacobsen & Orabona 的 reduction,说明他们的方法是本框架的特例
  • 核函数 \(Q(\omega)\) 的设计是技术核心:标准核(高斯、Matérn)都给出次优 bound,需要非标准的"接近 \(1/|\omega|\) 但可积"的谱密度
  • 方向自适应保证 \(\widetilde{\mathcal{O}}(\sqrt{d_{\text{eff}}(\lambda)(\|u\|_{\mathcal{H}^d}^2 + \sum_t \langle g_t, u_t \rangle^2)})\) 在某些方向梯度小时可以更紧

亮点与洞察

  • 视角转换的优雅性:将比较器序列视为函数的采样值这一观察极其自然,但打开了整个 RKHS 工具箱的大门。类似"升维解题"的思路——在更高维空间中问题反而更简单
  • Horizon independence:这是第一个不需要 \(T\) 先验知识就能实现最优 \(\sqrt{P_T}\) 依赖的动态遗憾算法,避免了 doubling trick 的实际性能损失
  • 统一框架:一个框架同时处理线性、exp-concave、强凸损失,且每种情况都给出(接近)最优保证。这种统一性暗示了动态遗憾与核方法之间的深层联系
  • 核设计的具体 trick(\(Q(\omega)\) 的构造)可能启发信号处理和非参数统计中类似的权衡问题

局限性 / 可改进方向

  • 计算复杂度:朴素实现需要 \(\mathcal{O}(t)\) 时间和内存,虽然可用核近似方法加速但未给出实验
  • 纯理论贡献:论文没有任何实验验证,不清楚在实际非平稳在线学习场景中的表现
  • 对数因子:所有 bound 都隐藏了 polylogarithmic 因子,能否去除?
  • 核选择的自动化:当前核的选择依赖对问题结构的先验知识,能否自动选择最优核?

相关工作与启发

  • vs Zhang et al. (2023, 信号处理方法):他们将比较器序列叠为高维信号用字典分解,本文将其嵌入 RKHS。本文更通用(不限线性损失),但他们的方法计算上可能更高效
  • vs Jacobsen & Orabona (2024):作为本文框架的特例(Dirac 核),但仅处理线性损失和有限维特征
  • vs Online Newton Step:本文的 RKHS reduction 天然兼容 ONS,首次给出动态遗憾的对数 bound

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 视角转换极其优雅,将动态遗憾问题全新地重建为核方法问题
  • 实验充分度: ⭐⭐ 纯理论论文,缺乏实验验证
  • 写作质量: ⭐⭐⭐⭐ 数学严谨,结构清晰,直觉解释到位
  • 价值: ⭐⭐⭐⭐ 建立了动态遗憾与核方法的深层联系,统一了多种损失类型下的最优 bound