Learning from Interval Targets¶
会议: NeurIPS 2025 arXiv: 2510.20925 代码: bloomberg/interval_targets 领域: optimization 关键词: interval regression, weak supervision, generalization bound, Lipschitz constraint, minmax learning
一句话总结¶
研究仅有区间标签(上下界)的回归问题,建立了基于假设类平滑性的非渐进泛化界(不依赖小 ambiguity degree 假设),并提出 minmax 学习框架利用平滑约束限制最坏情况标签,在 18 个真实数据集上显著优于无约束方法。
研究背景与动机¶
- 问题场景:很多实际任务中精确标签昂贵或不可得——医疗测量费用高、传感器仅记录离散时刻、债券定价仅有买卖价差——但区间上下界往往容易获取。
- 现有方法局限:Cheng et al. (2023a) 分析了投影损失方法,但依赖两个强假设:(a) 可实现性(\(f^* \in \mathcal{F}\));(b) ambiguity degree \(< 1\)(无穷多区间的交集能恢复真实标签)。然而对回归问题,即使 \([y-\epsilon, y+\epsilon]\) 这样简单的区间 ambiguity degree 就等于 1。
- 核心矛盾:(a) 之前结论仅为渐进性的,缺乏有限样本保证;(b) 平滑假设类在区间学习中的作用未被充分利用。
- 切入角度:平滑(Lipschitz)假设类使得函数值在相近输入处不能差异太大,从而能"去噪"原始区间——将宽区间缩窄为更紧的有效区间(Fig. 2-3)。
方法详解¶
问题定义¶
训练数据 \(\{(x_i, l_i, u_i)\}_{i=1}^n\),其中 \(l_i \le f^*(x_i) \le u_i\)。目标:学 \(f \in \mathcal{F}\) 最小化 \(\text{err}(f) = \mathbb{E}[\ell(f(X), Y)]\)。
方法一:投影损失(Projection Loss)¶
定义投影损失:
由 Proposition 2.1,可简化为边界处的评估:
即:函数值在区间内时损失为 0,超出区间时惩罚到最近边界的距离。
区间缩窄的关键机制(Proposition 3.4 + Theorem 3.6)¶
核心 insight:对 \(m\)-Lipschitz 假设类 \(\mathcal{F}\)(\(|f(x) - f(x')| \le m\|x - x'\|\)),任何满足投影损失为 0 的函数 \(f\) 在点 \(x\) 处的值被限制在缩窄区间内:
其中 \(l_{\mathcal{D}\to x}^{(m)} = \sup_{x'} (l_{x'} - m\|x-x'\|)\),\(u_{\mathcal{D}\to x}^{(m)} = \inf_{x'} (u_{x'} + m\|x-x'\|)\)。
直觉:如果 \(f(x)\) 要很大,那么附近所有 \(x'\) 处 \(f(x')\) 也必须大(Lipschitz 约束),但这些 \(f(x')\) 又必须在各自区间内——矛盾。因此可用邻近点的区间信息收紧当前点的有效区间。
对一般的 \(f \in \widetilde{\mathcal{F}}_\eta\)(投影损失 \(\le \eta\)),Theorem 3.6 给出带缓冲的扩展界:
缓冲 \(r_\eta, s_\eta\) 由等式 \(\mathbb{E}_X[(r - lg_{X\to x}^{(m)})_+^p] = \eta\) 隐式定义,且 \(\eta \to 0\) 时 \(r,s \to 0\)。
主要泛化界¶
Theorem 4.1(可实现情形):对 Rademacher 复杂度 \(O(1/\sqrt{n})\) 的 \(m\)-Lipschitz 假设类,以高概率:
- (a) 依赖于假设类平滑度和区间质量——\(m\) 越小区间越窄,但 \(m\) 太小假设类表达力不够
- (b) 随样本量 \(n\) 衰减到 \(\tau\)(\(\tau\) 可任取足够小)
Theorem 4.2(不可知情形):额外引入最优假设误差 OPT 项,上界收敛到 \(\text{OPT} + \mathbb{E}[|u^{(m)} - l^{(m)}|] + 2\tau + 2\text{OPT}\cdot\Gamma(\tau)\)。
方法二:Minmax 学习¶
基础 Minmax:对最坏情况标签优化
由 Proposition 5.1,对 \(\ell_1\) 损失等价于用区间中点做回归:\(f' = \arg\min_f \sum_i |f(x_i) - (l_i+u_i)/2|\)
约束 Minmax(利用平滑性,Proposition 5.3):限制最坏标签来自假设类
Proposition 5.4:存在场景使约束 Minmax 误差为 0 而无约束 Minmax 误差任意大——平滑约束至关重要。
两种实用近似: 1. Minmax (reg):对 \(f'\) 加投影损失正则项,用 GDA 交替优化 2. PL (Mean/Max):先训练 \(k\) 个 \(f_j \in \widetilde{\mathcal{F}}_\eta\) 作伪标签,再对 \(f\) 做 \(\min_f \max/\text{mean}_{j} \sum_i \ell(f(x_i), f_j(x_i))\)
实验关键数据¶
Lipschitz MLP vs 标准 MLP(18 个表格回归数据集,投影损失)¶
| 数据集 | LipMLP MAE | MLP MAE |
|---|---|---|
| Ailerons | 3.278±0.034 | 4.323±0.098 |
| CPU Activity | 10.271±0.026 | 10.560±0.087 |
| Mercedes | 8.791±0.187 | 11.207±0.218 |
| Miami House | 1.013±0.028 | 1.671±0.055 |
| Sulfur | 10.681±0.082 | 14.421±0.279 |
| Superconduct | 0.540±0.021 | 1.459±0.099 |
| Topo 21 | 1.305±0.013 | 2.192±0.177 |
| YProp 4 | 2.360±0.050 | 3.828±0.435 |
| Allstate Claims | 86.547 | 86.542 |
| GPU | 29.817 | 25.123 |
18 个数据集中 LipMLP 在 14 个上显著优于标准 MLP,验证了平滑性在区间学习中的关键作用。
Lipschitz 常数的影响(Fig. 7)¶
- Lipschitz 常数过小:假设类过于受限,OPT 项增大,误差上升
- Lipschitz 常数过大:退化为标准 MLP,失去区间缩窄优势,误差上升
- 最优 Lipschitz 常数在两者之间,与从训练集近似的 \(m\) 值接近
- PL (Mean) 方法的误差作为水平线对比,LipMLP 在最优 \(m\) 处通常更优
不同学习方法对比¶
| 方法 | 均匀区间最佳 | 中心对称区间最佳 | 通用推荐 |
|---|---|---|---|
| Projection | ✓ | — | 当区间质量好时 |
| Midpoint | — | ✓ | 当标签在区间中心附近 |
| Minmax (naive) | — | ✓ | = Midpoint |
| PL (Mean) | ✓ | ✓ | 综合最佳 |
| PL (Max) | ✓ | — | 保守估计 |
亮点¶
- 去除 ambiguity degree 假设——之前是区间学习理论的核心限制,本文用 Lipschitz 平滑性替代
- 区间缩窄机制(Theorem 3.6)直觉清晰且实用,将平滑性转化为更小有效区间
- 约束 Minmax(Proposition 5.4)可任意优于无约束版本——理论保证强
- 非渐进泛化界可直接指导有限样本实践
- Lipschitz MLP 的谱归一化实现简单,作为超参调节的"免费午餐"
局限性 / 可改进方向¶
- 假设区间一定包含真实标签——"嘈杂区间"(标签可能在区间外)未处理
- Theorem 4.1 中 \(\Gamma(\tau)\) 依赖分布,某些分布下可能退化很大
- Minmax (reg) 需 GDA 交替优化,训练不如投影损失稳定
- 仅考虑 i.i.d. 设定,时序场景(如传感器数据)需新理论
- 实验主要是中等规模表格数据,缺少图像/NLP 等高维验证
与相关工作的对比¶
- vs. Cheng et al. (2023a):后者需 ambiguity degree \(<1\) + 可实现性 + 仅渐进结论;本文无需这些假设,\(O(1/\sqrt{n})\) 非渐进界
- vs. 部分标签学习(Lv et al. 2020):后者针对分类(有限标签集),投影损失是其在回归上的自然推广
- vs. 半监督学习:区间学习是弱监督的一种,理论框架不同
- vs. 区间回归(传统统计):传统方法多用似然/EM,本文从学习论角度给出泛化保证
启发与关联¶
- 平滑性 ↔ 区间缩窄 的关系启发在其他弱监督场景(如标签噪声、锚框回归)中利用先验结构性
- Lipschitz 常数作为超参的调节策略 can be applied to other constrained learning problems
- 约束 Minmax 框架可推广到其他不确定性集合(如置信区间、分布鲁棒优化)
评分¶
- ⭐ 新颖性: 4/5 — 平滑性驱动区间缩窄的理论洞察新颖,约束 Minmax 框架有实际意义
- ⭐ 实验充分度: 4/5 — 18 数据集 + 多方法对比 + Lipschitz 常数消融,较全面
- ⭐ 写作质量: 4/5 — 理论推导层次清晰,直觉图示有效
- ⭐ 综合价值: 4/5 — 填补了区间回归理论空白,方法实用