Variational Garrote for Sparse Inverse Problems¶

会议: CVPR 2025
arXiv: 2603.12562
代码: 无
领域: 图像复原 / 稀疏重建
关键词: 稀疏正则化, Variational Garrote, LASSO, 逆问题, CT重建, 信号去噪

一句话总结¶

系统比较 \(\ell_1\) 正则化 (LASSO) 与 Variational Garrote (VG, 概率 \(\ell_0\) 近似) 在信号重采样、去噪和稀疏视角 CT 重建三种逆问题上的表现，发现 VG 在强欠定情况下（采样率低/角度稀疏）通常获得更低的泛化误差，因为 spike-and-slab 先验与真实稀疏分布更匹配。

研究背景与动机¶

领域现状：稀疏正则化是解决欠定逆问题的核心工具。LASSO (\(\ell_1\)) 因凸性和理论保证被广泛使用，对应 Laplace 先验。理想的 \(\ell_0\) 稀疏对应 spike-and-slab 先验但 NP-hard。
现有痛点：LASSO 施加连续收缩，会偏置大系数并产生近似稀疏而非真正稀疏的解；在强稀疏信号和严重欠定条件下，support recovery 不准确。
核心矛盾：正则化器隐式对应不同的先验分布，重建性能取决于先验与数据稀疏结构的匹配程度——但这种"先验-数据对齐"的影响在实际逆问题中缺乏系统实证研究。
本文要解决什么：统一框架下比较 \(\ell_1\) (LASSO) 和概率 \(\ell_0\) (VG) 在不同信息瓶颈下的重建行为。
切入角度：通过 train-generalization error curve（扫描正则化强度，比较各方法在最优正则化强度下的最小泛化误差）实现模型无关的公平比较。
核心idea一句话：当底层系数分布是强稀疏时，spike-and-slab 型先验 (VG) 比 Laplace 型先验 (LASSO) 在 support recovery 上更准确，从而在强欠定域获得更低重建误差。

方法详解¶

整体框架¶

三种逆问题统一为稀疏线性回归：\(\mathbf{y} = \mathbf{A}\mathbf{x} + \epsilon\)，其中 \(\mathbf{A}\) 分别为子采样算子（重采样）、单位阵（去噪）、离散 Radon 变换（CT）。在变换域（DCT 或像素域）对系数 \(\mathbf{w}\) 做稀疏回归：\(\hat{\mathbf{w}} = \arg\min_{\mathbf{w}} \frac{1}{2}\|\mathbf{y} - \mathbf{\Theta w}\|_2^2 + \lambda \mathcal{R}(\mathbf{w})\)。

关键设计¶

Variational Garrote (VG)：
做什么：通过隐二值门控变量 \(s_i \in \{0,1\}\) 近似 \(\ell_0\) 稀疏
核心思路：回归模型为 \(y_\mu = \sum_i w_i s_i X_{i\mu} + \xi_\mu\)，对 \(s_i\) 施加 Bernoulli 先验 \(p(s_i|\gamma) = e^{\gamma s_i}/(1+e^\gamma)\)。由于精确推断不可行，用均场变分近似 \(q(\mathbf{s}) = \prod_i q_i(s_i)\)，引入激活概率 \(m_i = q(s_i=1)\)
变分自由能包含：重建能量 \(E_{\text{rec}}\)（含 \(m_i(1-m_i)w_i^2\) 的方差项）、先验项 \(\Omega = -\gamma \sum_i m_i\)、熵项 \(H\)
设计动机：解耦 support 选择（\(m_i\)）和系数幅度（\(w_i\)），减少 LASSO 的收缩偏差
公平比较协议：
做什么：通过 train-generalization error curve 进行模型无关比较
核心思路：对每个信息瓶颈设置，宽范围扫描正则化超参（LASSO \(\lambda\); VG \(\gamma\)），绘制训练误差 vs 泛化误差曲线，取最小泛化误差 (MGE) 作为方法的最优性能
设计动机：LASSO 的 \(\lambda\) 和 VG 的 \(\gamma\) 不可直接比较，但 bias-variance tradeoff 曲线是通用的
三种任务涵盖不同信息瓶颈：
信号重采样：采样率 \(R = M/N\) 从 5% 到 50%，DCT 域稀疏
信号去噪：噪声幅度 \(\alpha\) 从 \(10^{-2}\) 到 \(10^0\)，DCT 域稀疏
稀疏视角 CT：投影角度 \(K\) 从 10 到 120，像素域稀疏

训练策略¶

所有任务使用 AdamW 优化器，初始学习率 0.3，ReduceLROnPlateau 到 \(10^{-5}\) 终止，最多 50000 迭代。参数用小高斯噪声初始化。信号实验用 100 个独立 mask/噪声实现做 batch 稳定优化。

实验关键数据¶

主实验：信号重采样¶

采样率 R	LASSO MGE	VG MGE	优势
R=0.05	~0.5	~0.35	VG 显著更优
R=0.10	~0.15	~0.05	VG 显著更优
R=0.20	~0.03	~0.01	VG 更优
R=0.50	~0.001	~0.001	接近

VG 在低采样率（\(R < 0.2\)）下优势最大，这正是 support recovery 最关键的区间。

稀疏视角 CT 重建¶

数据集	K=40 角 FBP MSE	LASSO MSE	VG MSE
Shepp-Logan	高	中	最低
LIDC (肺CT)	高	中	最低
BraTS (脑MRI)	高	中	最低
Walnut	高	中	最低

MSE 排序一致：FBP > LASSO > VG，且 VG 方差更小。

消融 / 关键发现¶

观察	说明
VG 的训练误差突变	门控变量导致频率分量整体激活/灭活，呈相变行为
去噪时无突变	噪声模糊了有效谱支撑，小超参变化不再触发离散激活
均匀区域 vs 边界	VG 减少均匀区误差但边界锐度略弱——可与 TV 互补

关键发现¶

VG 在所有任务的强欠定区域一致优于 LASSO，优势集中在低采样/低角度/低信噪比区间
VG 的优势来源于 spike-and-slab 先验与真实稀疏分布的更好对齐
LASSO 误差曲线光滑（连续收缩），VG 有跳跃（离散 support 切换）
在 CT 任务中 VG 改善了均匀区域重建但边界锐度略逊——暗示与 TV 正则化互补的潜力

亮点与洞察¶

统一框架下的先验比较：将信号重采样、去噪、CT 重建统一为稀疏回归，isolate 先验选择的影响。这种"先验-数据对齐"的视角对正则化方法选择具有指导意义
VG 的相变行为：训练误差的突变揭示了 \(\ell_0\) 型方法的本质——support 是离散决策，与 LASSO 的连续收缩形成鲜明对比
可迁移思路：VG 的 spike-and-slab 先验可应用于深度网络的最后一层权重，引入结构化稀疏假设

局限性 / 可改进方向¶

VG 是非凸优化，无全局收敛保证，结果可能依赖初始化
计算复杂度高于 LASSO（额外的门控变量集合）
CT 实验在像素域做稀疏回归——自然图像在像素域不严格稀疏，结果更适用于有大面积背景的医学图像
未与深度学习方法（U-Net、扩散模型重建）比较
未探索 VG + TV 的组合正则化——论文自己也指出这是自然延伸

评分¶

新颖性: ⭐⭐⭐ VG 本身不是新的，但在逆问题中的系统比较是新的
实验充分度: ⭐⭐⭐⭐ 三种任务、多个数据集、统计重复、公平比较协议
写作质量: ⭐⭐⭐⭐ 理论推导清晰，统一框架叙述流畅
价值: ⭐⭐⭐ 偏理论分析，实用影响有限但洞察有价值