NIMO: a Nonlinear Interpretable MOdel¶

会议: ICLR 2026
arXiv: 2506.05059
代码: 无
领域: 可解释机器学习
关键词: interpretable model, marginal effects, linear regression, neural networks, feature effects

一句话总结¶

NIMO 提出一种混合模型 \(y = \sum_j x_j \beta_j (1 + g_{\mathbf{u}_j}(\mathbf{x}_{-j}))\)，在保留线性回归系数全局可解释性（通过均值边际效应 MEM）的同时，利用神经网络提供逐实例的非线性修正，并通过参数消去法高效联合优化线性系数和网络参数。

研究背景与动机¶

准确性 vs 可解释性困境：线性回归通过系数提供清晰的特征效应解释，但预测能力有限；神经网络预测强大但缺乏内在可解释性，被视为"黑箱"。
后验解释的不可靠性：SHAP、LIME 等后验解释方法依赖超参数选择，不保证保真度（fidelity）。
已有混合方法的局限：NAM 无法捕捉特征交互；LassoNet 全局解释性受限；IMN 为每个实例预测不同系数，丧失全局解释性。
特征效应的重要性：在医疗等高风险领域，需要同时回答局部问题（"对这个病人年龄增加如何影响风险"）和全局问题（"年龄总体上如何影响风险"）。
优化挑战：当线性系数 \(\boldsymbol{\beta}\) 和神经网络参数 \(\mathbf{u}\) 紧密耦合时，联合优化非 trivial。

方法详解¶

整体框架¶

NIMO 从线性回归出发，为每个特征的系数乘以一个数据依赖的非线性修正因子：

\[f(\mathbf{x}) = \beta_0 + \sum_{j=1}^d x_j \beta_j (1 + g_{\mathbf{u}_j}(\mathbf{x}_{-j}))\]

关键约束：\(g_{\mathbf{u}_j}(\mathbf{0}) = 0\)（标准化数据均值为零），确保 \(\text{MEM}_j = \beta_j\)。

关键设计¶

排除自身特征 (\(\mathbf{x}_{-j}\))
做什么：神经网络 \(g_{\mathbf{u}_j}\) 的输入不含第 \(j\) 个特征
核心思路：\(x_j\) 仅通过线性项 \(\beta_j\) 贡献预测，保证 \(\beta_j\) 的可解释性
设计动机：若 \(g_j\) 也依赖 \(x_j\)，则边际效应无法简洁用 \(\beta_j\) 表示
零点约束 \(g_{\mathbf{u}_j}(\mathbf{0}) = 0\)
做什么：前向传播中减去 \(g_{\mathbf{u}}(\mathbf{0})\) 强制约束
核心思路：标准化数据均值为零，约束保证均值处模型退化为纯线性
设计动机：\(\text{MEM}_j = \frac{\partial f}{\partial x_j}\big|_{\mathbf{x}=\mathbf{0}} = \beta_j\)
参数消去优化（Parameter Elimination）
做什么：推导 \(\hat{\boldsymbol{\beta}}(\mathbf{u}) = (B_\mathbf{u}^T B_\mathbf{u} + \lambda I)^{-1} B_\mathbf{u}^T \mathbf{y}\) 的闭式解，代入后仅优化 \(\mathbf{u}\)
核心思路：profile likelihood 方法，将 \(\boldsymbol{\beta}\) 消去
设计动机：避免 \(\boldsymbol{\beta}\) 和 \(\mathbf{u}\) 联合优化的困难
自适应岭回归实现稀疏性
做什么：用 adaptive ridge regression (Grandvalet, 1998) 替代 Lasso
核心思路：每步有闭式解，且在最优点等价于 Lasso
设计动机：Lasso 无闭式解，无法用参数消去；自适应岭在保持闭式的同时实现稀疏
共享网络 + 位置编码
做什么：一个共享 \(g_\mathbf{u}\) 加特征索引位置编码替代 \(d\) 个独立网络
设计动机：高维场景中 \(d\) 个独立网络不可行
Group \(\ell_2\) 正则化
做什么：对第一层权重矩阵的每列施加 group \(\ell_2\)
设计动机：鼓励特征级稀疏，提供额外的可解释性层次

损失函数 / 训练策略¶

回归：\(\|\mathbf{y} - B_\mathbf{u}\boldsymbol{\beta}\|^2 + \lambda \|\boldsymbol{\beta}\|_1\)
分类：通过 IRLS 替代，近似为加权最小二乘
支持 sub-\(\ell_1\) 伪范数减轻 Lasso 过度收缩
外层梯度下降优化 \(\mathbf{u}\)，内层闭式解更新 \(\boldsymbol{\beta}\)

实验关键数据¶

主实验¶

合成回归数据集上的 MSE：

方法	Setting 1 (5维)	Setting 2 (10维)	Setting 3 (50维)
Lasso	3.164	3.340	13.122
NN	1.109	1.482	13.718
NAM	3.427	5.126	16.543
IMN	0.137	1.188	6.308
LassoNet	0.078	2.612	1.738
NIMO	0.024	0.197	0.380

NIMO 在所有设置中大幅领先，50 维场景优势超过 4 倍。

消融实验¶

组件	影响
移除 \(g_j\)（纯线性）	系数准确但拟合差
允许 \(g_j\) 依赖 \(x_j\)	系数不可解释
移除零点约束	MEM 不再等于 \(\beta_j\)
移除 group \(\ell_2\)	无法识别非交互特征
移除稀疏	无法正确恢复零系数

Toy example 验证（3维）：

指标	NIMO	Lasso
\(\beta_1=3, \beta_2=-3\) 恢复	精确	精确
\(\beta_3=0\) 识别	正确为零	非零
非线性交互恢复	与真值吻合	N/A

关键发现¶

低数据量（200 样本）下仍鲁棒，得益于参数消去和正则化
纯线性验证中网络部分不干扰线性系数恢复
MEM 特征排序与 SHAP 排序高度一致，但 NIMO 是内在的而非后验近似
在 diabetes、Boston、superconductivity 数据集上预测性能与最佳方法相当或更优

亮点与洞察¶

设计优雅：三个精巧约束（排除自身特征、零点约束、标准化）保证 MEM = \(\beta\)
参数消去的巧妙：profile likelihood 思想应用于混合模型优化
多层次可解释性：全局层面看 \(\beta_j\)、实例层面看 \(h_j(\mathbf{x})\)、交互层面看第一层权重稀疏模式
与 GLM 自然扩展：通过 IRLS 可直接应用于逻辑回归等 GLM
自适应岭等价 Lasso：利用经典结果在保持闭式解的同时实现稀疏

局限性 / 可改进方向¶

极高维 (\(d > 1000\)) 的可扩展性未验证
假设非线性修正来自其他特征交互，忽略了特征自身非线性效应
实验数据集规模较小（UCI），大规模数据表现未知
与 EBM、GAMI-Net 等更多可解释方法对比不足
目前仅支持表格数据

评分¶

新颖性: ⭐⭐⭐⭐ 模型设计巧妙，MEM=\(\beta\) 的理论保证是核心创新
实验充分度: ⭐⭐⭐ 合成+真实实验验证充分，但数据规模小
写作质量: ⭐⭐⭐⭐⭐ 动机清晰、toy example 直观、理论与实验紧密结合
价值: ⭐⭐⭐⭐ 为"准确且可解释"提供实用方案，高风险领域有强应用潜力