Harpoon: Generalised Manifold Guidance for Conditional Tabular Diffusion¶

会议: ICLR 2026
arXiv: 2602.07875
代码: GitHub
领域: 扩散模型/表格数据
关键词: 表格数据, 流形引导, 条件生成, 推理时引导, 不等式约束

一句话总结¶

将流形理论从图像扩展到表格数据扩散模型，证明任意可微推理时损失的梯度都位于数据流形切线空间中（不限于平方误差损失），据此提出Harpoon方法在推理时沿流形引导无条件样本满足多样化表格约束。

领域现状：表格扩散模型可以生成高质量表格数据，但条件生成（缺失值填补、不等式约束等）是核心需求。现有条件方法分为训练时（难以泛化到新约束）和推理时（仅限填补任务）两类。

现有痛点：(1) 训练时方法（条件输入/分类器引导/无分类器引导）无法泛化到训练时未见的约束；(2) 推理时方法仅支持填补不支持不等式约束；(3) 图像扩散的流形理论假设连续特征+平坦几何，不适用于混合类型表格数据。

核心矛盾：需要一次训练、推理时适应任意约束的方法，但现有流形引导理论只对平方误差损失+平坦流形有保证。

切入角度：证明两个更强的理论结果：(1) Theorem 3.1: 去噪映射 \(Q_t\) 在 \(\bar{\alpha}_t \to 1\) 时收敛到流形正交投影（不需平坦假设）；(2) Theorem 3.2: 任意可微损失的梯度都在切线空间中（不限于平方误差）。

核心 idea：证明推理时任意可微目标的梯度与流形对齐，据此交替做无条件去噪和切向校正来满足多样化约束。

一次训练无条件扩散模型→推理时交替执行：(1) 无条件去噪一步；(2) 用推理时损失 \(\mathcal{L}_{\text{inf}}\) 的梯度做切向校正。支持填补、不等式约束等多种条件。

Theorem 3.1 (正交投影):
- 内容：MSE训练的去噪器在 \(\bar{\alpha}_t \to 1\) 时等价于到流形 \(\mathcal{M}_0\) 的正交投影
- 贡献：推广了Chung等人的结果——不需要平坦流形假设，弯曲流形也成立
- 实际意义："dirty estimate" \(\hat{x}_0 = Q_t(x_t)\) 落在流形上
Theorem 3.2 (切线空间梯度):
- 内容：对任意可微推理时损失 \(\mathcal{L}_{\text{inf}}\)，其梯度 \(\nabla_{x_t}\mathcal{L}_{\text{inf}}(\hat{x}_0, c) \in T_{\hat{x}_0}\mathcal{M}_0\)
- 贡献：从"仅平方误差"推广到任意可微损失（交叉熵、L1、ReLU不等式等）
- 实际意义：推理时用任何合理损失做梯度校正都不会把样本推离流形
Harpoon算法:
- 功能：每步先无条件去噪再切向校正
- 核心思路：\(x_{t-1} = x_{t-1}' - \eta \cdot \nabla_{x_t}\mathcal{L}_{\text{inf}}(\hat{x}_0, c)\)
- 支持的约束：填补（部分观测）、范围约束（Age>=10）、分类约束（Gender=Male）、合取/析取

方法	Adult	Bean	California	Magic	平均
GAIN	1.86	1.41	15.06	1.27	高
DiffPuter (SOTA)	中	中	中	中	中
Harpoon	低	低	低	低	SOTA

约束类型	违反率↓	α-score↑	效用↑
范围约束	最低	高	高
分类约束	最低	高	高
合取(and)	最低	高	高
析取(or)	最低	高	高