CORDS: Continuous Representations of Discrete Structures¶

会议: ICLR 2026
arXiv: 2601.21583
代码: 待确认
领域: 目标检测 / 分子生成
关键词: 集合预测, 连续场表示, 可逆映射, 变基数推理, 密度场

一句话总结¶

提出 CORDS 框架，通过将变大小离散集合（检测框、分子原子）双射映射为连续的密度场和特征场，使模型可在场空间中学习并精确解码回离散集合，避免了固定 slot 或 padding 的限制。

研究背景与动机¶

领域现状：许多任务需要预测未知大小的对象集合——目标检测框数未知、分子生成原子数未知、天体物理源检测事件数未知。
现有痛点：(a) DETR 需预分配固定 slot，超出则无法检测；(b) padding 浪费容量引入假信号；(c) 连续方法（VoxMol、CenterNet）基数只能间接推断，特征通过辅助分类器恢复。
核心矛盾：如何在不预先指定集合大小的情况下，统一建模对象的数量、位置和属性？
本文要解决什么：建立离散集合与连续场间的双射映射，数量从密度场积分得到，位置从密度峰值恢复，属性从特征场投影得到。
切入角度：核函数叠加具有天然可逆性——每个核贡献固定积分 \(\alpha\)，总积分即为基数 \(N\)；核中心即位置；特征场与密度场对齐可精确恢复属性。
核心 idea 一句话：用高斯核将离散对象编码为密度场+特征场，建立双射映射，模型在连续场空间中学习，同时保证精确解码回离散集合。

方法详解¶

整体框架¶

输入是变大小集合 \(S = \{(\mathbf{r}_i, \mathbf{x}_i)\}_{i=1}^N\)（位置+特征），CORDS 编码为密度场 \(\rho(\mathbf{r})\) 和特征场 \(\mathbf{h}(\mathbf{r})\)。模型在场空间中操作，输出预测场后三步解码：积分得数量→核中心拟合得位置→Gram 矩阵投影得特征。

关键设计¶

编码：离散集合→连续场:
做什么：将 \(N\) 个对象映射为密度场和特征场
核心思路：\(\rho(\mathbf{r}) = \frac{1}{\alpha} \sum_{i=1}^N K(\mathbf{r}; \mathbf{r}_i)\)，\(\mathbf{h}(\mathbf{r}) = \frac{1}{\alpha} \sum_{i=1}^N \mathbf{x}_i K(\mathbf{r}; \mathbf{r}_i)\)，使用高斯核且 \(\alpha = \int K \,d\mathbf{r}\)
设计动机：每个核贡献固定积分量 \(\alpha\)，使基数可从密度场总质量直接读出；特征场与密度场共享支撑，保证位置-属性对齐
解码：连续场→离散集合:
做什么：从预测的场精确恢复对象集合
核心思路：(1) 基数 \(N = \int \rho \,d\mathbf{r}\)；(2) 位置：\(\min_{\mathbf{r}_1,...,\mathbf{r}_N} \int (\rho - \frac{1}{\alpha}\sum_i K(\mathbf{r};\mathbf{r}_i))^2 d\mathbf{r}\)；(3) 特征：\(\mathbf{X} = \alpha G^{-1} B\)，\(G\) 为 Gram 矩阵
设计动机：三步解码每步有理论保证。核间距足够大时 \(G\) 正定，系统有唯一解，整个编解码构成双射
采样策略:
做什么：将连续场离散化供神经网络处理
核心思路：3D 分子用重要性采样（按密度采样集中在信号处）；图像/时序用均匀网格采样
设计动机：3D 空间均匀网格效率低，重要性采样避免边界框约束

损失函数 / 训练策略¶

目标检测：\(\mathcal{L} = \mathcal{L}_{\text{MSE}} + \lambda(\hat{N} - N)^2\)，MSE 约束场重建，计数项约束密度积分
分子生成：扩散模型在场空间生成，解码仅在评估时使用
天体物理 SBI：flow matching 学条件后验

实验关键数据¶

主实验 — 目标检测（MultiMNIST，In-dist vs OOD）¶

模型	AP (In)	AP (OOD)	Drop%	AP50 (In)	AP50 (OOD)	Drop%
DETR	81.2	65.4	19.5%	84.0	71.7	14.6%
YOLO	71.9	54.3	24.5%	78.8	64.2	18.5%
CORDS	76.8	64.2	16.4%	81.5	71.8	11.9%

分子生成（QM9，OpenBabel 评估）¶

模型	Atom%	Mol%	Valid%	Unique%
VoxMol	99.2	89.3	98.7	92.1
FuncMol	99.0	89.2	100.0	92.8
CORDS	99.2	93.8	98.7	97.1

关键发现¶

OOD 基数泛化是 CORDS 最大优势：DETR AP 降 19.5%，CORDS 仅降 16.4%
条件分子生成中可在训练未见的属性范围上泛化
天体物理 SBI 中基数后验 \(p(N|\ell)\) 自然从场分布中涌现

亮点与洞察¶

双射映射的理论优雅性：编码-解码精确双射，不依赖辅助分类器或峰值检测。比 CenterNet 等热力图方法更统一
领域无关性：同一编码适用于 2D 图像、3D 分子、1D 时序
基数作为连续可微量：\(N = \int \rho \,d\mathbf{r}\) 使基数可用梯度优化

局限性 / 可改进方向¶

仅在 MultiMNIST 上验证检测，未在 COCO 等真实数据集测试
密度场中相近对象核重叠影响分离精度
分子任务需密集采样（~10³ 点/分子），大规模计算开销大
解码中核中心拟合需 L-BFGS，引入额外延迟

评分¶

新颖性: ⭐⭐⭐⭐⭐ 离散集合→连续场的双射映射是全新统一框架
实验充分度: ⭐⭐⭐⭐ 覆盖检测+分子+天文SBI，但检测实验仅在合成数据上
写作质量: ⭐⭐⭐⭐⭐ 理论推导严谨，双射性质有完整证明
价值: ⭐⭐⭐⭐ 统一框架概念优雅，需在真实基准上验证