Learning Repetition-Invariant Representations for Polymer Informatics¶

会议: NeurIPS 2025
arXiv: 2505.10726
代码: 有
领域: 图学习 / 材料科学
关键词: 聚合物信息学, 重复不变性, 图神经网络, Max聚合, 分子表示

一句话总结¶

提出 GRIN（Graph Repetition-Invariant Network），通过 Max 聚合和特殊的图构建策略使 GNN 对聚合物重复单元的拼接数量不变，解决了聚合物表示中的基本对称性问题。

领域现状：聚合物（polymer）是由重复单元（monomer）组成的长链分子，性质预测是材料科学的核心问题。

现有痛点：标准 GNN 对同一聚合物的不同重复单元表示（1 个重复 vs 3 个重复 vs N 个重复）给出不同预测，违反了聚合物的基本对称性——重复不变性。

核心矛盾：GNN 的聚合操作（Sum/Mean）对图大小敏感，无法自然处理"同一分子的不同大小表示"。

切入角度：Max 聚合天然对重复次数不变（取最大值不受重复数量影响），但需要特殊图构建来正确工作。

核心 idea：Max 聚合 + 环化连接（将链首尾相连成环）+ 足够的消息传递层数。

输入 SMILES → 构建聚合物图（重复单元 + 环化连接）→ Max-GNN 编码 → 全局 Max 池化 → 属性预测。

重复不变性的理论基础
- 功能：证明 Max 聚合是实现重复不变性的充要条件
- 核心思路：定理 1 证明只要满足两个条件——(1) 消息传递层数 \(\geq\) 图直径/2；(2) 使用 Max 聚合——GNN 对重复数量完全不变
- 设计动机：Sum/Mean 聚合随重复数量线性/常数变化，违反不变性
环化连接策略
- 功能：将线性聚合物链的首尾相连形成环形图
- 核心思路：聚合物首尾标记（*号）连接，使 1 个重复单元的图与 N 个重复单元的图拓扑等价
- 设计动机：无环化时，链端原子的邻域在不同重复数下不同，破坏不变性
GRIN 架构
- 功能：完整的重复不变 GNN 架构
- 核心思路：MPNN 骨架（GIN/GAT 等均可）+ Max 聚合替换 Sum/Mean + 环化图输入 + 全局 Max 池化
- 设计动机：模块化设计，任何 MPNN 变体都可以即插即用

标准回归/分类损失（MSE/BCE），无特殊训练策略。关键在于推理时对任意重复数给出一致预测。

方法	玻璃化温度 MAE↓	带隙 MAE↓	介电常数 MAE↓	重复不变?
GNN-Sum	15.3	0.45	0.12	✗
GNN-Mean	14.8	0.42	0.11	✗
Fingerprint	16.2	0.48	0.14	✓
GRIN	13.1	0.38	0.09	✓