Controlling Repetition in Protein Language Models¶

会议: ICLR2026
arXiv: 2602.00782
代码: 待确认
领域: 蛋白质/AI4Science
关键词: 蛋白质语言模型, 重复控制, 对比引导, 表示工程, 序列生成

一句话总结¶

首次系统性研究蛋白质语言模型（PLM）中的病态重复问题，提出统一的重复度量指标 \(R(x)\) 和效用指标 \(U(x)\)，并设计 UCCS（Utility-Controlled Contrastive Steering）方法，通过在隐层注入与重复解耦的引导向量，在不重训模型的前提下有效抑制重复同时保持折叠可信度。

研究背景与动机¶

PLM（如 ESM-3、ProtGPT2）在蛋白质结构预测和从头设计中取得重大进展，但生成时频繁出现病态重复——序列坍缩为冗余 motif 或长同聚物
与自然语言中重复仅降低可读性不同，蛋白质中的重复直接破坏结构多样性，导致折叠不稳定和功能丧失（如 Huntington 病中的 polyQ 扩展）
现有解码策略（temperature、top-p、n-gram penalty）从 NLP 直接迁移，未针对蛋白质设计，且常以降低 AlphaFold pLDDT 为代价
重复与结构效用高度纠缠：朴素降低重复往往同时损害折叠可靠性，需要解耦二者的方法
PLM 缺乏显式机制来分离重复与其他生成因素，传统文本重复指标也无法捕获蛋白质特有的退化模式
病态重复作为 PLM 的关键失败模式此前完全被忽视，缺乏正式定义、评估指标和系统研究

方法详解¶

整体框架¶

分为三步：(1) 定义病态重复的两种规范形态——motif 级重复（如 AGAGAG 的短片段循环）和同聚物重复（如 AAAAAA 的单氨基酸延伸），建立统一度量 \(R(x)\) 和效用度量 \(U(x)\)；(2) 构建效用控制的对比数据集 \(\mathcal{D}^+\)（低重复）与 \(\mathcal{D}^-\)（高重复），使二者在 \(U(x)\) 上对齐但在 \(R(x)\) 上最大分离；(3) 从隐层激活中提取引导向量 \(v^L\)，推理时注入以抑制重复。将重复控制形式化为约束优化：\(\min_f R(f(M,p))\) s.t. \(U(f(M,p)) \ge U(M,p) - \epsilon\)。

关键设计 1：统一重复度量¶

提出三个互补指标：(a) 归一化 token 熵 \(H_{\text{norm}}\) 捕获全局氨基酸分布失衡；(b) Distinct-2/3 捕获局部 motif 循环；(c) 同聚物多样性分数 \(R_{\text{hpoly}} = 1 - \frac{1}{T}\sum_i \ell_i \cdot \mathbf{1}(\ell_i \ge 4)\) 捕获长同聚物坍塌。三者聚合为统一分数 \(R(x)\)，效用分数 \(U(x)\) 由 AlphaFold 的 pLDDT 和 pTM 均值构成。

关键设计 2：效用控制的对比数据集¶

从天然蛋白质（CATH/SCOP/UniRef50）和 PLM 生成序列中收集候选池，按长度分桶后过滤掉 \(U(x)\) 偏离参考均值的序列，然后求解 \(\arg\max_{\mathcal{D}^+,\mathcal{D}^-} \Delta R\) s.t. \(\Delta U \le \epsilon\)，确保对比集在重复维度最大分离而效用对齐。

关键设计 3：引导向量提取与注入¶

对 MLM 使用均值池化、对 AR-LM 使用末 token 嵌入获取序列级表示 \(\phi^L(x)\)，计算引导向量 \(v^L = \mathbb{E}_{\mathcal{D}^+}[\phi^L] - \mathbb{E}_{\mathcal{D}^-}[\phi^L]\)。推理时在选定层以 \(\tilde{h}_t^L = h_t^L + \alpha \cdot v^L\)（默认 \(\alpha=1\)）注入，即插即用，无需重训。

损失函数/训练策略¶

UCCS 为推理时干预方法，不修改模型参数，无需额外训练。仅需一次性构建对比数据集（每个长度桶各 100 条序列）并提取引导向量。超参数仅有注入强度 \(\alpha\)（默认 1）和层选择 \(L\)。对比集候选池约 10k 天然蛋白质 + 10k PLM 生成序列，经效用过滤和 Pareto 选择后得到精炼子集。

实验关键数据¶

主实验 — ProtGPT2 无条件生成（Table 2a）¶

方法	R↑ (CATH)	U↑ (CATH)	R↑ (SCOP)	U↑ (SCOP)
Original	0.728	0.621 ✓	0.728	0.621 ✓
Repetition Penalty	0.780	0.622 ✓	0.780	0.622 ✓
UCCS	0.845	0.711 ✓	0.835	0.722 ✓

消融/条件生成（Table 2b）¶

方法	R↑ (CATH)	U↑ (CATH)
Original	0.836	0.704 ✓
Temperature	0.847	0.700
UCCS	0.877	0.743 ✓

关键发现¶

ESM-3 上 UCCS 在 CATH 无条件生成中 \(R(x)\) 相对原始模型提升 +55%
ProtGPT2 上 UCCS \(R(x)\) 比 temperature sampling 高约 +20%，且是唯一在所有数据集和任务上同时满足效用约束的方法
条件生成中 UCCS 在 SCOP 上达到 R=0.890（最高值）且 U=0.737 满足约束
UCCS 生成的蛋白质展现高结构置信度（pLDDT > 90 的蓝色区域主导）和多样折叠
Neuron Deactivation 和 Probe Steering 方法在部分设置上降低 U 至约束以下，不如 UCCS 稳定
消融实验表明 \(\alpha\) 在较大范围内稳定，层选择对结果有影响但非极端敏感
Jensen-Shannon 散度热图确认所提指标能清晰分离 PLM 生成与天然蛋白质分布

亮点与洞察¶

首创性：这是首篇系统性识别、量化并解决 PLM 病态重复问题的工作，填补了该领域的关键空白
解耦设计精巧：通过效用控制的对比集构建，确保引导向量仅编码重复信号而非折叠能力的混杂因素
即插即用：不需要重训模型，仅在推理时注入向量，适用于 MLM 和 AR-LM 两种范式
生物学动机充分：同聚物多样性分数 \(R_{\text{hpoly}}\) 的阈值 \(k=4\) 有明确的生物学依据（≥4 的同聚物几乎总是低复杂度不稳定区域）

局限性/可改进方向¶

仅在 ESM-3 和 ProtGPT2 两个模型上验证，未覆盖更大规模的 PLM（如 ESM-2 15B 或 ProGen2）
\(U(x)\) 基于 AlphaFold 置信度而非真实实验验证，折叠可靠性的评估仍有gap
引导向量 \(v^L\) 的可解释性可进一步研究——目前尚不清楚它在表示空间中精确编码了什么特征
对比数据集构建依赖预计算的 \(R(x)\) 和 \(U(x)\)，在新领域蛋白质（如膜蛋白）上可能需要重新标定

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次识别并系统解决 PLM 病态重复，问题定义和方法均有开创性
实验充分度: ⭐⭐⭐⭐ 两种模型 × 三个数据集 × 两种生成设置，对比全面
写作质量: ⭐⭐⭐⭐ 问题动机清晰，指标设计有理有据，结构严谨
价值: ⭐⭐⭐⭐ 为 PLM 可靠蛋白质生成提供了实用工具，方法可推广至其他生成退化问题