跳转至

Enhancing Safe and Controllable Protein Generation via Knowledge Preference Optimization

会议: ACL 2025
arXiv: 2507.10923
代码: 无
领域: 文本生成
关键词: 蛋白质生成, 生物安全, 知识图谱, 偏好优化, 蛋白质语言模型

一句话总结

提出知识引导偏好优化(KPO)框架,通过蛋白质安全知识图谱识别安全/危险序列作为偏好信号,用强化学习训练蛋白质语言模型减少有害蛋白质序列的生成概率,同时保持功能性——为蛋白质生成的生物安全提供保障框架。

研究背景与动机

  1. 领域现状:蛋白质语言模型(如 ProtGPT2、ESM 系列)在序列生成上取得重大进展,可用于功能优化和从头设计。但这些模型也可能生成有害序列——如增强病毒传播性或逃避免疫反应的蛋白质。
  2. 现有痛点:(a) 蛋白质生成模型缺乏安全约束——不区分安全和危险的序列;(b) 生物安全议题在 AI 蛋白质设计领域被严重忽视;(c) 缺乏系统化的"蛋白质安全"知识资源。
  3. 核心矛盾:蛋白质生成的功能性优化和安全性约束是潜在冲突的——最优功能的序列可能恰好是危险的(如高亲和力的病毒棘蛋白变体)。
  4. 本文要解决什么? 在保持生成蛋白质功能性的同时,降低生成有害序列的风险。
  5. 切入角度:构建蛋白质安全知识图谱(PSKG),从中高效提取安全/危险序列作为偏好信号,用 DPO/RL 进行安全对齐。
  6. 核心idea一句话:知识图谱提供安全先验 + 偏好优化内化安全约束 = 安全的蛋白质生成。

方法详解

整体框架

KPO 包含三个组件:(1) 蛋白质安全知识图谱(PSKG)构建——整合蛋白质功能、致病性、免疫逃逸等安全相关知识;(2) 图剪枝偏好信号提取——从 PSKG 中高效识别安全(preferred)和危险(dispreferred)序列;(3) 知识引导偏好优化——用 RL/DPO 训练蛋白质语言模型避免生成危险序列。

关键设计

  1. 蛋白质安全知识图谱(PSKG):
  2. 做什么:整合与蛋白质安全相关的多源知识
  3. 核心内容:蛋白质-功能-致病性三元组、已知危险序列数据库、免疫原性信息、毒力因子等
  4. 设计动机:安全判断需要领域知识——不能仅靠序列特征

  5. 高效图剪枝策略:

  6. 做什么:从大规模 PSKG 中高效提取安全/危险序列对
  7. 核心思路:用图算法识别与致病相关节点高度连接的序列为"危险",与有益功能连接的为"安全"
  8. 设计动机:PSKG 很大,需要高效筛选而不是遍历

  9. 知识引导偏好优化:

  10. 做什么:将安全约束内化到蛋白质生成模型中
  11. 核心思路:用 PSKG 提取的信号构造偏好对(安全序列 > 危险序列),通过 DPO/RL 训练模型偏好生成安全序列

损失函数 / 训练策略

  • DPO 偏好损失,preferred = 安全序列,dispreferred = 危险序列
  • 同时保持序列功能性(功能预测分数作为约束)
  • 基于 ProtGPT2 等蛋白质语言模型

实验关键数据

主实验

方法 危险序列生成率(↓) 功能性保持(↑) 说明
无安全约束基线 功能好但不安全
简单过滤 过滤太严损害功能
KPO 安全且保持功能

关键发现

  • KPO 有效降低了危险蛋白质序列的生成概率——同时功能性损失很小
  • 知识图谱提供的安全先验比仅基于序列特征的过滤更精准
  • 图剪枝策略使偏好信号提取高效可行
  • 安全和功能之间的 trade-off 可以通过调节偏好权重来平衡

亮点与洞察

  • 蛋白质生成的安全对齐是重要且被忽视的方向——类似于 LLM 的安全对齐但在生物领域。
  • 知识图谱作为安全先验源比人工标注更全面且可扩展。
  • 将 NLP 领域的偏好优化技术(DPO)迁移到蛋白质设计,是有意义的跨领域应用。
  • 对双用途(dual-use)AI 技术的安全治理有参考价值。

局限性 / 可改进方向

  • PSKG 的覆盖面有限——新发现的致病机制可能不在图谱中
  • 安全/危险的二分类过于简单——实际的生物安全是连续光谱
  • 仅在蛋白质序列层面约束——蛋白质的危害性也取决于表达系统和使用环境

相关工作与启发

  • vs ProtGPT2/ESM: 这些模型关注功能but不关注安全;KPO 添加安全维度
  • vs LLM安全对齐(RLHF/Constitutional AI): 类似的"用偏好信号对齐模型"范式,但应用于蛋白质
  • 跨领域知识迁移:NLP偏好优化→蛋白质安全

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次将偏好优化用于蛋白质安全,跨领域创新
  • 实验充分度: ⭐⭐⭐⭐ 安全性+功能性双评估+消融
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰
  • 价值: ⭐⭐⭐⭐⭐ 对生物安全和负责任AI有重要意义