ADIOS: Antibody Development via Opponent Shaping¶

会议: ICML 2025
arXiv: 2409.10588
代码: github.com/olakalisz/adios
领域: 计算生物学 / 抗体设计
关键词: 对手塑形 (Opponent Shaping), 抗体设计, 病毒逃逸, 元学习, 博弈论

一句话总结¶

将多智能体强化学习中的对手塑形（Opponent Shaping）引入抗体设计，提出 ADIOS 元学习框架：外层循环优化抗体，内层循环模拟病毒适应性逃逸，使设计出的"塑形抗体"（shapers）不仅能对抗当前病毒变种，还能主动引导病毒向更弱、更易被靶向的方向进化。

研究背景与动机¶

传统抗病毒疗法（包括疫苗和单克隆抗体）的设计只针对当前病毒株——这是一种短视（myopic）策略。虽然初始疗效可能很高，但治疗本身施加的选择压力会驱动新突变株出现，导致疗法失效。COVID-19 大流行就是典型案例：B.1.351 变异株显著降低了疫苗保护效力。

核心洞察：我们的疗法不可避免地影响病毒进化，与其被动应对，不如主动利用这一影响力。具体来说： - 短视抗体：初始结合力强，但病毒很快进化出逃逸突变（variant B），疗法失效 - 塑形抗体（shapers）：考虑长期博弈，在保持结合力的同时，将病毒进化引导向更弱的变种（variant C）

现有抗体设计方法（能量优化、序列语言模型、扩散模型等）都未考虑疗法对病毒进化的反馈效应。EVEscape 等方法虽然能预测病毒逃逸，但不能影响逃逸方向。ADIOS 填补了这一空白。

方法详解¶

整体框架¶

ADIOS 将抗体与病毒的交互建模为双人零和博弈，并采用嵌套的元学习架构：

外层循环（Antibody Optimisation Loop）：用遗传算法优化抗体序列，目标是最大化长期（考虑病毒逃逸后的）抗体适应度
内层循环（Simulated Viral Escape via Evolution）：给定当前抗体，模拟病毒通过突变逐步逃逸的过程

三大核心组件： 1. 病毒-抗体博弈：定义双方的动作空间和收益函数 2. 模拟病毒逃逸：基于进化模拟病毒如何适应给定抗体 3. 抗体优化：利用蒙特卡洛采样 + 遗传算法优化抗体

关键设计¶

1. 病毒-抗体博弈（Virus-Antibody Game）¶

双方的动作为氨基酸序列：病毒序列 \(v \in \mathbb{A}^{N_v}\)，抗体序列 \(a \in \mathbb{A}^{N_a}\)（\(\mathbb{A}\) 为 20 种氨基酸集合）。

抗体收益函数设计精妙，包含三项：

\[R_a(v, a) = B(v, a) - B(t_a^-, a) - B(v, t_v^+)\]

\(B(v, a)\)：抗体与病毒的结合强度（越高越好）
\(B(t_a^-, a)\)：抗体与人体蛋白（anti-target）的结合（惩罚项，防止抗体"太粘"攻击自身）
\(B(v, t_v^+)\)：病毒与宿主细胞受体的结合（鼓励抗体间接阻断病毒感染能力）

病毒收益为 \(R_v = -R_a\)（零和博弈）。这一设计保证： - 病毒不能通过变得完全惰性来逃避（否则丧失感染能力） - 抗体不能通过万能粘合来取胜（否则会攻击人体蛋白）

2. 模拟病毒逃逸（Inner Loop）¶

给定初始病毒 \(\hat{v}\) 和固定抗体 \(a\)，模拟 \(H\) 步进化逃逸：

Algorithm 1 — 内层循环： 1. 初始化 \(\hat{v}_0 = \hat{v}\) 2. 对每一代 \(i = 0, ..., H-1\)： - 生成种群：复制 \(\hat{v}_i\) 共 \(P=15\) 份，每份随机施加约 1 个氨基酸突变 - 计算每个突变体的适应度 \(R_v(v_k^i, a)\) - 按 Boltzmann 分布采样下一代：\(\mathbb{P}(\hat{v}_{i+1} = v_k^i) \propto \exp(\beta \cdot R_v(v_k^i, a))\) 3. 输出逃逸轨迹 \(\hat{\mathbf{v}} = [\hat{v}_0, \hat{v}_1, ..., \hat{v}_H]\)

温度参数 \(\beta\) 控制选择随机性：\(\beta \to \infty\) 为确定性最优适应度选择。

3. 抗体优化（Outer Loop）¶

定义抗体的真实目标函数——逃逸平均适应度：

\[F_{\hat{v}}^H(a) = \mathbb{E}_{\hat{\mathbf{v}} \sim \text{Ev}(\hat{v}, a)} \left[ \frac{1}{H+1} \sum_{i=0}^{H} R_a(\hat{v}_i, a) \right]\]

当 \(H=0\) 时，退化为短视目标 \(F_{\hat{v}}^0(a) = R_a(\hat{v}, a)\)。

Algorithm 2 — 外层循环： 1. 从随机抗体 \(\hat{a}_0\) 出发 2. 对每一步 \(i = 0, ..., N-1\)（\(N=30\)）： - 生成种群：\(P_a = 40\) 个抗体（原始 + 39 个单点突变体） - 对每个候选抗体，用 \(\eta = 5\) 条蒙特卡洛逃逸轨迹估计 \(F_{\hat{v}}^H(a_k^i)\) - 贪心选择：\(\hat{a}_{i+1} = \arg\max_k \mathbb{E}[F_{\hat{v}}^H(a_k^i)]\) 3. 输出最优抗体 \(\hat{a}_N\)

4. GPU 加速绑定模拟器¶

原始 Absolut! 框架用 C++ 运行在 CPU 上，无法支撑大规模博弈模拟。作者的关键工程贡献： - 用 JAX 重新实现核心绑定计算，支持 GPU 加速 - 利用 Miyazawa-Jernigan 能量矩阵计算结合能 - Pose 剪枝：登革病毒有约 150 万个可能 pose，但仅 1027 个曾作为最低能量 pose；保留 ≥18 对残基的 pose（约 37000 个），精度几乎不损失 - 提供高分辨率和低分辨率两种模拟器：训练用低分辨率，验证用高分辨率

损失函数 / 训练策略¶

目标函数：最大化逃逸平均适应度 \(F_{\hat{v}}^H(a)\)，horizon \(H\) 越大越接近真实长期目标
优化方式：遗传算法（单点突变 + 贪心选择），非梯度方法
计算预算权衡：每步内层循环需要 \(O(H \cdot P)\) 次绑定查询，longer horizon 更准确但更昂贵
验证策略：训练用低分辨率模拟器，报告结果用高分辨率模拟器（模拟从仿真到现实的迁移）

实验关键数据¶

主实验¶

实验在登革病毒（PDB: 2R29）上进行，抗体序列长度 \(N_a = 11\)（CDRH3 区域），病毒序列长度 \(N_v = 97\)。

指标	Shaper (H=100)	Myopic (H=0)	关键发现
逃逸平均适应度 \(F_v^{100}\)	显著更高	较低	Top 10% shapers 优于所有 myopic
短视适应度 \(R_a(v,a)\)	略低	更高	Shapers 牺牲短期换长期
逃逸后 10 步	略逊于 myopic	初始更优	前 10 步 myopic 有优势
逃逸后 100 步	显著更优	大幅下降	Shapers 长期优势明显

跨病原体泛化性（4 种额外病原体）：

病原体	PDB	Shaping 效果	特殊发现
西尼罗病毒	1ZTX	✓ 有效	H=20 在有限预算下表现更优
流感神经氨酸酶	4QNP	✓ 有效	趋势与登革一致
MERS-CoV	5DO2	✓ 有效	H=100 需要更多优化步才收敛
艰难梭菌（细菌）	4NP4	✓✓ 特别强	H=100 显著压倒其他所有配置

消融实验¶

配置	关键指标 \(F_v^{100}\)	说明
H=0 (myopic)	基线	不考虑逃逸，初始绑定好但长期差
H=5	优于 myopic	短 horizon 已有改善
H=10	进一步提升	中等 horizon
H=20	接近 H=100	最佳性价比——计算归一化后几乎持平
H=100	最优	步数归一化最佳，但计算代价高

JAX 加速效果：

实现	硬件	加速比
原始 Absolut! (C++)	Apple M2 Max (CPU)	1×
JAX 重实现	Nvidia A40 (GPU)	~10,000×

关键发现¶

"进攻即最佳防守"：交叉评估实验表明，H=100 shapers 诱导的逃逸病毒 \(v_{100}\) 对所有抗体（不仅是诱导它的 shaper）都更容易被靶向。这证明 shapers 确实在塑形病毒进化，而非仅仅变得更鲁棒。
氨基酸分布差异：shapers 的氨基酸分布更均匀，myopic 抗体倾向聚集于极端结合能的氨基酸。均匀分布使 shapers 对突变更鲁棒——病毒难以通过避开特定高结合氨基酸来逃逸。
Pose 矩阵分析：H=100 shapers 通过两种机制约束病毒逃逸——(a) 阻止病毒将抗体最低结合氨基酸（如 Lysine）纳入 pose；(b) 抑制病毒从 pose 中移除自身高结合氨基酸（如 Isoleucine, Methionine）。
外部压力下的鲁棒性：即使加入额外的短视抗体外部压力（模拟多种疫苗共存场景），shaping 效果虽有减弱但依然显著。

亮点与洞察¶

跨领域创新：将多智能体 RL（LOLA, M-FOS）的对手塑形思想首次应用于计算生物学，是 AI for Science 的优秀范例
工程贡献突出：JAX 重实现带来 10,000× 加速，使大规模博弈模拟成为可能
实用指导：H=20 是成本效益最优的 horizon 选择，为计算预算有限的场景提供了实操建议
可解释性分析：不仅展示 shapers 有效，还深入分析了为什么有效（氨基酸分布、pose 矩阵变化），使结果具有生物学可解读性
混合策略启示：结合 shaping 抗体和 myopic 抗体的鸡尾酒疗法可能兼顾短期疗效和长期进化控制

局限与展望¶

简化的绑定模型：Absolut! 是离散化的简化模拟器，与真实蛋白质相互作用有较大差距；未来可集成 AlphaFold3 等更精确的模型
固定结构假设：假设病毒抗原结构在逃逸过程中不变，但实际突变可能导致构象变化
单一抗体优化：当前只优化单个抗体，未考虑多抗体组合的协同效应
序列空间局限：仅优化 CDRH3 区域（11 个氨基酸），未涉及抗体其他可变区域
离 wet lab 验证尚远：需要更精确的模拟器和实验验证才能走向临床
进化模型简化：假设每代平均 1 个突变，且仅考虑点突变，未涵盖重组、插入/缺失等

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 首次将对手塑形引入抗体设计，跨领域创新性极强
实验充分度: ⭐⭐⭐⭐ — 5 种病原体验证 + 丰富消融，但缺乏 wet lab 验证
写作质量: ⭐⭐⭐⭐⭐ — 框架清晰，图示精美，可解释性分析到位
价值: ⭐⭐⭐⭐ — 概念验证阶段，但思路对未来抗病毒/抗癌治疗有深远启示