AFD-INSTRUCTION: A Comprehensive Antibody Instruction Dataset with Functional Annotations for LLM-Based Understanding and Design¶
会议: ICLR 2026
arXiv: 2602.04916
代码: 待公开
领域: 生物信息 / LLM指令微调
关键词: 抗体语言模型, 指令微调数据集, 序列-功能对齐, 抗体设计, 多智能体数据构建
一句话总结¶
构建了首个大规模抗体功能注释指令数据集AFD-Instruction(430K+条目),通过多智能体文献抽取pipeline对齐抗体序列与自然语言功能描述,用于指令微调通用LLM使其掌握抗体理解和功能导向设计能力,在5类分类任务上平均准确率提升20+点。
研究背景与动机¶
- 领域现状:LLM已被广泛应用于蛋白质理解(如Mol-Instructions、InstructProtein),但抗体作为一类特殊且极具治疗价值的蛋白质,缺乏专门的序列-功能对齐数据集。
- 现有痛点:(a) 现有蛋白语言模型(PLM)用无监督方式在原始序列上训练,缺少功能信号;(b) OAS数据库虽有百万级抗体序列但绝大多数无功能注释;(c) 通用LLM无法理解抗体序列,PLM无法理解自然语言——两者之间存在模态鸿沟。
- 核心矛盾:抗体的核心价值在于其功能性(靶标结合、中和活性等),但可用的序列-功能配对数据极度稀缺。
- 本文要解决什么:构建首个将抗体序列与自然语言功能描述系统对齐的大规模指令数据集,使LLM既能从序列推断功能,又能根据功能约束生成序列。
- 切入角度:从~4000篇文献中通过多智能体抽取pipeline提取抗体-功能对,再用self-questioning策略扩展为instructio-response对。
- 核心idea一句话:用文献级多智能体系统+自问策略,从已发表抗体研究中大规模挖掘序列-功能配对,构建覆盖理解+设计的指令数据集。
方法详解¶
整体框架¶
AFD-Instruction的构建分三步:(1) 从SAbDab/PDB收集抗体,用MMseqs2序列距离采样平衡集(4305条);(2) 多智能体系统从对应文献中抽取功能注释;(3) self-questioning策略将注释扩展为430K+指令对。数据涵盖两大应用:抗体理解(分类QA+开放式caption)和抗体设计(CDR3设计+完整序列生成)。
关键设计¶
- 多智能体文献抽取系统
- 做什么:从文献自动提取抗体功能注释
- 核心思路:三个角色分工——Mr. Extractor扫描文本提取基础信息(类别、靶标、来源、功能);Dr. Mechanism分析结构和机制细节(结合位点、分子效应);Prof. Function综合生成高层解读(作用模式、治疗相关性、独特特点)
-
设计动机:单个agent容易遗漏信息或产生幻觉,分工协作确保从事实提取→机制分析→功能综合的信息完整性和层次性
-
Self-Questioning策略
- 做什么:从抗体-描述对自动生成多样化的instruction-response对
- 核心思路:理解方向——生成5类分类问题(抗体类别、疾病关联、结合位点、作用机制、功能)和caption任务(自由文本描述)。设计方向——输入为功能描述+抗原序列(
标签),输出为完整抗体序列或CDR3序列( 标签)。用seed prompt + LLM生成 + 自动一致性检查 + 去重 -
设计动机:原始抗体-描述对规模有限(~4305条),通过多视角question generation扩展到430K+条目
-
序列格式规范
- 做什么:用明确的链标签标记抗体序列
- 核心思路:重链用
<H></H>,轻链用<L></L>,抗原用<Anti></Anti>,CDR3用<CDR3></CDR3>标签 - 设计动机:让文本LLM理解蛋白序列的结构组织
质量控制¶
- 自动完整性检查 + 10%随机抽样人工验证
- 指令对5%子集由两位独立专家审查,Cohen's κ = 0.82
- 歧义案例讨论一致后更新提取规则
实验关键数据¶
主实验——分类任务¶
指令微调LLaMA-8B和Qwen2-7B后在5类抗体理解任务上的表现:
| 模型 | Class ACC | Disease ACC | Binding ACC | Mechanism ACC | Function ACC |
|---|---|---|---|---|---|
| GPT-4o | 82.02 | 72.15 | 50.31 | 63.99 | 56.17 |
| Claude-3 | 95.40 | 70.89 | 42.65 | 43.81 | 47.84 |
| DeepSeek-V3 (671B) | 93.99 | 74.45 | 47.88 | 59.20 | 49.39 |
| InstructProtein | 52.44 | 74.66 | 47.91 | 58.36 | 48.51 |
| QwenAB (7B, Ours) | 98.86 | 87.83 | 87.81 | 93.60 | 85.01 |
| LLaMAB (8B, Ours) | 98.48 | 85.11 | 87.01 | 92.91 | 83.81 |
QwenAB平均ACC比最强基线高20.21点。注意7B微调模型全面碾压671B通用模型和闭源商业模型。
抗体设计实验¶
指令微调模型在CDR3设计和完整抗体生成上均生成了具有合理结构多样性和功能匹配度的序列(详见caption任务中BLEU/ROUGE指标的显著提升:QwenAB在Binding caption上BLEU-4=17.25 vs GPT-4o=6.74)。
关键发现¶
- 即使是最强的闭源模型(GPT-4o, Claude-3),在抗体特异性任务(如Binding、Mechanism)上也明显弱于7B微调模型——说明抗体知识无法通过通用预训练充分获取
- 现有蛋白质领域模型(Galactica、Mol-Instructions等)在抗体任务上表现也不佳,说明通用蛋白质知识不等于抗体知识
- GemmaAB-9B和DeepSeekAB-MoE-16B也表现优异,说明AFD-Instruction的效果跨模型架构可迁移
亮点与洞察¶
- 首个抗体序列-功能指令数据集:填补了重要空白,430K+条目的规模为后续研究提供了基础设施级资源
- 多智能体文献挖掘的pipeline可迁移到其他生物学领域——只要有文献和数据库配对关系,都可以用类似方法构建领域指令数据集
- 7B模型碾压671B的结果再次证明:领域数据的价值远超模型规模。这对生物医学AI的实际部署有重要启示——无需最大模型,只需最好的数据
局限性 / 可改进方向¶
- 数据来源仅限SAbDab/PDB中有文献对应的抗体,覆盖范围受限于已发表文献
- 多智能体系统的提取准确率依赖LLM能力,可能引入事实错误
- 仅评估了文本LLM的指令微调,未探索与蛋白质结构模型(如ESMFold、AlphaFold)的融合
- 抗体设计任务缺乏湿实验验证——生成的序列是否真正具有预期功能未知
- CDR3设计仅覆盖CDR-H3,其他CDR区域和框架区的设计未涉及
相关工作与启发¶
- vs Mol-Instructions: 通用蛋白质指令数据集,不含抗体特异性注释;AFD在抗体任务上远超之
- vs InstructProtein: 用知识图谱对齐蛋白-文本,但同样缺乏抗体功能描述
- vs ProtLLM: 用交错蛋白-文本预训练,在抗体分类上仍不如AFD微调的通用LLM
评分¶
- 新颖性: ⭐⭐⭐⭐ 数据集构建方法(多智能体+self-questioning)有创意,但核心贡献更偏数据资源
- 实验充分度: ⭐⭐⭐⭐⭐ 对比17+基线(含5个闭源商业模型),跨5种模型架构验证,非常全面
- 写作质量: ⭐⭐⭐⭐ 结构清晰,数据构建过程描述详细
- 价值: ⭐⭐⭐⭐ 对抗体AI领域有基础设施级贡献,但缺乏湿实验验证限制了实际影响