Protein as a Second Language for LLMs¶

会议: ICLR2026
arXiv: 2510.11188
代码: 待公开
领域: 生物信息 / 蛋白质理解 / LLM 应用
关键词: protein understanding, in-context learning, LLM, second language acquisition, bilingual dataset

一句话总结¶

将氨基酸序列视为 LLM 的"第二语言"，通过构建蛋白质-自然语言双语数据集和自适应上下文构造机制，无需任何训练即可让通用 LLM 在蛋白质问答任务上平均提升 7% ROUGE-L，最高 17.2%，甚至超越领域专用微调模型。

研究背景与动机¶

领域现状: 蛋白质功能理解主要有两大范式：(1) 蛋白质表示学习——在氨基酸序列上自监督预训练后接特定任务解码器；(2) 蛋白质-语言对齐——通过对比学习或多模态 LLM 建立序列与文本的映射。两者均需要大规模训练数据、高计算成本和任务特定微调。

痛点: 蛋白质表示学习的嵌入需要额外"翻译器"才能生成人类可读解释；蛋白质-语言对齐依赖大规模配对数据、每次更换下游目标都需重新微调。两条路线的泛化能力和可扩展性均受限。

核心矛盾: 蛋白质序列本质上具有"语言属性"（固定字符集、组合结构、上下文语义），但现有方法未真正利用这一类比，仍将其视为独立模态而非 LLM 可直接"阅读"的语言。

目标: 设计一个零训练框架，让通用 LLM 仅通过上下文示例就能理解蛋白质序列的功能含义。

切入角度: 借鉴第二语言习得的认知科学原理——人类学习新语言时依赖已有母语知识，通过在上下文中反复遇到新词来推断含义。LLM 可以用同样方式"习得"蛋白质语言。

核心 idea: 构建蛋白质-自然语言双语数据集（79,926 条 QA），设计自适应上下文构造机制（基于序列同源性+文本相似度的双标准检索），让 LLM 通过 in-context 示例获得蛋白质推理能力。

方法详解¶

整体框架¶

"Protein-as-Second-Language" 框架分三个阶段： 1. 双语数据集构建: 从 Swiss-Prot → GO-DAG 剪枝分组 → 序列+功能去冗余 → DeepSeek-R1 生成QA → 79,926 条蛋白质QA三元组 2. 自适应上下文构造: 对查询蛋白质，同时检索序列同源和文本相似的示例，组装双语上下文 3. LLM 推理: 将构造的上下文+查询直接输入冻结的 LLM，零训练生成答案

关键设计¶

1. 双语数据集构建（三步流水线）¶

功能: 从 573,661 条 Swiss-Prot 条目中构建平衡、多样的蛋白质QA语料。

核心思路: - GO-DAG 剪枝分组: 对基因本体 DAG 应用类似决策树剪枝的策略，使用深度自适应最小支持阈值 \(m(d) = \lambda \cdot C_{tot} \cdot (1 + \beta d)\) 和子节点不平衡比 \(\rho(v)\) 来确定保留的功能类节点 - 双语去冗余: 先用 MMseqs2 以 70% 序列相似度阈值聚类去序列冗余；再基于蛋白质功能信息含量 \(\text{IC}_{\text{protein}}\) 去功能冗余 - LLM 生成 QA: 用 DeepSeek-R1 生成四种QA类型：属性QA（11,693条）、知识QA、描述性QA、判断QA（32,444条）

设计动机: 直接转换所有 Swiss-Prot 注释会引入严重冗余，且功能类别极不平衡。三步流水线在保多样性的同时控制数据规模。

2. 自适应上下文构造机制¶

功能: 为每个查询蛋白质动态选择最有效的上下文示例。

核心思路: 使用双标准检索： - (i) 氨基酸序列同源性（MMseqs2 计算）——捕获结构/功能相似信号 - (ii) 描述文本/QA 文本相似度——提供语义接地

检索到的候选经上下文整合模块组装为连贯的双语上下文，与查询一起作为 in-context 示例输入 LLM。

设计动机: 单用序列同源性无法捕获功能语义，单用文本相似度缺乏序列模式。消融实验表明，双标准比仅序列同源高 5.2%，比仅文本相似高 2.8%。

3. 双语上下文学习¶

功能: 通过类比推理让 LLM 从示例中推断查询蛋白质的功能。

核心思路: 完全模拟第二语言习得过程——LLM 已经掌握自然语言（母语），通过展示"氨基酸序列-功能描述"的配对示例（双语语料），让 LLM 在上下文中推断出序列模式与功能的对应关系，无需任何参数更新。

损失函数¶

本方法为零训练框架，不涉及损失函数和梯度更新。评估使用 ROUGE-L 自动指标和人类评分（0-5分）。

实验关键数据¶

主实验：不同 LLM 上的 ROUGE-L 提升¶

模型	ProtDescribe (零样本→+上下文)	Protein2Text-QA (零样本→+上下文)	Mol-Inst. Avg (零样本→+上下文)
Qwen2.5-3B	18.45 → 27.32 (+8.87)	23.21 → 28.66 (+5.45)	18.54 → 21.35 (+2.81)
Mistral-7B	15.02 → 29.39 (+14.37)	20.97 → 28.59 (+7.62)	17.17 → 19.29 (+2.12)
Qwen3-14B	23.20 → 35.53 (+12.33)	21.02 → 25.93 (+4.91)	14.61 → 19.82 (+5.21)
GPT-4o	18.29 → 35.53 (+17.22)	20.84 → 26.86 (+6.02)	17.03 → 19.89 (+2.85)
ProLLaMA-7B (微调)	12.77	10.09	16.85
BioT5+ (微调)	9.97	6.96	3.60

冻结的通用 LLM + 上下文构造 显著超越 领域微调模型 ProLLaMA 和 BioT5+。GPT-4o 在 ProtDescribe 上提升高达 17.22%。

消融实验：双标准检索 vs 单标准¶

检索策略	ProtDescribe (avg)	Protein2Text-QA (avg)	Mol-Inst. (avg)
Dual（双标准）	32.73	26.22	19.14
SeqOnly（仅序列）	23.75 (-8.98)	22.77 (-3.45)	15.96 (-3.18)
QAOnly（仅文本）	29.20 (-3.53)	23.76 (-2.46)	16.77 (-2.37)

双标准检索在所有数据集上均优于单标准，序列同源性和文本相似度提供互补信号。

关键发现¶

模型规模越大获益越多: Qwen3-14B 和 GPT-4o 的提升最大，说明更强的上下文学习能力能更好地利用双语上下文
最优示例数量因任务而异: ProtDescribe 在 k=10-11 时最佳，Protein2Text-QA 在 k=3-4 时最佳
通用 LLM > 领域微调模型: ProLLaMA-7B (微调) 在 ProtDescribe 上仅 12.77，而 Qwen2.5-3B + 上下文达 27.32

亮点与洞察¶

"蛋白质即第二语言"的概念框架非常优雅，将第二语言习得理论与 ICL 有机结合
完全零训练——不修改模型参数，仅通过上下文工程就超越了微调模型，凸显了 ICL 的潜力
三步去冗余的数据构建流水线（GO剪枝→序列聚类→功能IC采样）值得其他生物信息数据集构建借鉴
双标准检索的消融分析清晰展示了两种信息源的互补性

局限性¶

ROUGE-L 主要衡量词汇重叠，无法充分评估生物学准确性和推理深度
上下文窗口限制了可提供的示例数量，对长序列蛋白质和复杂推理链可能不够
数据集依赖 DeepSeek-R1 自动生成，可能引入 LLM 的幻觉和偏差
未评估在蛋白质设计、突变分析等更高阶任务上的表现

评分¶

⭐⭐⭐⭐ (4/5)

创新性: ⭐⭐⭐⭐⭐ — "蛋白质即第二语言"概念新颖，零训练超微调模型的结果令人印象深刻
实验: ⭐⭐⭐⭐ — 覆盖多个LLM和数据集，消融充分，人类评估增强可信度
实用性: ⭐⭐⭐⭐ — 零成本部署，但依赖高质量双语数据集
写作: ⭐⭐⭐ — 框架阐述清晰但部分表格排版较密集