BeeRNA: Tertiary Structure-Based RNA Inverse Folding Using Artificial Bee Colony¶

会议: AAAI2026
arXiv: 2511.21781
代码: 待公开
领域: optimization
关键词: RNA inverse folding, Artificial Bee Colony, tertiary structure, bio-inspired optimization, RhoFold

一句话总结¶

提出 BeeRNA，将人工蜂群（ABC）优化算法应用于 RNA 三级结构逆折叠问题，通过碱基对距离预筛选 + RMSD 两阶段适应度评估，在短/中长度 RNA（<100 nt）上超越深度学习方法 gRNAde 和 RiboDiffusion。

背景与动机¶

RNA 逆折叠问题（inverse folding）旨在设计能够折叠成特定目标结构的核苷酸序列，在合成生物学、aptamer 治疗、核糖开关等领域有重要应用
现有方法大多聚焦于二级结构逆折叠（如 ViennaRNA、NUPACK），三级结构逆折叠仍然是计算生物学中未充分解决的难题
深度学习方法（gRNAde、RiboDiffusion、RISoTTo）虽然推理速度快，但依赖大规模训练数据，且在短 RNA（<50 nt）上表现不佳——这恰恰是 miRNA、aptamer、核酶等功能性 RNA 所在的长度区间
ABC 算法已在蛋白质逆折叠中展示了遍历复杂能量景观的能力，但尚未被应用于 RNA 三级结构逆折叠

核心问题¶

给定目标 RNA 三级结构 \(T_{\text{3D}}\)（PDB 文件中的 3D 原子坐标），寻找核苷酸序列 \(S^* = \arg\min_S \text{RMSD}(F(S), T_{\text{3D}})\)，其中 \(F(S)\) 是 RhoFold 对序列 \(S\) 的结构预测。附加约束包括热力学稳定性（最小自由能）和 GC 含量在 40%–60% 之间。

方法详解¶

整体框架¶

BeeRNA 将 ABC 蜂群优化与 RhoFold 结构预测结合，采用两阶段适应度评估策略：

第一阶段（快速筛选）：用 ViennaRNA 计算候选序列的二级结构，与目标二级结构比较碱基对距离（BPD）。BPD > 0 的序列直接标记为不合格（fitness = ∞）
第二阶段（精确评估）：仅对 BPD = 0 的序列调用 RhoFold 预测三级结构，计算与目标的 RMSD 作为适应度值

ABC 算法三阶段¶

初始化：生成 40 条 RNA 序列（种群大小 N=40），从目标二级结构提取碱基对约束，配对位置分配互补碱基（G-C 或 C-G），未配对位置随机分配核苷酸，保持 GC 含量 40%–60%

雇佣蜂阶段：每条序列通过自适应变异率生成邻域解。变异率公式为：

\[\text{mutation\_rate} = \max\left(0.1,\ 0.095 \cdot e^{-\frac{\text{best\_RMSD}}{5n}}\right)\]

变异操作包括：随机位置核苷酸替换、相邻位置（3 个位置内）交换变异（20% 概率）、GC 含量超 50% 时的 {A,U}/{G,C} 互换。若邻域解 RMSD 更低则替换原序列，否则试验计数器递增

旁观蜂阶段：基于 softmax 选择概率 \(p_i = e^{-r_i/\tau} / \sum_j e^{-r_j/\tau}\) 按概率选择序列进一步探索，温度参数 \(\tau = 5.0 \cdot (1 + t/T)\) 随迭代增大，实现早期探索、后期利用

侦察蜂阶段：连续 5 次未改进的序列被随机重新初始化，防止陷入局部最优

评估指标¶

RMSD：主要指标，通过 US-align 进行最优叠合后计算骨架磷原子（P）、糖碳原子（C4'）和碱基氮原子（N1/N9）的偏差
GDT-TS：辅助指标，衡量预测结构中在 1/2/4/8 Å 距离阈值内的残基比例

实验关键数据¶

RNASolo 数据集（短 RNA，3–30 nt）¶

指标	BeeRNA	gRNAde
RMSD (Å)	2.50	9.33
GDT-TS (%)	26.91	18.97

RFAM 数据集（25–200 nt ncRNA）¶

指标	BeeRNA	gRNAde
RMSD (Å)	14.98	16.24
GDT-TS (%)	11.56	9.77

14 个基准 RNA 结构¶

指标	BeeRNA	gRNAde	RiboDiffusion
RMSD (Å)	12.02	14.63	10.31
GDT-TS (%)	15.92	10.16	22.69

BeeRNA 在 14 个结构中的 10 个取得最低 RMSD，尤其在短 RNA 上优势显著（如 1F27: 2.21 Å vs gRNAde 14.94 Å）
RiboDiffusion 在长 RNA（>100 nt）上表现更好，但其训练数据可能与测试集重叠
运行效率：<50 nt 约 3 分钟，50–100 nt 约 7–10 分钟（64 核 CPU）

关键发现¶

论文展示了一个有力的案例：对 RNA 2OUE（61 nt），仅做单核苷酸突变（序列恢复率 98.4%），RMSD 就飙升至 19.34 Å，说明高序列相似度不能保证结构正确性，凸显了基于结构的评估方式比序列恢复率更合理。

亮点¶

无需训练：不依赖大规模数据集预训练，即插即用，对新出现的 RNA 家族同样适用
两阶段筛选设计巧妙：先用轻量级 BPD 过滤大量不合格序列，避免昂贵的 RhoFold 调用，显著降低计算成本
自适应变异机制：结合模拟退火思想的自适应变异率，兼顾探索与利用
结构导向评估：论文有力论证了以 RMSD/GDT-TS 代替序列恢复率作为评估指标的合理性
生物约束整合：GC 含量、Watson-Crick 配对等约束直接嵌入优化流程

局限性 / 可改进方向¶

长 RNA 可扩展性差：>100 nt 时搜索空间指数增长，RMSD 明显升高（如 2R8S 159 nt 达 26 Å）
依赖 RhoFold 预测精度：RhoFold 本身的误差会传递到 BeeRNA 的优化结果
BPD=0 前提严格：当目标结构含 wobble 或非典型碱基对时，BPD 无法归零，需用固定 20 Å 罚分替代，影响收敛
串行 CPU 推理：每轮迭代需多次调用 RhoFold，GPU 加速可大幅提速
种群/迭代参数固定：40×40 的设置可能对不同长度的 RNA 不够灵活

与相关工作的对比¶

方法	类型	训练需求	短 RNA 优势	长 RNA 优势	结构评估
ViennaRNA	确定性	无	仅二级结构	仅二级结构	无
gRNAde	深度学习 GNN	大规模预训练	弱	较强	RMSD
RiboDiffusion	扩散模型	大规模预训练	弱（<50 nt 困难）	强	RMSD
RISoTTo	几何 Transformer	大规模预训练	未详测	强	序列恢复率
BeeRNA	仿生元启发	无	强	弱	RMSD + GDT-TS

BeeRNA 填补了"无需训练 + 三级结构逆折叠"这一空白，与深度学习方法形成互补：短 RNA 用 BeeRNA，长 RNA 用 gRNAde/RiboDiffusion。

启发与关联¶

ABC 算法成功从蛋白质逆折叠迁移到 RNA 逆折叠，暗示其他仿生算法（蚁群、粒子群）也可尝试
两阶段筛选（廉价预筛 + 昂贵精评）是一种通用的搜索加速范式，可迁移到其他结构设计问题
未来可探索将 BeeRNA 作为深度学习方法的后处理优化器，或用深度学习方法初始化 BeeRNA 种群
随着 AlphaFold3 等更精确的 RNA 结构预测工具出现，BeeRNA 可无缝替换 RhoFold 获得更好结果

评分¶

新颖性: ⭐⭐⭐（ABC→RNA 三级结构的首次应用，但方法本身较传统）
实验充分度: ⭐⭐⭐⭐（三个数据集、多指标对比，但缺少消融实验）
写作质量: ⭐⭐⭐⭐（清晰完整，动机论证有力）
价值: ⭐⭐⭐（短 RNA 领域有实用价值，但长 RNA 局限明显）