Benchmarking and Enabling Efficient Chinese Medical Retrieval via Asymmetric Encoders¶

会议: ACL 2026
arXiv: 2604.10937
代码: GitHub
领域: 信息检索
关键词: 医学文本检索, 非对称编码器, 中文医学基准, 嵌入模型, RAG

一句话总结¶

提出 CMedTEB（中文医学文本嵌入基准）和 CARE（非对称检索框架），前者通过多 LLM 投票+专家验证构建高质量的中文医学检索/重排/STS 基准，后者用轻量 BERT 编码查询+大型 LLM 编码文档的非对称架构，通过两阶段渐进对齐策略实现 LLM 级检索精度+BERT 级在线延迟。

研究背景与动机¶

领域现状：文本嵌入模型是 NLP 的基础设施，在 RAG 系统中尤为重要。近年来 LLM-based 嵌入模型（如 Qwen3-Embedding、NV-Embed）在通用基准上表现优异，但中文医学文本嵌入领域关注不足。

现有痛点：(1) 基准质量差：现有中文医学检索基准（CmedqaRetrieval、MedicalRetrieval）存在严重的假阴性问题——医学领域的"主题密集性"导致大量语义相关但未标注的文档被错标为不相关（平均每个查询有 9-19 个假阴性）；(2) 效率-精度矛盾：LLM-based 嵌入模型精度高但延迟大，在实时医学问答等延迟敏感场景不可用；BERT-style 模型延迟低但精度不够。

核心矛盾：高精度要求大模型但实时场景要求低延迟——精度和效率之间存在看似不可调和的 trade-off。

本文目标：(1) 构建高质量的中文医学嵌入基准；(2) 设计一个打破精度-延迟 trade-off 的检索框架。

切入角度：在检索中，查询编码是在线的（需要低延迟），文档编码可以离线预计算（可以用大模型）。利用这种天然的非对称性，用不同大小的模型分别编码查询和文档。

核心 idea：用轻量 BERT 编码在线查询 + LLM 编码离线文档，通过两阶段渐进对齐（先冻结文档编码器对齐查询编码器，再联合微调）弥合异构编码器间的语义鸿沟。

方法详解¶

整体框架¶

CMedTEB 基准：多 LLM 共识标注 pipeline 构建检索/重排/STS 三个任务。CARE 框架：初始化两个编码器 → Stage I 冻结文档编码器、用无监督自对比学习对齐查询编码器 → Stage II 解冻两个编码器联合微调。推理时查询走 BERT（0.3B），文档走预计算的 LLM 嵌入。

关键设计¶

CMedTEB 基准构建（多 LLM 共识 + 专家验证）:
- 功能：提供高保真的中文医学嵌入评测标准
- 核心思路：用 DeepSeek-V3、Doubao-1.5-Pro、GPT-4o 三个 LLM 对查询-文档对进行 5 分制打分，仅当三者一致同意时保留为正样本。专家独立重标注 5000 对，一致率 93.3%。Fleiss' Kappa = 0.731 表明标注可靠
- 设计动机：单一 LLM 标注（如 CMIRB 只用 ChatGPT）无法保证质量，多模型共识 + 专家验证提供了更可靠的金标准
两阶段非对称对齐策略:
- 功能：弥合轻量查询编码器和大型文档编码器之间的语义鸿沟
- 核心思路：Stage I（查询编码器对齐）：冻结文档编码器，用"自对比"策略对齐——同一文本在两个编码器中的嵌入互为正样本。损失 = Asym-InfoNCE（软排序对齐）+ MSE（硬结构对齐）。Stage II（联合微调）：解冻两者，用查询-文档对的 Asym-InfoNCE 端到端优化检索边界
- 设计动机：直接联合训练异构编码器会导致不稳定收敛。渐进策略先建立空间映射基础（Stage I 用无标签数据），再优化任务性能（Stage II 用标注数据）
医学领域训练数据构建（多样性感知去重 + 假阴性清洗）:
- 功能：解决医学领域"主题密集性"导致的假阴性问题
- 核心思路：用 5000 种子样本初始化向量索引，新候选如果与已有样本相似度过高则丢弃（多样性保证）。然后用 GPT-4o 验证 top-50 检索结果，区分真难负例和假阴性。最终生成 500K 高质量三元组
- 设计动机：标准难负例挖掘在医学领域失效——因为大量语义相关文档未被标注，挖掘出的"负例"实际是正例

实验关键数据¶

主实验（CMedTEB 综合评分）¶

模型	参数(Q/D)	Retrieval nDCG@10	Rerank MAP@10	STS Pearson	Avg
bge-large-zh-v1.5	326M/326M	50.32	67.55	78.95	73.04
Conan-v1	326M/326M	52.75	69.31	81.49	76.44
gte-Qwen2-1.5B	1.78B/1.78B	55.39	72.35	85.50	77.61
CARE-0.3B-4B	305M/4.02B	55.91	72.84	88.53	78.13
CARE-0.3B-8B	305M/8.19B	56.75	73.67	87.07	78.94

消融实验（非对称 vs 对称 vs 其他高效方法）¶

方法	类型	Retrieval	Rerank	Avg
KALE	非对称	42.67	67.42	55.05
ScalingNote	非对称	34.81	64.17	49.49
CARE-0.3B-4B	非对称	55.91	72.84	64.38
Med-Emb-8B (对称)	对称	56.42	74.84	65.63

关键发现¶

CARE 打破了精度-延迟 trade-off：CARE-0.3B-8B 在精度上落后全对称 8B 模型仅 0.6%，但在线推理参数量少 27 倍
CMedTEB 显著难于现有基准：通用模型在 CMedQA 上平均 85.15，但在 CMedTEB 新任务上仅 57.85
两阶段训练显著优于其他非对称方法：CARE 比 KALE 高 9.33pp，比 ScalingNote 高 14.89pp
文档编码器扩大时，性能持续提升且不增加在线成本：4B→8B 平均分提升 0.81
现有基准假阴性问题严重：LLM 标注的假阴性被人工验证确认率 92%

亮点与洞察¶

非对称架构利用了检索任务的天然不对称性是核心洞察——查询在线、文档离线这个事实被巧妙利用。这个思路可以迁移到任何查询-文档匹配场景
自对比对齐（同一文本在两个编码器的表示互为正样本）是一个优雅的无监督方案，不需要额外标注就能建立跨模型的空间映射
CMedTEB 的构建方法论（多 LLM 共识 + 专家验证 + 假阴性分析）为领域特定基准构建提供了可复用的范式

局限与展望¶

文档编码器需要离线预计算，对文档更新频繁的场景（如实时新闻检索）不太适用
Stage I 的 MRL（Matryoshka 表示学习）将高维 LLM 嵌入截断到 768 维，可能丢失信息
CMedTEB 仅覆盖中文，跨语言医学检索未考虑
仅在医学领域验证，是否能推广到法律、金融等其他专业领域有待确认
可以探索在线蒸馏或渐进式知识迁移来进一步缩小查询编码器

评分¶

新颖性: ⭐⭐⭐⭐ 非对称架构不新但两阶段自对比对齐策略新颖
实验充分度: ⭐⭐⭐⭐⭐ 基准+模型+消融+效率分析全面，基准构建有专家验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表有效传达核心信息
价值: ⭐⭐⭐⭐⭐ 基准+模型+代码+数据全面开源，对中文医学 NLP 有直接推动