Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to RAG¶

日期: 2026-03-08
arXiv: 2603.07825
代码: 无（AEPC-QA 为私有基准）
领域: LLM推理
关键词: LLM benchmark, insurance domain, RAG, French, domain-specific QA

一句话总结¶

构建魁北克保险领域的 807 道选择题金标准基准 AEPC-QA（来自纸质非公开认证手册，无数据污染风险），系统评估 51 个 LLM 在闭卷和 RAG 范式下的表现——发现推理时计算（o3 达 78.68%）最强、RAG 对弱模型是"知识均衡器"（DeepSeek-reasoner +35pp）但对强模型可能导致"上下文干扰"灾难（Gemini-2.5-Pro -60pp）、领域特化小模型不如通用大模型（"专业化悖论"）。

研究背景与动机¶

领域现状: 魁北克 Bill 141 允许保险产品完全在线分销，消除了人类代理人的强制参与，但消费者被迫自行理解超过 3 万字的保险合同——产生了严重的"建议鸿沟"（advice gap）。LLM 是潜在的自动化咨询解决方案，但在保险领域"看似合理"的回答不够——必须法律准确，否则可能导致覆盖空白和法律诉讼（如 Air Canada 聊天机器人案判决公司需为 AI 错误信息负责）。
现有痛点: (a) 通用法律 benchmark（LegalBench, LawBench）聚焦英美法系（Common Law），不适用于魁北克民法（Civil Law）体系；(b) 领域特化法语法律模型（SaulLM, LawGPT）训练在英语 Common Law 语料上，对魁北克法律有"管辖权偏差"；(c) RAG 被广泛视为幻觉的解药，但其在高风险专业领域的真实效果（对谁有效、对谁有害）缺乏系统研究。
核心矛盾: 保险咨询需要"法律准确+法语+魁北克民法"三重专业性，但现有 LLM 评估资源在这三个维度上都有缺陷。
切入角度: 从 25 本官方认证考试纸质手册（未在网上公开索引，避免数据污染）构建金标准 QA 基准，配合 16.8 万句的官方法规语料库做 RAG 评估，系统揭示 51 个模型的真实表现。

方法详解¶

整体框架¶

(1) AEPC-QA 基准构建：25 本官方手册 → OCR 数字化 → 人工 curate → 807 道四选一单答题。(2) 闭卷评估：51 个 LLM 零样本直接回答。(3) RAG 评估：QAIERC 语料库（168,600 句/2.6M token 的法规+合同+监管文件）→ text-embedding-ada-002 dense retrieval → top-5 chunks → context compressor → 注入 prompt。(4) 分层 10 折交叉验证，报告均值±标准差。

关键设计¶

AEPC-QA 基准（核心数据贡献）:
- 做什么：807 道四选一选择题，来自魁北克保险从业认证考试的官方备考手册
- 核心特点：(a) 纸质来源——近零数据污染：手册仅以纸质形式存在，未被网络索引，排除了模型见过题目的可能；(b) 监管权威：每题有唯一正确答案（AMF 金融市场管理局认定），非主观评估；(c) 专业深度：涉及复杂责任判定（如多车事故的过错比例、保险合同条款解释），Flesch-Kincaid 可读性 64.55
- 局限：版权限制无法公开发布（但方法论和评估框架可复用）
RAG 管线（检索增强评估）:
- 做什么：为 LLM 提供魁北克保险法规上下文，评估 RAG 在高风险专业领域的真实效果
- 知识库：QAIERC（Quebec Automobile Insurance Expertise Reference Corpus）——魁北克汽车保险专家参考语料库
- 检索策略：dense retrieval（text-embedding-ada-002）而非 BM25——因为非专业用户查询通常缺乏精确法律术语，语义匹配能缓解词汇不匹配
- 管线：查询 → dense retrieval top-5 chunks → context compressor 降噪 → 注入 LLM prompt
- 设计动机：不假设 RAG 总是有益——实验恰恰揭示 RAG 可以摧毁某些强模型（见下方关键发现）
51 个 LLM 的系统评估:
- 模型覆盖：闭源（GPT-4o/o1/o3, Claude Opus 4, Gemini 2.5 Pro/flash, Grok 4）+ 开源（Llama 3.3, Qwen, DeepSeek, Mistral, Pixtral）
- 规模覆盖：7B → 70B + MoE 架构
- 排除标准：法律特化模型（SaulLM, LawGPT）被排除——因为训练在英语 Common Law 上，对法语民法体系有管辖权偏差
- 评估方式：闭卷（直接回答）vs RAG（检索增强回答），每条件多次运行取均值±标准差

实验关键数据¶

主实验（按 RAG 准确率排名）¶

排名	模型	闭卷(%)	RAG(%)	变化
1	o3-2025-04-16	76.13±2.57	78.68±2.70	+2.6
2	o1-2024-12-17	72.10±2.35	75.18±1.89	+3.1
3	Sonar-deep-research	54.53±6.10	73.80±2.11	+19.3
4	Claude-Opus-4	66.91±3.00	73.17±2.13	+6.3
7	DeepSeek-reasoner	36.30±2.79	71.77±2.57	+35.5
14	GPT-4.1-mini	59.20±2.32	65.80±2.75	+6.6
21	Pixtral-large (开源最佳)	58.02±2.33	58.60±3.87	+0.6
32	Gemini-2.5-flash	65.47±2.89	38.39±2.60	-27.1
—	Gemini-2.5-Pro (闭卷#2)	74.65	14.06	-60.6
41	QwQ-32b	51.36±2.17	27.49±2.56	-23.9
末	French-Alpaca-Llama3-8b	—	0.08	—

关键发现¶

推理时计算(inference-time reasoning) 的主导地位：o3 和 o1 稳居前两名（78.68%、75.18%），即使闭卷也远超标准指令微调模型。保险 QA 的瓶颈不是知识检索而是多步法律推理——识别相关法律原则 → 应用到具体事实场景。CoT 跟踪显示推理模型甚至在法语基准中用英语做中间推理步骤，证实推理能力是跨语言迁移的
RAG 是"知识均衡器"：对参数知识弱的模型效果惊人——DeepSeek-reasoner 闭卷仅 36.30% 但 RAG 后 71.77%（+35.5pp）。高质量推理引擎不需要在预训练中记住辖区特定法规；只要提供正确的法规上下文就能合成与训练数据更丰富的模型竞争的答案。这对保险业意味着不必做昂贵的微调，通过鲁棒的检索管线即可适配细分领域
"上下文干扰"（Context Distraction）现象——RAG 可以摧毁强模型：Gemini-2.5-Pro 闭卷 74.65% → RAG 14.06%（-60.6pp，远低于随机猜测 25%）。原因有二：(a) 格式不合规——模型检索到相关信息但生成冗长解释而非单字母答案，技术得分归零；(b) 安全拒绝——复杂的法律责任描述触发安全对齐机制导致拒绝回答。类似崩溃在 Llama-3.3-70b 和 Grok 系列也出现
"专业化悖论"：法语特化模型（French-Alpaca-Llama3-8b-it）RAG 后仅 0.08%（几乎不回答），远不如通用大模型。特化牺牲了"推理密度"——在保险领域，抽象推理责任和因果关系的通用能力（general reasoning density）比与法律术语的表面对齐重要得多
开源 vs 闭源差距 ~20pp：开源最佳 Pixtral-large 58.60% vs 闭源最佳 o3 78.68%，在高风险任务上开源模型尚不足以作为独立自主代理
Z 检验揭示三类模型：(a) 绿色集群——闭卷已强的模型从 RAG 获益有限；(b) 蓝色集群——中间水平模型 RAG 后显著提升甚至超过绿色模型；(c) 红色集群——基础推理能力不足的模型 RAG 也救不了
成本-精度权衡：o3 需约 45s/query 做"思考"才达 78.68%；GPT-4.1-mini + RAG 以极低成本达 65.80%。建议分层部署：轻量 RAG 处理一般咨询，复杂责任评估升级到推理模型

亮点与洞察¶

"上下文干扰"的发现对 RAG 部署有重要警示：RAG 不是万能药，甚至可以"脑叶切除"（lobotomize）高能力模型。这不同于简单的幻觉，而是格式合规性和安全对齐的系统性失败。任何 RAG 系统上线前都需要模型特定的鲁棒性校准
"知识均衡器"效应的经济意义：不必为每个保险细分领域训练专用模型——用通用推理引擎+高质量法规检索库即可，大幅降低部署成本
纸质手册→零污染基准的方法论：利用纸质来源的不可索引性确保无数据泄露，这个思路可推广到其他需要高信度评估的场景

局限性 / 可改进方向¶

私有基准限制可复现性：版权限制无法公开 AEPC-QA，其他研究者无法验证结果
仅评估分类准确率：选择题形式不能评估开放式生成的法律建议质量——真实场景中消费者会问开放式问题
单一检索器：仅用 text-embedding-ada-002，未对比 BM25、ColBERT 或其他 dense retriever 的效果差异
Prompt 工程影响未充分探索：格式不合规问题可能通过 few-shot 或更严格的 output constraint 缓解
仅覆盖魁北克汽车保险：其他保险类型（健康、人寿、财产）和其他民法辖区的泛化性未验证
Gemini-2.5-Pro 的"崩溃"可能是格式问题而非理解问题：模型可能实际理解了答案但因冗长输出被判错误，需要区分"真正的错误"和"格式不合规"

评分¶

新颖性: ⭐⭐⭐⭐ "上下文干扰"和"专业化悖论"是有价值的新发现，纸质来源零污染基准的方法论有创意
实验充分度: ⭐⭐⭐⭐⭐ 51 个模型 + 闭卷/RAG 两范式 + 分层 10 折交叉验证 + Z 检验 + 多个 baseline，实验矩阵非常全面
写作质量: ⭐⭐⭐⭐ 三大发现的分析深入，有具体案例和统计检验支撑，"知识均衡器"和"上下文干扰"的命名形象
价值: ⭐⭐⭐⭐ RAG 双面效应的发现对所有高风险领域的 LLM 部署有直接参考价值，不仅限于保险