Idiom Understanding as a Tool to Measure the Dialect Gap¶

会议: ACL 2026
arXiv: 2510.05026
代码: 无
领域: LLM评估
关键词: 方言差距, 习语理解, 魁北克法语, 基准数据集, 多语言评估

一句话总结¶

提出三个新的法语习语理解基准数据集（魁北克法语 QFrCoRE/QFrCoRT 和标准法语 MFrCoE），在 111 个 LLM 上评估发现 65.77% 的模型在方言习语上表现显著差于标准法语，量化了方言差距现象。

领域现状：习语理解和方言理解分别是 NLP 中成熟的评估基准领域。LLM 在标准法语（巴黎法语）上表现良好，但对其他法语方言的能力研究极少。

现有痛点：(1) 现有习语数据集大多聚焦单一标准语言变体，缺乏方言覆盖；(2) 方言差距（dialect gap）研究虽已在阿拉伯语、孟加拉语等语言中验证，但没有利用地方习语作为方言理解的探针；(3) 模型在权威方言上的熟练度并不保证能理解区域方言的特有表达。

核心矛盾：方言的语法和句法规则可以从标准语言近似推断，但方言习语源于当地文化和历史，无法从标准语言训练中推导，构成了方言理解的本质性挑战。

本文目标：(1) 构建魁北克法语和标准法语的习语理解基准；(2) 利用方言习语作为工具量化 LLM 的方言差距。

切入角度：将习语理解与方言理解结合——方言习语是方言独有的文化产物，无法从标准语言训练中泛化，因此习语理解表现差距直接反映方言能力差距。

核心 idea：用地方习语理解作为方言能力的探针，构建标准/方言习语配对基准来量化方言差距。

构建三个基准数据集，设计分类任务（给定习语+多个定义，模型选择正确定义），在 111 个 LLM 上评估并比较标准法语与魁北克法语上的表现差异。

QFrCoRE（魁北克法语表达语料库）:
- 功能：评估 LLM 对魁北克多词习语表达的理解
- 核心思路：从《魁北克表达词典》等权威来源 OCR 提取 4,633 条习语表达及其定义，通过 Azure OCR + 正则清洗 + 人工去重构建。任务为多选定义匹配。
- 设计动机：多词习语是方言文化的核心载体，其含义通常与组成词的字面意义无关
QFrCoRT（魁北克法语术语语料库）:
- 功能：评估 LLM 对魁北克单词级方言术语的理解
- 核心思路：从五个在线魁北克语言资源中手动提取 171 条方言词汇及定义，排除英语借词以确保测试纯方言理解。
- 设计动机：单词级方言术语补充了短语级评估，覆盖了不同粒度的方言理解能力
MFrCoE（标准法语表达语料库）:
- 功能：作为标准法语的对照基准，量化方言差距
- 核心思路：从《法国人最喜欢的 1001 个表达》等来源构建 4,938 条标准法语习语。与 QFrCoRE 保持相同的评估格式。
- 设计动机：只有同时评估标准和方言才能量化差距，而非仅报告方言绝对表现

使用 Zero-shot 分类任务，模型需从给定选项中选择习语的正确定义。比较每个模型在 MFrCoE vs QFrCoRE 上的准确率差异。

111 个 LLM 的方言差距分布：