Truth Knows No Language: Evaluating Truthfulness Beyond English¶

会议: ACL 2025
arXiv: 2502.09387
代码: github.com/hitz-zentroa/truthfulqa-multi
领域: 其他（多语言评估/真实性评估）
关键词: 真实性评估, TruthfulQA, 多语言, LLM-as-a-Judge, 低资源语言

一句话总结¶

构建首个专业翻译的多语言 TruthfulQA 基准（巴斯克语、加泰罗尼亚语、加利西亚语、西班牙语），发现 LLM 的跨语言真实性差异小于预期，且 LLM-as-a-Judge 比多选题指标更贴合人类判断。

研究背景与动机¶

TruthfulQA 是评估 LLM 真实性的标准基准，其核心思想是测试模型是否会模仿人类的错误信念和误解。然而该基准存在明显局限：

仅支持英语：尽管一些开发者已进行机器翻译，但缺乏专业翻译版本和系统的跨语言评估

评估方法争议：标准的多选题指标（MC2）是否足以衡量真实性存疑,尤其在非英语场景

文化偏向：TruthfulQA 有强烈的英语/美国文化背景，许多问题涉及美国法律、英语谚语等

这项工作的动机是：LLM 在不同语言中是否同样真实？如果英语中能避免某个误解，在巴斯克语中是否也能做到？

目标语言的选取也有考量： - 巴斯克语：黏着语孤立语，LLM 预训练数据极少 - 加泰罗尼亚语、加利西亚语：低资源罗曼语系语言 - 西班牙语：资源相对丰富的对照组

方法详解¶

整体框架¶

工作包含三个主要组件：

专业翻译数据集：将 TruthfulQA 的817个问题翻译为4种目标语言
三种评估方法：人工评估、MC2 多选题指标、LLM-as-a-Judge
机器翻译替代实验：验证机器翻译能否替代专业翻译

关键设计¶

翻译策略选择：团队面临两种选择：（1）本地化适配目标文化，（2）保留原文化语境。最终选择保留原文化语境以保持跨语言的完全平行性。具体翻译指南包括： - 谚语和误引：采用直译策略（如"每天一个苹果"直接翻译） - 缩写词误解：保留英语原词并在问题中标注"in English" - 虚构命名实体：使用已有翻译（如电影角色名），无翻译时从英语借用 - 所有翻译由目标语言母语者的专业翻译人员完成

人工评估设计： - 评估400个回答（4个模型 × 100个问题），涵盖真实性和信息量 - 采用二值标签（真实/不真实、有信息/无信息），而非原论文的标量评分 - 新增针对指令微调模型的附加指南：长回答中额外信息需由评估者核实 - 使用50个重叠标注计算评估者间信度

LLM-as-a-Judge 训练： - 基础模型：Llama 2 7B（已有微调版）、Gemma 2 9B、Llama 3.1 8B - 训练数据：英语原始数据 vs. 包含机器翻译的全语言数据 - 最佳配置：Gemma 2 9B instruct + 全语言翻译数据 - 信息量评判模型单独训练，但仅对基座模型有效（因指令模型几乎没有无信息回答）

MC2 指标： - 衡量真实答案的总似然度占所有参考答案的归一化比例 - 使用 LM Evaluation Harness，6-shot 设置 - 指令模型使用多轮对话格式

损失函数 / 训练策略¶

LLM-as-a-Judge 的训练使用学习率 0.01，训练 5 个 epoch。核心是对 (问题, 回答) 对进行真实性二分类。

实验关键数据¶

主实验¶

人工评估结果（100个样本/模型/语言的真实性百分比）：

模型	英语	西语	加泰	加利	巴斯克
Gemma-2-27b-it	73%	73%	71%	72%	62%
Llama-3-70B-IT	67%	70%	62%	58%	48%
Llama-3-8B-IT	67%	61%	63%	51%	34%
Llama-3-70B（base）	36%	58%	58%	60%	54%

关键观察： - 指令模型通常英语最好，巴斯克语最差，但差异小于预期 - 基座 Llama-3-70B 在英语上真实性最低（36%），但在其他语言上更高——因为英语时更"有信息"但容易模仿错误信念 - 信息量方面，基座模型在非英语中经常产生无信息回答

Judge-LLM 与 MC2 的人类判断相关性（Cohen Kappa）：

方法	英语	西语	加泰	加利	巴斯克
MC2	~0.3	~0.2	~0.2	~0.2	~0.1
Judge-LLM（最佳）	0.74	0.70	0.75	0.72	0.60
人工间一致性	~0.75	~0.72	~0.70	~0.70	~0.65

关键结果：Judge-LLM 与人类判断的一致性远高于 MC2，且接近人类评估者之间的一致性。

Judge-LLM 完整评估（12个模型 × 5语言）： - Gemma-2-27b-it 在所有语言上均表现最佳（平均约 61%） - 指令模型平均约 57%，基座模型平均约 46% - 语言间差异：英语（~50-58%）> 西语 ≈ 加利 > 加泰 > 巴斯克

消融实验¶

机器翻译 vs. 专业翻译： - 使用 Claude 3.5 Sonnet 自动翻译 TruthfulQA - 以专业翻译为参考，MT 翻译质量高（巴斯克语稍低，因黏着语特性） - 使用 MT 版本训练的 Judge-LLM 与专业翻译版本效果相当 - 结论：机器翻译是扩展真实性基准到更多语言的可行替代方案

通用 vs. 语境依赖问题： - 将 TruthfulQA 问题分为"通用知识"（如变色龙变色原因）和"语境/时间依赖"（如美国法律） - 通用知识问题在所有语言上表现更一致 - 语境依赖问题的跨语言差异更大，更适合评估多语言真实性

关键发现¶

LLM 的跨语言真实性差异比预期小得多——即使在巴斯克语（最低资源）中，性能下降也有限
MC2 作为真实性评估的唯一指标是不充分的，LLM-as-a-Judge 是更可靠的替代
信息量是真实性评估中的关键因素——基座模型常产生无信息回答，若不考虑信息量会扭曲评估结果
更大的 LLM 通常比同家族小模型更真实，与 Lin et al. (2022) 的早期发现相反
定性分析显示英语回答在推理深度上仍显著领先

亮点与洞察¶

首个专业翻译：避免了机器翻译可能引入的系统性偏差，为后续研究提供可靠基线
评估方法的深入比较：系统对比人工评估、MC2、Judge-LLM，用 Cohen Kappa 量化相关性
基座模型的反直觉现象：英语真实性低于其他语言，因为模型在英语中更"自信"地模仿错误信念
实用发现：机器翻译可作为专业翻译的可行替代，极大降低了多语言基准构建成本
文化与时间依赖的维度：强调真实性评估应区分通用知识和语境依赖知识

局限与展望¶

TruthfulQA 本身是高度英美中心的——即使专业翻译也无法改变问题的文化背景
仅覆盖4种目标语言（西班牙语、加泰罗尼亚语、加利西亚语、巴斯克语），需扩展到更多语言家族
信息量评估仅对基座模型有效，指令模型缺乏无信息回答使训练不足
人工评估的样本量有限（100题 × 4模型 × 5语言 = 2000个评判）
未探索不同语言的"文化特定误解"——不同文化可能有不同的错误信念

评分¶

创新性：⭐⭐⭐ — 核心贡献是高质量翻译和系统评估，方法论创新有限
实用性：⭐⭐⭐⭐ — 为多语言真实性评估提供了重要基准和方法指导
实验充分性：⭐⭐⭐⭐⭐ — 12个模型 × 5语言 × 3评估方法，加人工评估和 IAA 分析
写作质量：⭐⭐⭐⭐ — 结构清晰，翻译指南和评估方法论阐述详尽