LLM as a Broken Telephone: Iterative Generation Distorts Information¶
会议: ACL 2025
arXiv: 2502.20258
代码: https://github.com/amr-mohamedd/LLM-as-a-Broken-Telephone
领域: 文本生成
关键词: 迭代生成, 信息失真, 翻译链, 模型坍缩, 事实性退化
一句话总结¶
类比"传话游戏"研究 LLM 在迭代生成中的信息失真现象,通过多语言翻译链实验发现:信息失真随迭代累积,受中间语言选择和链复杂度影响,可通过温度控制和受限提示缓解但无法消除。
研究背景与动机¶
- 领域现状:LLM 生成的内容日益成为互联网信息的重要来源,这些内容又可能被其他 LLM 进一步处理——形成迭代生成链。
- 现有痛点:(a) 模型坍缩(model collapse)研究关注迭代训练,但迭代推理中的信息退化研究较少;(b) 多智能体协作框架隐含假设迭代交互能保持信息保真度,但这一假设未经验证。
- 核心矛盾:每次 LLM 处理都会引入微小偏差(改写、省略、幻觉),单次偏差可忽略,但迭代数十上百次后偏差会累积到何种程度?
- 本文要解决什么? 量化 LLM 在迭代生成(以翻译为代表任务)中的信息失真程度和规律。
- 切入角度:翻译是理想的测试场景——每次迭代有明确的输入输出,可以与原文精确对比;且模拟了跨语言新闻传播等真实场景。
- 核心idea一句话:LLM 在迭代生成中扮演"坏掉的电话",信息逐渐偏离原始语义和事实。
方法详解¶
整体框架¶
设计三种实验设置:(1) 双语自循环——单模型在英语↔中间语言间反复翻译;(2) 双语双玩家——两个不同模型在同一链中协作翻译;(3) 多语多玩家——多语言多模型的复杂链。每种设置迭代 100 步,用 BERTScore、ROUGE、FActScore 等指标追踪退化。
关键设计¶
- 翻译链建模:
- 做什么:形式化迭代翻译过程
- 核心思路:每次迭代将英语→中间语言→英语,得到与原文对比的版本。测试 6 种中间语言(法语/德语/阿拉伯语/中文/日语/泰语)
-
设计动机:不同语言在 LLM 训练数据中的占比不同、与英语的语言距离也不同,这些因素如何影响失真?
-
事实性追踪:
- 做什么:量化每次迭代后的事实性变化
- 核心思路:用 FActScore 将文本分解为原子事实,对每个事实检查是否仍然准确
-
关键发现:FActScore 的梯度(每步退化率)在泰语链中是法语链的 3-4 倍
-
缓解策略:
- 温度控制: 降低采样温度减少随机性
- 受限提示: 明确要求"不要添加或删除任何信息"
- 效果:可减缓但无法消除退化
损失函数 / 训练策略¶
- 无需训练——纯推理时分析
- 模型:Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.3
- 数据集:BBC 新闻、News2024、ScriptBase-alpha
实验关键数据¶
主实验(FActScore 平均梯度,News2024)¶
| 模型 | 中间语言 | FActScore梯度/步 | 说明 |
|---|---|---|---|
| Llama | 法语 | -0.005 | 退化最慢(语言最近/训练数据最多) |
| Llama | 泰语 | -0.018 | 退化最快(语言最远/训练数据最少) |
| Mistral | 法语 | -0.011 | Mistral 总体退化更快 |
| Mistral | 泰语 | -0.038 | 退化最严重 |
关键发现¶
- 100次迭代后,泰语链的文本与原文几乎完全不同——事实内容严重扭曲(如Table 1: lorry→bus→small car, fined→compensation)
- 语言相似度+训练数据量共同决定退化速度——法/德最慢,泰/日最快
- 链复杂度(多语言多模型)显著加速退化——不是简单叠加而是倍增效应
- Mistral 的退化速度约为 Llama 的 2 倍——模型品质很重要
- 改写(rephrasing)也存在类似退化,但程度轻于翻译
- 文本长度可能随迭代增加或减少——取决于语言和模型
亮点与洞察¶
- "传话游戏"隐喻精准捕捉了核心现象——易于理解且引发对 AI 信息传播可靠性的深层思考。
- 为多智能体系统敲响警钟——如果每次 agent 交互都引入失真,长链协作(如 AutoGen、MetaGPT 等框架)的可靠性堪忧。
- 对模型坍缩的补充——Shumailov et al. 关注迭代训练的分布退化,本文关注迭代推理的信息退化,两者共同构成 AI 信息退化的完整图景。
- 量化分析为设计"抗失真"系统提供了指导——如选择高资源语言作为中间语言,控制低温采样,使用受限提示。
- Table 1 的退化实例(lorry→bus→small car, fined→compensation)生动展示了信息如何逐步偏移。
局限性 / 可改进方向¶
- 仅用 7-8B 模型(Llama-3.1-8B, Mistral-7B),更大模型(GPT-4o、Claude-3.5)是否更抗失真未知
- 翻译是特定任务,其他迭代场景(如多轮对话、迭代改进代码)的失真模式可能不同
- FActScore 依赖事实分解的准确性,分解本身可能引入误差
- 未探索更长文本(如整篇文档)的退化速率
- 缓解策略(温度控制+受限提示)效果有限且不根本——需要更本质的解决方案(如信息锚定机制)
相关工作与启发¶
- vs Shumailov et al. (模型坍缩): 他们关注迭代训练导致的分布退化(模型自己训练自己的输出会丢失长尾信息),本文关注迭代推理导致的信息退化——互补视角,共同构成 AI 信息退化的完整图景
- vs Perez et al. (2024): 之前研究了改写/续写/灵感获取的迭代效果,但忽略了翻译——翻译因语言对的结构差异更容易放大失真;且仅用单模型链,本文扩展到多模型异构链
- vs 多智能体辩论(Park et al., 2023 等): 辩论框架依赖迭代交互提升质量,但本文发现迭代交互反而可能降低信息质量——这对多智能体系统的设计假设提出了挑战
- 该研究呼应了"知识坍缩"(knowledge collapse)的概念——Peterson (2024) 定义的现象在本文中得到了推理层面的验证
- 对跨语言新闻传播、多语言信息链等真实场景有直接警示作用
评分¶
- 新颖性: ⭐⭐⭐⭐ "传话游戏"类比新颖,多语言翻译链设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 三种实验设置+多语言+多指标,分析深入
- 写作质量: ⭐⭐⭐⭐ 形式化清晰,实验描述详细
- 价值: ⭐⭐⭐⭐ 对 AI 信息可靠性的重要警示
技术细节补充¶
- 三种翻译链设置:双语自循环、双语双玩家(两模型)、多语多玩家(复杂链)
- 数据集:BBC新闻(编辑文本)、News2024(时事)、ScriptBase-alpha(剧本)
- 每条链迭代100步,每步EN->中间语->EN,用BERTScore/ROUGE/FActScore追踪
- FActScore梯度是核心量化指标:泰语链约为法语链的3-4倍
- Table 1退化实例:lorry->bus->small car, fined->compensation
- Mistral退化速度约为Llama的2倍,模型品质影响抗失真能力
技术细节补充¶
- 三种翻译链设置:双语自循环、双语双玩家(两模型)、多语多玩家(复杂链)
- 数据集:BBC新闻(编辑文本)、News2024(时事)、ScriptBase-alpha(剧本)
- 每条链迭代100步,每步EN->中间语->EN,用BERTScore/ROUGE/FActScore追踪
- FActScore梯度是核心量化指标:泰语链约为法语链的3-4倍
- Table 1退化实例:lorry->bus->small car, fined->compensation
- Mistral退化速度约为Llama的2倍,模型品质影响抗失真能力