跳转至

LLM as a Broken Telephone: Iterative Generation Distorts Information

会议: ACL 2025
arXiv: 2502.20258
代码: https://github.com/amr-mohamedd/LLM-as-a-Broken-Telephone
领域: 文本生成
关键词: 迭代生成, 信息失真, 翻译链, 模型坍缩, 事实性退化

一句话总结

类比"传话游戏"研究 LLM 在迭代生成中的信息失真现象,通过多语言翻译链实验发现:信息失真随迭代累积,受中间语言选择和链复杂度影响,可通过温度控制和受限提示缓解但无法消除。

研究背景与动机

  1. 领域现状:LLM 生成的内容日益成为互联网信息的重要来源,这些内容又可能被其他 LLM 进一步处理——形成迭代生成链。
  2. 现有痛点:(a) 模型坍缩(model collapse)研究关注迭代训练,但迭代推理中的信息退化研究较少;(b) 多智能体协作框架隐含假设迭代交互能保持信息保真度,但这一假设未经验证。
  3. 核心矛盾:每次 LLM 处理都会引入微小偏差(改写、省略、幻觉),单次偏差可忽略,但迭代数十上百次后偏差会累积到何种程度?
  4. 本文要解决什么? 量化 LLM 在迭代生成(以翻译为代表任务)中的信息失真程度和规律。
  5. 切入角度:翻译是理想的测试场景——每次迭代有明确的输入输出,可以与原文精确对比;且模拟了跨语言新闻传播等真实场景。
  6. 核心idea一句话:LLM 在迭代生成中扮演"坏掉的电话",信息逐渐偏离原始语义和事实。

方法详解

整体框架

设计三种实验设置:(1) 双语自循环——单模型在英语↔中间语言间反复翻译;(2) 双语双玩家——两个不同模型在同一链中协作翻译;(3) 多语多玩家——多语言多模型的复杂链。每种设置迭代 100 步,用 BERTScore、ROUGE、FActScore 等指标追踪退化。

关键设计

  1. 翻译链建模:
  2. 做什么:形式化迭代翻译过程
  3. 核心思路:每次迭代将英语→中间语言→英语,得到与原文对比的版本。测试 6 种中间语言(法语/德语/阿拉伯语/中文/日语/泰语)
  4. 设计动机:不同语言在 LLM 训练数据中的占比不同、与英语的语言距离也不同,这些因素如何影响失真?

  5. 事实性追踪:

  6. 做什么:量化每次迭代后的事实性变化
  7. 核心思路:用 FActScore 将文本分解为原子事实,对每个事实检查是否仍然准确
  8. 关键发现:FActScore 的梯度(每步退化率)在泰语链中是法语链的 3-4 倍

  9. 缓解策略:

  10. 温度控制: 降低采样温度减少随机性
  11. 受限提示: 明确要求"不要添加或删除任何信息"
  12. 效果:可减缓但无法消除退化

损失函数 / 训练策略

  • 无需训练——纯推理时分析
  • 模型:Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.3
  • 数据集:BBC 新闻、News2024、ScriptBase-alpha

实验关键数据

主实验(FActScore 平均梯度,News2024)

模型 中间语言 FActScore梯度/步 说明
Llama 法语 -0.005 退化最慢(语言最近/训练数据最多)
Llama 泰语 -0.018 退化最快(语言最远/训练数据最少)
Mistral 法语 -0.011 Mistral 总体退化更快
Mistral 泰语 -0.038 退化最严重

关键发现

  • 100次迭代后,泰语链的文本与原文几乎完全不同——事实内容严重扭曲(如Table 1: lorry→bus→small car, fined→compensation)
  • 语言相似度+训练数据量共同决定退化速度——法/德最慢,泰/日最快
  • 链复杂度(多语言多模型)显著加速退化——不是简单叠加而是倍增效应
  • Mistral 的退化速度约为 Llama 的 2 倍——模型品质很重要
  • 改写(rephrasing)也存在类似退化,但程度轻于翻译
  • 文本长度可能随迭代增加或减少——取决于语言和模型

亮点与洞察

  • "传话游戏"隐喻精准捕捉了核心现象——易于理解且引发对 AI 信息传播可靠性的深层思考。
  • 为多智能体系统敲响警钟——如果每次 agent 交互都引入失真,长链协作(如 AutoGen、MetaGPT 等框架)的可靠性堪忧。
  • 对模型坍缩的补充——Shumailov et al. 关注迭代训练的分布退化,本文关注迭代推理的信息退化,两者共同构成 AI 信息退化的完整图景。
  • 量化分析为设计"抗失真"系统提供了指导——如选择高资源语言作为中间语言,控制低温采样,使用受限提示。
  • Table 1 的退化实例(lorry→bus→small car, fined→compensation)生动展示了信息如何逐步偏移。

局限性 / 可改进方向

  • 仅用 7-8B 模型(Llama-3.1-8B, Mistral-7B),更大模型(GPT-4o、Claude-3.5)是否更抗失真未知
  • 翻译是特定任务,其他迭代场景(如多轮对话、迭代改进代码)的失真模式可能不同
  • FActScore 依赖事实分解的准确性,分解本身可能引入误差
  • 未探索更长文本(如整篇文档)的退化速率
  • 缓解策略(温度控制+受限提示)效果有限且不根本——需要更本质的解决方案(如信息锚定机制)

相关工作与启发

  • vs Shumailov et al. (模型坍缩): 他们关注迭代训练导致的分布退化(模型自己训练自己的输出会丢失长尾信息),本文关注迭代推理导致的信息退化——互补视角,共同构成 AI 信息退化的完整图景
  • vs Perez et al. (2024): 之前研究了改写/续写/灵感获取的迭代效果,但忽略了翻译——翻译因语言对的结构差异更容易放大失真;且仅用单模型链,本文扩展到多模型异构链
  • vs 多智能体辩论(Park et al., 2023 等): 辩论框架依赖迭代交互提升质量,但本文发现迭代交互反而可能降低信息质量——这对多智能体系统的设计假设提出了挑战
  • 该研究呼应了"知识坍缩"(knowledge collapse)的概念——Peterson (2024) 定义的现象在本文中得到了推理层面的验证
  • 对跨语言新闻传播、多语言信息链等真实场景有直接警示作用

评分

  • 新颖性: ⭐⭐⭐⭐ "传话游戏"类比新颖,多语言翻译链设计巧妙
  • 实验充分度: ⭐⭐⭐⭐ 三种实验设置+多语言+多指标,分析深入
  • 写作质量: ⭐⭐⭐⭐ 形式化清晰,实验描述详细
  • 价值: ⭐⭐⭐⭐ 对 AI 信息可靠性的重要警示

技术细节补充

  • 三种翻译链设置:双语自循环、双语双玩家(两模型)、多语多玩家(复杂链)
  • 数据集:BBC新闻(编辑文本)、News2024(时事)、ScriptBase-alpha(剧本)
  • 每条链迭代100步,每步EN->中间语->EN,用BERTScore/ROUGE/FActScore追踪
  • FActScore梯度是核心量化指标:泰语链约为法语链的3-4倍
  • Table 1退化实例:lorry->bus->small car, fined->compensation
  • Mistral退化速度约为Llama的2倍,模型品质影响抗失真能力

技术细节补充

  • 三种翻译链设置:双语自循环、双语双玩家(两模型)、多语多玩家(复杂链)
  • 数据集:BBC新闻(编辑文本)、News2024(时事)、ScriptBase-alpha(剧本)
  • 每条链迭代100步,每步EN->中间语->EN,用BERTScore/ROUGE/FActScore追踪
  • FActScore梯度是核心量化指标:泰语链约为法语链的3-4倍
  • Table 1退化实例:lorry->bus->small car, fined->compensation
  • Mistral退化速度约为Llama的2倍,模型品质影响抗失真能力