跳转至

📚 AI Paper Notes

LLM as a Broken Telephone: Iterative Generation Distorts Information

LLM as a Broken Telephone: Iterative Generation Distorts Information¶

会议: ACL 2025
arXiv: 2502.20258
代码: https://github.com/amr-mohamedd/LLM-as-a-Broken-Telephone
领域: 文本生成
关键词: 迭代生成, 信息失真, 翻译链, 模型坍缩, 事实性退化

一句话总结¶

类比"传话游戏"研究 LLM 在迭代生成中的信息失真现象，通过多语言翻译链实验发现：信息失真随迭代累积，受中间语言选择和链复杂度影响，可通过温度控制和受限提示缓解但无法消除。

研究背景与动机¶

领域现状：LLM 生成的内容日益成为互联网信息的重要来源，这些内容又可能被其他 LLM 进一步处理——形成迭代生成链。
现有痛点：(a) 模型坍缩（model collapse）研究关注迭代训练，但迭代推理中的信息退化研究较少；(b) 多智能体协作框架隐含假设迭代交互能保持信息保真度，但这一假设未经验证。
核心矛盾：每次 LLM 处理都会引入微小偏差（改写、省略、幻觉），单次偏差可忽略，但迭代数十上百次后偏差会累积到何种程度？
本文要解决什么？ 量化 LLM 在迭代生成（以翻译为代表任务）中的信息失真程度和规律。
切入角度：翻译是理想的测试场景——每次迭代有明确的输入输出，可以与原文精确对比；且模拟了跨语言新闻传播等真实场景。
核心idea一句话：LLM 在迭代生成中扮演"坏掉的电话"，信息逐渐偏离原始语义和事实。

方法详解¶

整体框架¶

设计三种实验设置：(1) 双语自循环——单模型在英语↔中间语言间反复翻译；(2) 双语双玩家——两个不同模型在同一链中协作翻译；(3) 多语多玩家——多语言多模型的复杂链。每种设置迭代 100 步，用 BERTScore、ROUGE、FActScore 等指标追踪退化。

关键设计¶

翻译链建模:
做什么：形式化迭代翻译过程
核心思路：每次迭代将英语→中间语言→英语，得到与原文对比的版本。测试 6 种中间语言（法语/德语/阿拉伯语/中文/日语/泰语）
设计动机：不同语言在 LLM 训练数据中的占比不同、与英语的语言距离也不同，这些因素如何影响失真？
事实性追踪:
做什么：量化每次迭代后的事实性变化
核心思路：用 FActScore 将文本分解为原子事实，对每个事实检查是否仍然准确
关键发现：FActScore 的梯度（每步退化率）在泰语链中是法语链的 3-4 倍
缓解策略:
温度控制: 降低采样温度减少随机性
受限提示: 明确要求"不要添加或删除任何信息"
效果：可减缓但无法消除退化

损失函数 / 训练策略¶

无需训练——纯推理时分析
模型：Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.3
数据集：BBC 新闻、News2024、ScriptBase-alpha

实验关键数据¶

主实验（FActScore 平均梯度，News2024）¶

模型	中间语言	FActScore梯度/步	说明
Llama	法语	-0.005	退化最慢（语言最近/训练数据最多）
Llama	泰语	-0.018	退化最快（语言最远/训练数据最少）
Mistral	法语	-0.011	Mistral 总体退化更快
Mistral	泰语	-0.038	退化最严重

关键发现¶

100次迭代后，泰语链的文本与原文几乎完全不同——事实内容严重扭曲（如Table 1: lorry→bus→small car, fined→compensation）
语言相似度+训练数据量共同决定退化速度——法/德最慢，泰/日最快
链复杂度（多语言多模型）显著加速退化——不是简单叠加而是倍增效应
Mistral 的退化速度约为 Llama 的 2 倍——模型品质很重要
改写（rephrasing）也存在类似退化，但程度轻于翻译
文本长度可能随迭代增加或减少——取决于语言和模型

亮点与洞察¶

"传话游戏"隐喻精准捕捉了核心现象——易于理解且引发对 AI 信息传播可靠性的深层思考。
为多智能体系统敲响警钟——如果每次 agent 交互都引入失真，长链协作（如 AutoGen、MetaGPT 等框架）的可靠性堪忧。
对模型坍缩的补充——Shumailov et al. 关注迭代训练的分布退化，本文关注迭代推理的信息退化，两者共同构成 AI 信息退化的完整图景。
量化分析为设计"抗失真"系统提供了指导——如选择高资源语言作为中间语言，控制低温采样，使用受限提示。
Table 1 的退化实例（lorry→bus→small car, fined→compensation）生动展示了信息如何逐步偏移。

局限性 / 可改进方向¶

仅用 7-8B 模型（Llama-3.1-8B, Mistral-7B），更大模型（GPT-4o、Claude-3.5）是否更抗失真未知
翻译是特定任务，其他迭代场景（如多轮对话、迭代改进代码）的失真模式可能不同
FActScore 依赖事实分解的准确性，分解本身可能引入误差
未探索更长文本（如整篇文档）的退化速率
缓解策略（温度控制+受限提示）效果有限且不根本——需要更本质的解决方案（如信息锚定机制）

相关工作与启发¶

vs Shumailov et al. (模型坍缩): 他们关注迭代训练导致的分布退化（模型自己训练自己的输出会丢失长尾信息），本文关注迭代推理导致的信息退化——互补视角，共同构成 AI 信息退化的完整图景
vs Perez et al. (2024): 之前研究了改写/续写/灵感获取的迭代效果，但忽略了翻译——翻译因语言对的结构差异更容易放大失真；且仅用单模型链，本文扩展到多模型异构链
vs 多智能体辩论（Park et al., 2023 等）: 辩论框架依赖迭代交互提升质量，但本文发现迭代交互反而可能降低信息质量——这对多智能体系统的设计假设提出了挑战
该研究呼应了"知识坍缩"（knowledge collapse）的概念——Peterson (2024) 定义的现象在本文中得到了推理层面的验证
对跨语言新闻传播、多语言信息链等真实场景有直接警示作用

评分¶

新颖性: ⭐⭐⭐⭐ "传话游戏"类比新颖，多语言翻译链设计巧妙
实验充分度: ⭐⭐⭐⭐ 三种实验设置+多语言+多指标，分析深入
写作质量: ⭐⭐⭐⭐ 形式化清晰，实验描述详细
价值: ⭐⭐⭐⭐ 对 AI 信息可靠性的重要警示

技术细节补充¶

三种翻译链设置:双语自循环、双语双玩家(两模型)、多语多玩家(复杂链)
数据集:BBC新闻(编辑文本)、News2024(时事)、ScriptBase-alpha(剧本)
每条链迭代100步,每步EN->中间语->EN,用BERTScore/ROUGE/FActScore追踪
FActScore梯度是核心量化指标:泰语链约为法语链的3-4倍
Table 1退化实例:lorry->bus->small car, fined->compensation
Mistral退化速度约为Llama的2倍,模型品质影响抗失真能力

技术细节补充¶

三种翻译链设置:双语自循环、双语双玩家(两模型)、多语多玩家(复杂链)
数据集:BBC新闻(编辑文本)、News2024(时事)、ScriptBase-alpha(剧本)
每条链迭代100步,每步EN->中间语->EN,用BERTScore/ROUGE/FActScore追踪
FActScore梯度是核心量化指标:泰语链约为法语链的3-4倍
Table 1退化实例:lorry->bus->small car, fined->compensation
Mistral退化速度约为Llama的2倍,模型品质影响抗失真能力