跳转至

Textual Equilibrium Propagation for Deep Compound AI Systems

会议: ICLR 2026
arXiv: 2601.21064
代码: 未公开
领域: 模型压缩 / 复合AI系统优化
关键词: 复合AI系统, 文本梯度, 平衡传播, 提示优化, 多智能体工作流

一句话总结

提出文本平衡传播(TEP),一种基于局部学习原理的复合AI系统优化方法,通过自由阶段和微扰阶段的两阶段设计,避免全局文本反向传播中的梯度爆炸/消失问题,在深层工作流上显著优于 TextGrad。

研究背景与动机

现代复合AI系统由多个模块(检索器、工具、验证器等)协同工作,需要对整个管道进行端到端优化。TextGrad 开创了"通过文本的自动微分",通过LLM-as-judge将文本反馈从下游反向传播到上游以更新提示。

然而,随着系统深度增加,TextGrad 面临两个关键失败模式:

文本梯度爆炸:反馈在各层累积,消息长度指数增长(\(\mathbb{E}[B(g_u)] \geq c\gamma^k, \gamma > 1\)),最终超出LLM的上下文窗口,且LLM-as-judge偏差在链中复合放大

文本梯度消失:为控制长度而压缩反馈时,具体可操作信息逐步丢失(\(\mathbb{E}[S(g_u)] \leq C\alpha^k, \alpha \in (0,1)\)),上游模块收到的反馈变为泛泛的"提高效率"等无用建议

这两个问题的根本原因是全局文本反向传播在深度复合AI系统中不可扩展。

方法详解

整体框架

TEP 将复合AI系统建模为随机计算图(SCG)\(G=(V,E)\),其中节点为LLM智能体,边表示数据流。优化目标为:

\[J(\theta) = \mathbb{E}_{o \sim D_{\text{task}}} \mathbb{E}_{Z \sim P_\theta(\cdot | o)} [\ell(o, Z)]\]

TEP 采用受能量基模型中平衡传播启发的两阶段优化策略:

关键设计1:自由阶段(Free Phase)

每个节点 \(v\) 配备局部LLM评论者,使用结构化评分标准 \(\theta_v^{\text{critic}}\) 和可调温度参数 \(\theta_v^{\text{temp}} \sim \mathcal{U}(0.3, 0.9)\)。评论者仅对本节点输出生成反馈 \(g_v = C(z_v, \theta_v^{\text{critic}})\)不依赖下游梯度 \(g'\)

迭代优化直到评分稳定——即达到局部"平衡态" \(x_\star^0(\theta)\),此时评论者认为无需进一步改进。

关键设计2:微扰阶段(Nudged Phase)

在自由平衡的基础上,对每个节点施加有界的最小提示编辑,编辑方向由任务级目标通过前向信号(而非反向反馈链)指导。微扰强度受限,确保不破坏自由阶段已达到的局部最优。

系统再次运行并迭代直到达到微扰平衡态,与自由平衡态不同。

局部更新规则

\[\theta_v' = U_v(g_v^f, g_v^n, \theta_v)\]

其中 \(g_v^f\)\(g_v^n\) 分别是自由阶段和微扰阶段的反馈信号,\(U_v\) 是LLM定义的更新算子。每次更新都进行验证集选择,仅保留不降低性能的编辑。

损失函数

TEP 不使用显式数值损失函数,而是通过LLM评论者的文本评分和验证集表现来隐式优化。核心约束是: - 反馈长度有界:\(B(g) \ll \text{context limit}\) - 反馈质量保持:\(S(g) \geq \tau\)

实验关键数据

主实验结果

方法 PubMedQA (Acc.) STARK-PRIME (MRR) HotpotQA (F1) BigCodeBench (Pass)
CoT 57.34±1.12 39.76±0.84 33.92±0.76 34.15±1.43
DSPy 60.26±0.40 41.40±0.04 44.90±0.32 33.81±2.75
TextGrad 56.96±2.24 41.31±1.67 24.86±1.19 35.71±0.10
TextGrad+Sum 56.12±1.85 40.72±1.21 24.12±1.25 35.12±0.67
TEP 62.02±1.31 42.72±0.65 48.72±1.32 38.97±0.39

TEP 在所有4个任务上均取得最佳,在HotpotQA上较次优方法提升8.1%,在BigCodeBench上提升3.4%。

消融实验

配置 HotpotQA F1 BigCodeBench Pass@1
Full TEP 48.72 38.97
去掉微扰阶段 22.3 (-26.4) 大幅下降
去掉自由阶段 36.8 (-11.9) 36.3 (-2.7)

去掉微扰阶段导致严重退化(HotpotQA下降26.4个点),说明纯局部平衡不足以实现系统级协调。去掉自由阶段也影响显著,因为它提供了有效微扰的高质量起点。

关键发现

  • 深度扩展实验:TextGrad的反馈token数从scale=1时的2K增长到scale=5时的32K+(约\(2.2^s\)指数增长);TEP保持几乎恒定的token复杂度
  • 有效更新率:TextGrad+Sum的有效更新率从36%降至5%,TEP仅从37%缓降至33%
  • 解优化:在GPQA上TEP达44.5%(TextGrad为41.0%),在Object Counting上达81.6%(TextGrad为74.2%)

亮点与洞察

  1. 精确类比:将深度神经网络的梯度问题映射到复合AI系统的文本反馈问题,提出了严格的形式化定义(文本梯度爆炸和消失)
  2. 生物启发:从能量基模型的平衡传播借鉴思想到文本空间,是跨领域方法迁移的优秀案例
  3. 实用性强:保持黑盒LLM组件的模块化设计,无需访问模型参数,适用于任何LLM组合
  4. 优势随深度增大:与TextGrad相反,TEP的优势随工作流深度增加而扩大

局限性

  • 自由阶段的20次迭代和微扰阶段的40次迭代带来额外计算成本
  • 局部评论者的评分标准需要人工设计,不同任务可能需要不同的rubric
  • 仅在固定SCG结构上验证,未探索动态图优化
  • 微扰强度的超参数选择缺乏自动化方法

相关工作

  • TextGrad (Yuksekgonul et al., 2025):全局文本反向传播的先驱
  • DSPy (Khattab et al., 2024):程序化提示编译框架
  • OPTIMAS (Wu et al., 2025):局部训练奖励但需参数微调
  • Self-Refine (Madaan et al., 2023):迭代自我改进
  • Equilibrium Propagation (Scellier & Bengio, 2017):能量基模型的局部学习原理

评分

  • 新颖性:⭐⭐⭐⭐(平衡传播→文本空间的创新类比)
  • 理论性:⭐⭐⭐⭐(严格定义了文本梯度的失败模式并证明收敛性)
  • 实验:⭐⭐⭐⭐(4个基准+深度扩展分析+消融研究)
  • 实用性:⭐⭐⭐⭐(模型无关,适用于任意LLM管道)

相关论文