跳转至

Aligning Compound AI Systems via System-level DPO

会议: NeurIPS 2025
arXiv: 2502.17721
代码: GitHub
领域: LLM对齐 / 复合AI系统
关键词: compound AI system, DPO, system alignment, DAG, multi-component optimization

一句话总结

将复合 AI 系统建模为 DAG,提出 SysDPO 框架将 DPO 扩展到多组件联合对齐,通过 DAG 分解将系统级偏好转化为可端到端优化的损失函数,理论证明了 β-完美对齐保证,在 LLM+扩散模型和 LLM+LLM 系统上显著提升协作质量。

研究背景与动机

  1. 领域现状:复合 AI 系统(多个 AI 组件交互)已成为主流——ChatGPT 由 LLM+DALL-E+浏览器组成,RAG 系统结合检索和生成,多 Agent 系统由多个 LLM 协作。对齐单个模型的方法(DPO、RLHF)已很成熟。

  2. 现有痛点:复合系统的对齐面临三大挑战:(a) 不可微交互——组件间通过自然语言等不可微通道通信,无法端到端梯度优化;(b) 偏好不可分解——系统级偏好不能简单分解为组件级偏好(整体好≠每个组件好);(c) 缺乏细粒度基准——偏好标注只在最终输出上。例如 GPT-4+DALL-E 生成"渐进愤怒的猫"时,虽然各组件单独工作正确,但协作结果不一致。

  3. 核心矛盾:系统级偏好信号需要反向传播到各组件,但组件间的不可微交互阻断了梯度流。

  4. 本文要解决什么?

  5. 如何将系统级偏好优化分解为可对各组件端到端优化的形式?
  6. 这种分解是否保证理论上的对齐正确性?

  7. 切入角度:将复合系统建模为 DAG(有向无环图),利用 DAG 的条件独立性将系统联合概率分解为各组件条件概率的乘积,从而将系统级 DPO 损失分解为可优化的形式。

  8. 核心 idea 一句话:DAG 分解让系统级 DPO 的 log-likelihood 变成各组件 log-likelihood 之和,绕过不可微交互实现端到端优化。

方法详解

整体框架

SysDPO 框架分三步:(1) 将复合 AI 系统建模为 DAG,节点是变量(输入 \(x\)、中间输出 \(y_i\)、最终输出 \(z_j\)),边是信息流;(2) 利用 DAG 的条件独立性分解系统概率 \(p_\theta(s|x) = \prod p_{\theta_k}(v_k | \text{Pa}(v_k))\);(3) 将分解后的概率代入 DPO 损失,得到可对各组件分别计算梯度的端到端优化目标。

关键设计

  1. DAG 建模复合系统
  2. 做什么:将复合系统的组件交互和数据流显式建模。
  3. 核心思路:每个非输入节点由单个模型生成,仅依赖其父节点。例如 LLM+扩散模型系统:\(x \xrightarrow{\theta_1} y_1,y_2,y_3 \xrightarrow{\theta_2} z_1,z_2,z_3\),概率分解为 \(p(s|x) = \prod_{i=1}^3 p_{\theta_1}(y_i|x) \cdot p_{\theta_2}(z_i|y_i)\)
  4. 设计动机:DAG 的条件独立性允许将联合概率分解为乘积,log 后变为加法——每一项只涉及单个模型的参数,绕过了不可微交互问题。

  5. SysDPO-Direct(中间输出可观测时)

  6. 做什么:当偏好数据集包含中间输出时,直接优化。
  7. 核心思路:构建系统级偏好数据 \((x, s^w, s^l)\),其中 \(s = \{y_i, z_j\}\) 包含所有中间和最终输出。DPO 损失直接使用 DAG 分解后的概率:\(L_{\text{Direct}}(\theta) = -\mathbb{E}[\log \sigma(\beta \log \frac{p_\theta(s^w|x)}{p_{\bar\theta}(s^w|x)} - \beta \log \frac{p_\theta(s^l|x)}{p_{\bar\theta}(s^l|x)})]\)。由于 \(\log p_\theta(s|x) = \sum \log p_{\theta_k}(v_k|\text{Pa}(v_k))\),梯度自然分配到各组件。
  8. 设计动机:最直接的方式,但需要系统特定的数据集(包含中间输出)。

  9. SysDPO-Sampling(仅最终输出可观测时)

  10. 做什么:当偏好数据集只有输入和最终输出时,通过采样近似。
  11. 核心思路:\(p_\theta(z|x) = \sum_y p_\theta(s|x)\),完整求和不可行。用 Diverse Beam Search 采样少量高概率中间输出 \(\{y_i^\alpha\}\),近似 \(p_\theta(z|x) \approx \sum_\alpha \prod p_{\theta_i}(y_i^\alpha|\text{Pa}) \cdot p_{\theta_j}(z_j|\text{Pa})\)。训练中每步更新后重新采样中间输出。
  12. 设计动机:兼容现有只标注最终输出的偏好数据集,不需要额外标注中间输出。

  13. β-完美对齐理论保证

  14. 做什么:证明 SysDPO 在理想条件下达到与标准 DPO 等价的对齐质量。
  15. 核心思路:定义 β-完美对齐(Definition 1):偏好比等于生成概率比的 β 次方。Theorem 1 证明在 Assumption 1(训练分布覆盖所有可能的中间输出)下,SysDPO-Direct 的最优解是 β-完美对齐的。SysDPO-Sampling 在无限样本极限下由 Proposition 1 保证最优。
  16. 设计动机:理论保证确保方法不仅是启发式的——系统级 DPO 确实能实现"正确"的对齐。

损失函数 / 训练策略

  • SysDPO-Direct:固定数据集训练,包含完整的中间输出
  • SysDPO-Sampling:每步重新采样中间输出(Diverse Beam Search),动态构建训练数据
  • 两种变体都支持端到端梯度优化,梯度通过 DAG 分解自动分配到各组件

实验关键数据

主实验 1:LLM + 扩散模型对齐

配置 正确率
Llama-3-8B + SDXL (未对齐) 32%
SysDPO 对齐后 显著提升

未对齐的复合系统在复杂指令(如"渐进属性变化")上仅 32% 正确。

主实验 2:LLM + LLM 协作对齐

方法 协作效果
单独对齐各 LLM 次优
SysDPO 联合对齐 显著更好

消融:SysDPO-Direct vs SysDPO-Sampling

变体 适用场景 数据需求
SysDPO-Direct 有中间输出标注 系统特定数据集
SysDPO-Sampling 仅有最终输出 标准偏好数据集 + DBS 采样

关键发现

  • 单独对齐各组件不够:即使每个组件都与人类偏好对齐,系统整体可能仍然失败——协作质量需要系统级优化
  • DAG 分解是关键:将不可微的系统交互转化为可优化的概率乘积,数学上优雅且实际可行
  • 偏好数据的多样性很重要:Assumption 1 要求训练覆盖多样的中间输出,实际中这影响 SysDPO-Direct 的效果
  • DBS 采样的适中多样性最优:SysDPO-Sampling 中,Diverse Beam Search 的多样性参数需要调节

亮点与洞察

  • "系统级对齐"问题的首次严格形式化:将复合 AI 系统对齐的挑战从模糊的工程问题提升为有理论保证的框架。
  • DAG 分解突破不可微瓶颈的思路非常优雅:不可微交互在 DAG 概率分解后"消失"了——log 乘积变加法,梯度自然流向各组件。
  • SysDPO-Sampling 的实用性:兼容现有偏好数据集是关键——不需要额外标注中间输出,通过 DBS 采样即可。
  • β-完美对齐的理论结果推广了 DPO 的经典保证到多组件系统。

局限性 / 可改进方向

  • DAG 假设:要求系统无环——循环交互(如多轮对话 Agent)无法直接建模
  • Assumption 1 很强:要求训练分布覆盖所有可能中间输出——实际中难以保证
  • 仅两种系统配置验证:LLM+扩散和 LLM+LLM,更复杂的系统(如 RAG、多 Agent 辩论)未验证
  • 组件数量扩展性:DAG 分解的项数随组件和中间变量增加而增长
  • SysDPO-Sampling 的近似质量:DBS 采样的有限样本对 \(p_\theta(z|x)\) 的逼近精度未充分分析

相关工作与启发

  • vs TextGrad:TextGrad 通过 prompt 优化做文本反馈,是迭代优化方法;SysDPO 是偏好学习方法,有理论保证
  • vs 标准 DPO/RLHF:仅能对齐单个模型;SysDPO 扩展到多组件联合对齐
  • vs 独立对齐各组件:忽略了组件间协作质量;SysDPO 从系统级偏好出发优化协作
  • 可迁移思路:DAG 建模 + 概率分解的框架可推广到任何多模块 AI 系统——如 LLM+工具使用、LLM+代码执行等

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次严格形式化复合 AI 系统的对齐问题,DAG 分解 + DPO 扩展是原创贡献
  • 实验充分度: ⭐⭐⭐ 仅两种系统配置,实验规模有限
  • 写作质量: ⭐⭐⭐⭐⭐ 动机 → 形式化 → 理论 → 实验的逻辑链非常清晰
  • 价值: ⭐⭐⭐⭐⭐ 复合 AI 系统已成主流,系统级对齐是亟需解决的核心问题