跳转至

Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards

会议: ICLR2026
arXiv: 2507.03041
代码: https://optimas.stanford.edu/
领域: llm_alignment
关键词: compound AI system, local reward function, heterogeneous optimization, reward alignment

一句话总结

提出 Optimas 框架,为复合 AI 系统中每个组件学习一个与全局奖励对齐的局部奖励函数 (LRF),使得异构组件(prompt、模型参数、超参数)可独立优化,同时保证局部改进带来全局性能提升。

背景与动机

  1. 现代 AI 系统越来越多地采用多组件复合架构(LLM + 检索器 + 工具调用),单组件故障会导致级联错误
  2. 端到端优化面临非可微结构和异构配置空间(文本 prompt、连续超参数、离散模型选择)的挑战
  3. 已有方法(DSPy、TextGrad、OPRO)只能优化单一类型配置,无法联合处理异构参数
  4. 运行整个复合系统获取全局奖励成本高昂,数据效率低
  5. 单独优化的组件之间可能协作不佳——上游组件无法感知下游偏好
  6. 缺乏理论收敛保证

方法详解

框架: Optimas 将复合系统建模为 DAG \(\mathcal{G}=(\mathcal{C},\mathcal{E})\),每个组件 \(C_k\) 有配置策略 \(\mathbf{v}_k\),目标是最大化全局奖励期望。

局部奖励函数 (LRF): 为每个组件学习 \(r_k(x_k, y_k) = h_k \circ \phi([x_k, y_k])\),使用共享 LLM backbone + 独立线性投影头。LRF 满足局部-全局对齐性质:局部排序一致意味着全局排序一致。

训练目标: 采用 pairwise log-sigmoid 排序损失训练 LRF,通过 Monte Carlo 采样估计候选输出的期望全局奖励来构造偏好数据。

自适应机制: 两阶段——(1) 初始离线训练 LRF 至收敛;(2) 配置更新时用小批量偏好数据在线适配,维护历史 buffer 保持稳定性。

异构优化: prompt 用 OPRO 排序选优;可训练模型用 PPO 以 LRF 为 critic;离散/低维连续参数用基于局部奖励的概率分布采样。仅当验证集全局奖励提升时接受更新。

理论保证: 证明 LRF 最小化器满足对齐性质,且框架本质上执行坐标最大化,在正则条件下收敛到分量最优。

实验关键数据

系统 Unoptimized DSPy TextGrad Optimas 相对提升
Amazon 推荐 (Acc) 21.21 18.18 20.88 24.24 +14.3%
PubMedQA 医疗 (Acc) 57.46 60.26 56.96 69.13 +1.8%
STaRK-Prime 检索 (MRR) 40.73 41.40 41.31 50.54 +22.1%
HotpotQA RAG (F1) 33.80 44.90 24.86 50.48 +12.4%
BigCodeBench 代码 (Pass) 36.67 33.81 35.71 38.92 +9.0%
  • 平均相对提升 11.92%,且是唯一在所有 5 个任务上都提升的方法
  • LRF 排序准确率平均 77.96%,远超 LLM Judge 的 49.52%
  • 系统运行次数更少(平均 0.71k vs DSPy 0.79k),数据效率更高

亮点

  • 统一框架处理异构配置优化,DSPy/TextGrad 只能单类型
  • LRF 对齐有严格理论保证(收敛到分量最优)
  • 共享 backbone + 独立头的 LRF 架构可扩展且内存高效
  • 5 个真实系统上一致提升,DSPy 在 Amazon 上反而下降 14.3%

局限性 / 可改进方向

  • 坐标最大化在非凸问题中只保证分量最优,非全局最优
  • LRF 在线适配仍需少量系统运行和 Monte Carlo 采样,成本并非为零
  • 实验中组件数量有限(2-5个),更大规模系统的可扩展性未验证
  • LRF 共享 backbone 在组件输入分布差异极大时可能学习冲突表征

与相关工作的对比

  • DSPy/TextGrad: 仅优化 prompt,不支持异构配置;DSPy 在部分任务上性能不稳定
  • OPRO: 单步生成优化,无法处理多组件多步骤
  • LLMSelector: 仅做模型路由,系统运行成本 3x 于 Optimas
  • 过程奖励模型: 依赖人工标注或 MCTS,Optimas 通过偏好自动构造对齐数据

评分

  • 新颖性: ⭐⭐⭐⭐ (LRF 对齐思路新颖,统一异构优化)
  • 实验充分度: ⭐⭐⭐⭐⭐ (5 个真实系统 + 丰富消融 + 理论分析)
  • 写作质量: ⭐⭐⭐⭐ (结构清晰,图表丰富)
  • 价值: ⭐⭐⭐⭐ (复合 AI 系统优化是重要方向)