Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards¶
会议: ICLR2026
arXiv: 2507.03041
代码: https://optimas.stanford.edu/
领域: llm_alignment
关键词: compound AI system, local reward function, heterogeneous optimization, reward alignment
一句话总结¶
提出 Optimas 框架,为复合 AI 系统中每个组件学习一个与全局奖励对齐的局部奖励函数 (LRF),使得异构组件(prompt、模型参数、超参数)可独立优化,同时保证局部改进带来全局性能提升。
背景与动机¶
- 现代 AI 系统越来越多地采用多组件复合架构(LLM + 检索器 + 工具调用),单组件故障会导致级联错误
- 端到端优化面临非可微结构和异构配置空间(文本 prompt、连续超参数、离散模型选择)的挑战
- 已有方法(DSPy、TextGrad、OPRO)只能优化单一类型配置,无法联合处理异构参数
- 运行整个复合系统获取全局奖励成本高昂,数据效率低
- 单独优化的组件之间可能协作不佳——上游组件无法感知下游偏好
- 缺乏理论收敛保证
方法详解¶
框架: Optimas 将复合系统建模为 DAG \(\mathcal{G}=(\mathcal{C},\mathcal{E})\),每个组件 \(C_k\) 有配置策略 \(\mathbf{v}_k\),目标是最大化全局奖励期望。
局部奖励函数 (LRF): 为每个组件学习 \(r_k(x_k, y_k) = h_k \circ \phi([x_k, y_k])\),使用共享 LLM backbone + 独立线性投影头。LRF 满足局部-全局对齐性质:局部排序一致意味着全局排序一致。
训练目标: 采用 pairwise log-sigmoid 排序损失训练 LRF,通过 Monte Carlo 采样估计候选输出的期望全局奖励来构造偏好数据。
自适应机制: 两阶段——(1) 初始离线训练 LRF 至收敛;(2) 配置更新时用小批量偏好数据在线适配,维护历史 buffer 保持稳定性。
异构优化: prompt 用 OPRO 排序选优;可训练模型用 PPO 以 LRF 为 critic;离散/低维连续参数用基于局部奖励的概率分布采样。仅当验证集全局奖励提升时接受更新。
理论保证: 证明 LRF 最小化器满足对齐性质,且框架本质上执行坐标最大化,在正则条件下收敛到分量最优。
实验关键数据¶
| 系统 | Unoptimized | DSPy | TextGrad | Optimas | 相对提升 |
|---|---|---|---|---|---|
| Amazon 推荐 (Acc) | 21.21 | 18.18 | 20.88 | 24.24 | +14.3% |
| PubMedQA 医疗 (Acc) | 57.46 | 60.26 | 56.96 | 69.13 | +1.8% |
| STaRK-Prime 检索 (MRR) | 40.73 | 41.40 | 41.31 | 50.54 | +22.1% |
| HotpotQA RAG (F1) | 33.80 | 44.90 | 24.86 | 50.48 | +12.4% |
| BigCodeBench 代码 (Pass) | 36.67 | 33.81 | 35.71 | 38.92 | +9.0% |
- 平均相对提升 11.92%,且是唯一在所有 5 个任务上都提升的方法
- LRF 排序准确率平均 77.96%,远超 LLM Judge 的 49.52%
- 系统运行次数更少(平均 0.71k vs DSPy 0.79k),数据效率更高
亮点¶
- 统一框架处理异构配置优化,DSPy/TextGrad 只能单类型
- LRF 对齐有严格理论保证(收敛到分量最优)
- 共享 backbone + 独立头的 LRF 架构可扩展且内存高效
- 5 个真实系统上一致提升,DSPy 在 Amazon 上反而下降 14.3%
局限性 / 可改进方向¶
- 坐标最大化在非凸问题中只保证分量最优,非全局最优
- LRF 在线适配仍需少量系统运行和 Monte Carlo 采样,成本并非为零
- 实验中组件数量有限(2-5个),更大规模系统的可扩展性未验证
- LRF 共享 backbone 在组件输入分布差异极大时可能学习冲突表征
与相关工作的对比¶
- DSPy/TextGrad: 仅优化 prompt,不支持异构配置;DSPy 在部分任务上性能不稳定
- OPRO: 单步生成优化,无法处理多组件多步骤
- LLMSelector: 仅做模型路由,系统运行成本 3x 于 Optimas
- 过程奖励模型: 依赖人工标注或 MCTS,Optimas 通过偏好自动构造对齐数据
评分¶
- 新颖性: ⭐⭐⭐⭐ (LRF 对齐思路新颖,统一异构优化)
- 实验充分度: ⭐⭐⭐⭐⭐ (5 个真实系统 + 丰富消融 + 理论分析)
- 写作质量: ⭐⭐⭐⭐ (结构清晰,图表丰富)
- 价值: ⭐⭐⭐⭐ (复合 AI 系统优化是重要方向)