Optimas: Optimizing Compound AI Systems with Globally Aligned Local Rewards¶

会议: ICLR2026
arXiv: 2507.03041
代码: https://optimas.stanford.edu/
领域: llm_alignment
关键词: compound AI system, local reward function, heterogeneous optimization, reward alignment

一句话总结¶

提出 Optimas 框架，为复合 AI 系统中每个组件学习一个与全局奖励对齐的局部奖励函数 (LRF)，使得异构组件（prompt、模型参数、超参数）可独立优化，同时保证局部改进带来全局性能提升。

背景与动机¶

现代 AI 系统越来越多地采用多组件复合架构（LLM + 检索器 + 工具调用），单组件故障会导致级联错误
端到端优化面临非可微结构和异构配置空间（文本 prompt、连续超参数、离散模型选择）的挑战
已有方法（DSPy、TextGrad、OPRO）只能优化单一类型配置，无法联合处理异构参数
运行整个复合系统获取全局奖励成本高昂，数据效率低
单独优化的组件之间可能协作不佳——上游组件无法感知下游偏好
缺乏理论收敛保证

方法详解¶

框架: Optimas 将复合系统建模为 DAG \(\mathcal{G}=(\mathcal{C},\mathcal{E})\)，每个组件 \(C_k\) 有配置策略 \(\mathbf{v}_k\)，目标是最大化全局奖励期望。

局部奖励函数 (LRF): 为每个组件学习 \(r_k(x_k, y_k) = h_k \circ \phi([x_k, y_k])\)，使用共享 LLM backbone + 独立线性投影头。LRF 满足局部-全局对齐性质：局部排序一致意味着全局排序一致。

训练目标: 采用 pairwise log-sigmoid 排序损失训练 LRF，通过 Monte Carlo 采样估计候选输出的期望全局奖励来构造偏好数据。

自适应机制: 两阶段——(1) 初始离线训练 LRF 至收敛；(2) 配置更新时用小批量偏好数据在线适配，维护历史 buffer 保持稳定性。

异构优化: prompt 用 OPRO 排序选优；可训练模型用 PPO 以 LRF 为 critic；离散/低维连续参数用基于局部奖励的概率分布采样。仅当验证集全局奖励提升时接受更新。

理论保证: 证明 LRF 最小化器满足对齐性质，且框架本质上执行坐标最大化，在正则条件下收敛到分量最优。

实验关键数据¶

系统	Unoptimized	DSPy	TextGrad	Optimas	相对提升
Amazon 推荐 (Acc)	21.21	18.18	20.88	24.24	+14.3%
PubMedQA 医疗 (Acc)	57.46	60.26	56.96	69.13	+1.8%
STaRK-Prime 检索 (MRR)	40.73	41.40	41.31	50.54	+22.1%
HotpotQA RAG (F1)	33.80	44.90	24.86	50.48	+12.4%
BigCodeBench 代码 (Pass)	36.67	33.81	35.71	38.92	+9.0%

平均相对提升 11.92%，且是唯一在所有 5 个任务上都提升的方法
LRF 排序准确率平均 77.96%，远超 LLM Judge 的 49.52%
系统运行次数更少（平均 0.71k vs DSPy 0.79k），数据效率更高

亮点¶

统一框架处理异构配置优化，DSPy/TextGrad 只能单类型
LRF 对齐有严格理论保证（收敛到分量最优）
共享 backbone + 独立头的 LRF 架构可扩展且内存高效
5 个真实系统上一致提升，DSPy 在 Amazon 上反而下降 14.3%

局限性 / 可改进方向¶

坐标最大化在非凸问题中只保证分量最优，非全局最优
LRF 在线适配仍需少量系统运行和 Monte Carlo 采样，成本并非为零
实验中组件数量有限（2-5个），更大规模系统的可扩展性未验证
LRF 共享 backbone 在组件输入分布差异极大时可能学习冲突表征

与相关工作的对比¶

DSPy/TextGrad: 仅优化 prompt，不支持异构配置；DSPy 在部分任务上性能不稳定
OPRO: 单步生成优化，无法处理多组件多步骤
LLMSelector: 仅做模型路由，系统运行成本 3x 于 Optimas
过程奖励模型: 依赖人工标注或 MCTS，Optimas 通过偏好自动构造对齐数据

评分¶

新颖性: ⭐⭐⭐⭐ (LRF 对齐思路新颖，统一异构优化)
实验充分度: ⭐⭐⭐⭐⭐ (5 个真实系统 + 丰富消融 + 理论分析)
写作质量: ⭐⭐⭐⭐ (结构清晰，图表丰富)
价值: ⭐⭐⭐⭐ (复合 AI 系统优化是重要方向)