ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning¶
会议: ACL 2025
arXiv: 2505.19100
代码: 待确认
领域: 多模态LLM / 偏好优化
关键词: DPO, 句子级偏好, 自适应奖励, 多模态推理, 细粒度对齐, 幻觉缓解
一句话总结¶
提出 ASPO(Adaptive Sentence-level Preference Optimization)——将 DPO 的偏好单元从"整个回复"细化到"每个句子",为每个句子动态计算自适应奖励值(基于模型自身预测评估正确性和重要性),在多模态推理任务上显著优于传统回复级 DPO,有效减少幻觉并提升细粒度推理能力。
背景与动机¶
传统 DPO 的根本局限:以二元制(整个回复为 chosen/rejected)做偏好优化,不区分内部哪些句子正确/错误。这导致:
- 噪声数据影响大:机器生成回复中部分句子正确、部分错误——整体奖惩不精确
- 长回复幻觉加剧:回复越长,模型越容易在某些句子上产生幻觉
- 细粒度推理欠缺:无法针对具体错误步骤做精准优化
SFT 阶段也有问题:增加 preferred 输出概率可能附带增加 dispreferred 输出概率。
核心问题¶
如何在偏好优化中实现句子级细粒度监督,精确识别和惩罚错误句子、奖励正确句子?
方法详解¶
ASPO 核心设计¶
- 句子作为偏好的基本单元:将 chosen/rejected 回复拆分为句子序列
- 自适应奖励计算:
- 基于模型自身预测评估每个句子的正确性
- 正确句子获得正奖励,错误句子获得负奖励
- 奖励值自适应——不需要外部模型或额外标注
- 句子重要性加权:不是所有句子同等重要——关键推理步骤的句子权重更高
- 细粒度优化:针对每个句子独立做偏好学习而非整体二分
与传统 DPO 的对比¶
| 维度 | DPO | ASPO |
|---|---|---|
| 偏好粒度 | 回复级 | 句子级 |
| 奖励类型 | 二分(±1) | 自适应连续值 |
| 错误定位 | 无 | 精确到句子 |
| 额外模型 | 不需要 | 不需要(自监督) |
训练策略¶
在 SFT 后应用 ASPO——不修改模型架构,仅改变偏好优化的粒度和奖励计算方式。
实验关键数据¶
- 在多个多模态推理基准上显著超越传统 DPO
- 幻觉率明显降低
- 细粒度推理能力(如数学推理步骤、视觉问答的推理链)显著提升
- 适用于不同 MLLM 骨干
消融实验¶
- 句子级 > 回复级(验证粒度的价值)
- 自适应奖励 > 固定奖励(验证动态评估的价值)
- 重要性加权有进一步提升
亮点¶
- 粒度创新:从回复级到句子级——概念简单但效果显著
- 无需外部模型:基于模型自身预测做自监督奖励评估——零额外成本
- 针对关键痛点:直接解决长回复幻觉和噪声数据的核心问题
- 广泛适用:不依赖特定 MLLM 架构
局限性 / 可改进方向¶
- 句子边界检测:错误的句子分割可能影响奖励分配
- 自适应奖励可能有偏差:模型自身评估可能不完全准确
- 仅多模态场景:纯文本任务未验证(但原理上通用)
- 计算开销:逐句评估比整体评估更耗计算
与相关工作的对比¶
- vs 标准 DPO:粗粒度二分;ASPO 细粒度自适应
- vs Token-level DPO:token 级别可能过于细碎;句子级是更自然的语义单元
- vs 外部奖励模型方法:需要训练额外模型;ASPO 自监督
启发与关联¶
- 偏好优化的粒度越细,信号越精确——但不能太细(token 级可能引入噪声)
- 句子是偏好学习的"甜蜜点"——兼顾语义完整性和评估精度
- 自适应奖励的思路可推广到其他需要细粒度奖励的 RL 场景
评分¶
- 新颖性: ⭐⭐⭐⭐ 句子级DPO+自适应奖励的组合新颖且有效
- 实验充分度: ⭐⭐⭐⭐ 多基准多消融,但缺少纯文本验证
- 写作质量: ⭐⭐⭐⭐ 图示直观,方法描述清晰
- 价值: ⭐⭐⭐⭐ 对DPO方法论和多模态对齐有实用改进