跳转至

ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning

会议: ACL 2025
arXiv: 2505.19100
代码: 待确认
领域: 多模态LLM / 偏好优化
关键词: DPO, 句子级偏好, 自适应奖励, 多模态推理, 细粒度对齐, 幻觉缓解

一句话总结

提出 ASPO(Adaptive Sentence-level Preference Optimization)——将 DPO 的偏好单元从"整个回复"细化到"每个句子",为每个句子动态计算自适应奖励值(基于模型自身预测评估正确性和重要性),在多模态推理任务上显著优于传统回复级 DPO,有效减少幻觉并提升细粒度推理能力。

背景与动机

传统 DPO 的根本局限:以二元制(整个回复为 chosen/rejected)做偏好优化,不区分内部哪些句子正确/错误。这导致:

  1. 噪声数据影响大:机器生成回复中部分句子正确、部分错误——整体奖惩不精确
  2. 长回复幻觉加剧:回复越长,模型越容易在某些句子上产生幻觉
  3. 细粒度推理欠缺:无法针对具体错误步骤做精准优化

SFT 阶段也有问题:增加 preferred 输出概率可能附带增加 dispreferred 输出概率。

核心问题

如何在偏好优化中实现句子级细粒度监督,精确识别和惩罚错误句子、奖励正确句子?

方法详解

ASPO 核心设计

  1. 句子作为偏好的基本单元:将 chosen/rejected 回复拆分为句子序列
  2. 自适应奖励计算
  3. 基于模型自身预测评估每个句子的正确性
  4. 正确句子获得正奖励,错误句子获得负奖励
  5. 奖励值自适应——不需要外部模型或额外标注
  6. 句子重要性加权:不是所有句子同等重要——关键推理步骤的句子权重更高
  7. 细粒度优化:针对每个句子独立做偏好学习而非整体二分

与传统 DPO 的对比

维度 DPO ASPO
偏好粒度 回复级 句子级
奖励类型 二分(±1) 自适应连续值
错误定位 精确到句子
额外模型 不需要 不需要(自监督)

训练策略

在 SFT 后应用 ASPO——不修改模型架构,仅改变偏好优化的粒度和奖励计算方式。

实验关键数据

  • 在多个多模态推理基准上显著超越传统 DPO
  • 幻觉率明显降低
  • 细粒度推理能力(如数学推理步骤、视觉问答的推理链)显著提升
  • 适用于不同 MLLM 骨干

消融实验

  • 句子级 > 回复级(验证粒度的价值)
  • 自适应奖励 > 固定奖励(验证动态评估的价值)
  • 重要性加权有进一步提升

亮点

  • 粒度创新:从回复级到句子级——概念简单但效果显著
  • 无需外部模型:基于模型自身预测做自监督奖励评估——零额外成本
  • 针对关键痛点:直接解决长回复幻觉和噪声数据的核心问题
  • 广泛适用:不依赖特定 MLLM 架构

局限性 / 可改进方向

  • 句子边界检测:错误的句子分割可能影响奖励分配
  • 自适应奖励可能有偏差:模型自身评估可能不完全准确
  • 仅多模态场景:纯文本任务未验证(但原理上通用)
  • 计算开销:逐句评估比整体评估更耗计算

与相关工作的对比

  • vs 标准 DPO:粗粒度二分;ASPO 细粒度自适应
  • vs Token-level DPO:token 级别可能过于细碎;句子级是更自然的语义单元
  • vs 外部奖励模型方法:需要训练额外模型;ASPO 自监督

启发与关联

  • 偏好优化的粒度越细,信号越精确——但不能太细(token 级可能引入噪声)
  • 句子是偏好学习的"甜蜜点"——兼顾语义完整性和评估精度
  • 自适应奖励的思路可推广到其他需要细粒度奖励的 RL 场景

评分

  • 新颖性: ⭐⭐⭐⭐ 句子级DPO+自适应奖励的组合新颖且有效
  • 实验充分度: ⭐⭐⭐⭐ 多基准多消融,但缺少纯文本验证
  • 写作质量: ⭐⭐⭐⭐ 图示直观,方法描述清晰
  • 价值: ⭐⭐⭐⭐ 对DPO方法论和多模态对齐有实用改进