ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning¶

会议: ACL 2025
arXiv: 2505.19100
代码: 待确认
领域: 多模态LLM / 偏好优化
关键词: DPO, 句子级偏好, 自适应奖励, 多模态推理, 细粒度对齐, 幻觉缓解

一句话总结¶

提出 ASPO（Adaptive Sentence-level Preference Optimization）——将 DPO 的偏好单元从"整个回复"细化到"每个句子"，为每个句子动态计算自适应奖励值（基于模型自身预测评估正确性和重要性），在多模态推理任务上显著优于传统回复级 DPO，有效减少幻觉并提升细粒度推理能力。

背景与动机¶

传统 DPO 的根本局限：以二元制（整个回复为 chosen/rejected）做偏好优化，不区分内部哪些句子正确/错误。这导致：

噪声数据影响大：机器生成回复中部分句子正确、部分错误——整体奖惩不精确
长回复幻觉加剧：回复越长，模型越容易在某些句子上产生幻觉
细粒度推理欠缺：无法针对具体错误步骤做精准优化

SFT 阶段也有问题：增加 preferred 输出概率可能附带增加 dispreferred 输出概率。

核心问题¶

如何在偏好优化中实现句子级细粒度监督，精确识别和惩罚错误句子、奖励正确句子？

方法详解¶

ASPO 核心设计¶

句子作为偏好的基本单元：将 chosen/rejected 回复拆分为句子序列
自适应奖励计算：
基于模型自身预测评估每个句子的正确性
正确句子获得正奖励，错误句子获得负奖励
奖励值自适应——不需要外部模型或额外标注
句子重要性加权：不是所有句子同等重要——关键推理步骤的句子权重更高
细粒度优化：针对每个句子独立做偏好学习而非整体二分

与传统 DPO 的对比¶

维度	DPO	ASPO
偏好粒度	回复级	句子级
奖励类型	二分（±1）	自适应连续值
错误定位	无	精确到句子
额外模型	不需要	不需要（自监督）

训练策略¶

在 SFT 后应用 ASPO——不修改模型架构，仅改变偏好优化的粒度和奖励计算方式。

实验关键数据¶

在多个多模态推理基准上显著超越传统 DPO
幻觉率明显降低
细粒度推理能力（如数学推理步骤、视觉问答的推理链）显著提升
适用于不同 MLLM 骨干

消融实验¶

句子级 > 回复级（验证粒度的价值）
自适应奖励 > 固定奖励（验证动态评估的价值）
重要性加权有进一步提升

亮点¶

粒度创新：从回复级到句子级——概念简单但效果显著
无需外部模型：基于模型自身预测做自监督奖励评估——零额外成本
针对关键痛点：直接解决长回复幻觉和噪声数据的核心问题
广泛适用：不依赖特定 MLLM 架构

局限性 / 可改进方向¶

句子边界检测：错误的句子分割可能影响奖励分配
自适应奖励可能有偏差：模型自身评估可能不完全准确
仅多模态场景：纯文本任务未验证（但原理上通用）
计算开销：逐句评估比整体评估更耗计算

与相关工作的对比¶

vs 标准 DPO：粗粒度二分；ASPO 细粒度自适应
vs Token-level DPO：token 级别可能过于细碎；句子级是更自然的语义单元
vs 外部奖励模型方法：需要训练额外模型；ASPO 自监督

启发与关联¶

偏好优化的粒度越细，信号越精确——但不能太细（token 级可能引入噪声）
句子是偏好学习的"甜蜜点"——兼顾语义完整性和评估精度
自适应奖励的思路可推广到其他需要细粒度奖励的 RL 场景

评分¶

新颖性: ⭐⭐⭐⭐ 句子级DPO+自适应奖励的组合新颖且有效
实验充分度: ⭐⭐⭐⭐ 多基准多消融，但缺少纯文本验证
写作质量: ⭐⭐⭐⭐ 图示直观，方法描述清晰
价值: ⭐⭐⭐⭐ 对DPO方法论和多模态对齐有实用改进