跳转至

SDPO: Segment-Level Direct Preference Optimization for Social Agents

会议: ACL 2025
arXiv: 2501.01821
代码: 已开源(具体链接见论文)
领域: LLM 对齐 / Agent
关键词: 偏好优化, 多轮对话对齐, 社交智能体, 片段级优化, DPO

一句话总结

SDPO 提出在多轮社交对话中以"片段"(segment)为粒度进行偏好优化,通过动态定位错误轮次、从错误点前的历史重新采样正样本、选取等长的关键片段对进行训练,既降低了会话级 DPO 的训练噪声,又通过等长约束严格消除了分区函数 \(Z\),在 SOTOPIA 基准上超越了 GPT-4o 和所有 DPO 变体。

研究背景与动机

领域现状:基于 LLM 的社交智能体可以模拟人类社交行为,但在谈判、合作、竞争等复杂目标导向场景中表现不佳。DPO(Direct Preference Optimization)已成为将 LLM 行为与人类偏好对齐的主流方法,标准 DPO 在单轮层面对"好/坏"回复对进行优化。

现有痛点:标准 DPO 仅优化单轮回复,无法建模多轮目标完成过程中的策略连续性。会话级(session-level)扩展方法(ETO、DMPO)虽然将优化范围扩展到整个会话,但存在两个关键问题:(1)粒度过粗——负样本会话中的正常轮次也被当作"坏"输出,引入大量训练噪声;正样本通过从头采样获得,对话者拥有巨大的动作空间,正样本的高分可能来自对话者行为改变而非智能体策略改善。(2)理论缺陷——多轮 DPO 扩展无法直接消去分区函数 \(Z\):ETO 缺乏理论保证,DMPO 因正负样本长度不等只能启发式归一化。

核心矛盾:多轮社交对话的对齐需要比单轮更大的优化范围来建模策略连续性,但又不能像会话级方法那样粗粒度地引入噪声。需要一种介于两者之间的"恰好粒度"。

本文目标 提出片段(segment)级别的偏好优化粒度——既覆盖多个关键轮次以建模策略连续性,又精确排除无关轮次以降低噪声,同时通过等长约束严格消除分区函数。

切入角度:作者观察到多轮社交对话中的核心改进机会集中在特定的"关键片段"——从错误轮次开始到目标完成的关键交互窗口。通过将采样起点后移到错误轮次之前(减小对话者的动作空间),并截取等长的关键片段,既提高了正样本的因果一致性,又在理论上消除了 \(Z\)

核心 idea:通过动态选择多轮对话中的等长关键片段而非整个会话来构建偏好对,在降低训练噪声的同时理论上严格消除分区函数,实现更精准的多轮社交对话对齐。

方法详解

整体框架

SDPO 的 pipeline 分为三个阶段。(1)行为克隆(BC):用 GPT-4-turbo 生成的专家社交对话数据微调 Llama-3.1-8B,得到基础社交智能体。(2)偏好数据构建:基础智能体在 SOTOPIA-π 场景上生成对话,目标完成度低于阈值 7 的视为潜在负样本,通过"错误定位→正样本采样→片段选择"三步流水线构建片段级偏好对。(3)SDPO 训练:用等长片段对和 SDPO 损失函数进行偏好优化。

关键设计

  1. 三步偏好数据构建流水线:

    • 功能:从负样本会话中自动提取高质量的片段级偏好对
    • 核心思路:第一步,用 GPT-4o 在负样本中定位"错误轮次"\(e\)——即对目标完成关键但仍有改进空间的轮次。第二步,从错误轮次之前的交互历史 \(h_e\) 出发采样 5 个完整会话,选择目标/关系分数最高的作为正样本(要求分数高于负样本,否则丢弃)。第三步,用 GPT-4o 从正样本中选择对高分贡献最大的"关键片段",从负样本中截取同起点同长度的对应片段
    • 设计动机:与会话级方法的"从头采样"不同,从错误点前采样大幅缩小了对话者的动作空间,使正样本的高分更可能来自智能体自身策略改善而非对话者行为变化。等长截取为理论上消除 \(Z\) 提供了基础
  2. SDPO 损失函数:

    • 功能:将 DPO 严格扩展到多轮场景,对片段内所有轮次的对数概率比求和
    • 核心思路:基于 SAOM(state-action occupancy measure)框架,将对话历史视为状态、智能体输出视为动作。关键洞察是:当正负片段长度相等(\(T_w = T_l = k\))时,Bradley-Terry 模型中的分区函数 \(Z\) 在正负样本的奖励差中被精确抵消,得到简洁的 SDPO 损失:\(L_{SDPO} = -\mathbb{E}\log\sigma[\sum_{t=e}^{e+k}\beta(\log\frac{\pi_\theta(y_t^w|h_t^w)}{\pi_{ref}(y_t^w|h_t^w)} - \log\frac{\pi_\theta(y_t^l|h_t^l)}{\pi_{ref}(y_t^l|h_t^l)})]\)
    • 设计动机:解决了 ETO(无理论保证)和 DMPO(启发式归一化消除 \(Z\))的理论缺陷。等长约束是付出的代价,但实验证明动态选择的等长片段已能覆盖关键交互
  3. 动态片段长度选择:

    • 功能:根据每对数据的具体情况动态确定最优片段长度
    • 核心思路:让 GPT-4o 在正样本中自由选择对高分贡献最大的片段范围(不限定长度),然后从负样本中截取等长片段。这样不同数据对的片段长度可以不同(平均约 3 轮),但每对内部正负等长
    • 设计动机:消融实验显示动态选择(Goal 8.56)显著优于固定长度 [3,3](Goal 8.40)和 [5,5](Goal 8.34),也远超不等长配置 [1,3](Goal 7.77),证明了动态选择和等长约束两者的必要性

损失函数 / 训练策略

SDPO 损失为片段内所有轮次的标准 DPO 对数概率比之和。训练阶段:batch size 32,\(\beta=0.1\),学习率 \(1e^{-6}\),余弦衰减无 warmup。参考模型为 BC 阶段微调的基础智能体。

实验关键数据

主实验

SOTOPIA 基准上的目标完成度(Goal, 0-10)和关系维度(Rel, -5~5):

方法 Self-Chat Goal Self-Chat Rel vs GPT-4o Goal vs GPT-4o Rel
GPT-4o 7.90 2.67 7.90 2.67
GPT-4-turbo 8.18 2.96 7.92 2.79
Llama-8B+BC 7.81 3.05 7.53 2.78
+DPO (单轮) 7.95 3.28 7.80 2.97
+ETO (会话级) 8.29 3.39 8.02 3.03
+DMPO (会话级) 8.28 3.37 8.00 2.98
+SDPO (片段级) 8.56 3.69 8.13 3.16

消融实验

片段长度消融(Self-Chat, Llama-8B+BC 基础):

片段长度 [正,负] Goal Rel 说明
[1,1] (=DPO) 7.95 3.28 单轮,基线
[3,3] 固定 8.40 3.64 多轮有效
[5,5] 固定 8.34 3.60 边际递减
[动态,动态] (SDPO) 8.56 3.69 最优
[1,3] 不等长 7.77 3.08 崩塌,验证等长必要
[3,5] 不等长 8.07 3.16 性能下降

数据来源消融:

数据来源 Goal Rel
Self-chat only 8.42 3.56
GPT-4o 交互 only 7.88 3.05
混合(Self-chat + GPT-4o) 8.56 3.69

关键发现

  • 片段级粒度显著优于两个极端:SDPO(Goal 8.56)超越单轮 DPO(7.95)约 7.7%,超越会话级 ETO/DMPO(~8.28)约 3.4%,且超越 GPT-4o(7.90)约 8.4%
  • 等长约束是理论和实践的共同需求:不等长配置 [1,3] 出现性能崩塌(Goal 从 8.40 降到 7.77),验证了分区函数 \(Z\) 无法消除时梯度信号的不稳定
  • 高质量数据 ≠ 更好结果:会话级方法使用的正样本分数更高,但 SDPO 通过更精细的片段选择和更低的训练噪声实现了更好的对齐效果
  • 跨模型泛化:在 Mistral-v0.3 上 SDPO 同样一致超越所有基线(Goal 8.48 vs ETO 8.30),证明方法不依赖特定模型
  • 对齐提升了社交智能而非"作弊":Goal 和 Relationship 同时提升,说明 SDPO 没有通过威胁或欺骗等反社会行为来完成目标

亮点与洞察

  • 片段级粒度是多轮对齐的优雅解:介于单轮和会话级之间,既保留了多轮策略建模能力,又自然地通过等长约束解决了分区函数消除的理论难题。这个思路可以迁移到任何多轮交互的对齐任务
  • 从错误点采样而非从头采样:将正样本的因果来源锚定在智能体自身的策略改善上,而非对话者行为的随机变化,使偏好信号更干净
  • 理论优雅:等长约束让 \(Z\) 精确消除的推导非常简洁,对比 DMPO 的启发式归一化更令人信服

局限与展望

  • 等长约束的灵活性限制:强制正负片段等长可能丢失不等长片段中的有用信息
  • 依赖 GPT-4o 做错误定位和片段选择:这些步骤的质量直接影响训练数据质量,增加了成本和对外部模型的依赖
  • 仅在 SOTOPIA 上验证:社交对话是唯一的评估场景,缺少在客服、教学辅导等其他多轮场景的验证
  • 未探索迭代训练:当前只进行一轮 SDPO,多轮迭代(类似 Self-Play)可能进一步提升

相关工作与启发

  • vs DPO:标准 DPO 仅优化单轮,SDPO 通过片段级扩展建模多轮策略连续性,Goal 提升 7.7%
  • vs ETO/DMPO:会话级方法使用整个会话做偏好对,粒度过粗引入噪声;SDPO 精确定位关键片段,且理论上更严谨
  • vs RLHF/PPO:SDPO 保持了 DPO 系列无需奖励模型和 RL 训练的优势,同时解决了多轮扩展的理论难题

评分

  • 新颖性: ⭐⭐⭐⭐ 片段级粒度的提出自然且有理论支撑,等长约束消除 Z 的推导简洁优雅
  • 实验充分度: ⭐⭐⭐⭐ 多基线对比、多模型验证、片段长度/数据来源/输出长度等多维度消融
  • 写作质量: ⭐⭐⭐⭐ 动机推导层层递进,理论与实践结合紧密
  • 价值: ⭐⭐⭐⭐ 为多轮对齐提供了通用的片段级框架,超越 GPT-4o 的结果具有实践意义

相关论文