Fine-grained Video Dubbing Duration Alignment with Segment Supervised Preference Optimization¶

会议: ACL 2025
arXiv: 2508.08550
代码: CcQunResearch/SSPO
机构: 阿里巴巴数字媒体与娱乐集团 / 华中科技大学 / 北京交通大学领域: llm_alignment
关键词: 视频配音, 时长对齐, 偏好优化, DPO, 段级监督, 可控文本生成

一句话总结¶

提出 Segment Supervised Preference Optimization (SSPO)，将视频配音中译文与源语音的时长对齐问题建模为段级偏好优化，通过逐句采样+细粒度 DPO 损失实现每行对话的时长一致性，同时维持翻译质量和输出格式。

研究背景与动机¶

视频配音系统通常由 ASR→NMT→TTS 三个级联子任务组成。由于不同语言的信息密度差异（如中文高信息密度→英文/泰文低信息密度），翻译文本的语音时长常与原文不匹配，导致音画不同步，严重影响观看体验。

现有方法的局限：

传统方法（AutoDubbing、VideoDubber）：针对 Seq2Seq 模型设计，修改 embedding 或引入长度预测模块，不适用于 LLM
Prompt Engineering（GPT-4o、Claude 3.5）：LLM 缺乏对文本语音时长的直接感知能力，仅靠提示控制效果有限
SFT：人工翻译字幕关注文本质量而非语音时长，SFT 后模型无法有效处理时长对齐
标准 DPO/RLHF：对整个输出做偏好对齐，粒度太粗，无法实现逐行时长控制；且可能破坏输出格式

核心挑战：时长一致性指标 P(s_i, t_i) 不可微，无法直接用梯度下降优化 LLM。

方法详解¶

1. 时长一致性度量¶

定义非对称惩罚函数 P(s_i, t_i)：

当译文时长 > 源文时长时：使用指数惩罚 exp(Dur(t_i) - Dur(s_i))，因为超时会导致字幕溢出时间轴，更不可接受
当译文时长 < 源文时长时：使用线性惩罚 Dur(s_i) - Dur(t_i)，较为宽松
使用 Microsoft Edge TTS (edge-tts) 合成语音并获取时长
翻译质量评估采用两个无参考翻译模型：KIWI-XXL 和 XCOMET（均为 10B 参数）

2. 段级采样策略（Algorithm 1）¶

对查询集中每个样本（含 n=35 行对话），逐句采样 k 个翻译候选：

以前文已选译文为前缀，从 SFT 模型采样 k 个候选翻译
去重后，丢弃 KIWI-XXL 和 XCOMET 评分最低的 20%（保证翻译质量下限）
按 P 指标选择 chosen（最小 P）和 rejected（最大 P）
过滤低多样性行：去重后样本数 < e1=4 或 P 差值 < e2=0.08 的行不参与优化

示例：对于源句"历史虽然会重演，但是人类是无法回到过去的。"(2.89s)，从多个英文候选中选择时长最接近的 (2.93s) 为 chosen，时长偏差最大的 (3.19s) 为 rejected。

3. 段级 DPO 损失¶

对每行对话 s_i 独立计算标准 DPO 损失，前缀 p_i 包含指令和前面所有行的 chosen 译文
每行的 DPO 损失仅控制该行译文的时长，不影响其他行
总损失为所有行 DPO 损失之和

4. 输出格式控制¶

两种方案防止训练后输出格式崩坏：

Token-level KL Divergence (TKLD)：在损失函数中加入逐 token 的 KL 散度约束项，防止 policy 偏离 reference 模型
LoRA 训练（推荐）：低秩适配天然限制参数更新幅度，显存需求更低，格式保持率接近 100%，但收敛较慢需更多迭代

实验关键数据¶

主实验：时长对齐性能（Table 2）¶

数据集为自建 PolySC 数据集，测试集保留 4 部电视剧。

方法	zh→en P↓	zh→en CR↑	zh→th P↓	zh→th CR↑
Gold Reference（人工翻译）	0.501	17.9%	0.489	20.3%
GPT-3.5-Turbo (PE)	0.526	17.7%	0.567	20.7%
GPT-4o (PE)	0.417	19.2%	0.318	27.0%
Claude 3.5 Sonnet (PE)	0.410	19.3%	0.313	27.5%
AutoDubbing (SFT)	0.388	21.0%	0.334	27.8%
VideoDubber (SFT)	0.344	22.2%	0.314	29.0%
Qwen2.5-14B SFT	0.423	20.2%	0.362	26.4%
Qwen2.5-14B SSPO	0.272	24.9%	0.198	36.1%
Llama3.1-8B SFT	0.389	20.7%	0.370	26.4%
Llama3.1-8B SSPO	0.263	25.9%	0.206	36.4%
Alignment Bound（理论上界）	0.220	44.3%	0.203	50.4%

SSPO 在所有基座模型上均大幅降低 P，Qwen2.5-14B 上 zh→th 的 P 从 0.362 降至 0.198，已接近理论对齐上界 0.203。

人工评估：翻译质量（Table 4）¶

4 位英语/西语翻译专业评估者，对 200 段对话（每段 20 行）做配对比较。

SSPO (Qwen2.5-14B) vs	准确性 Win:Tie:Loss	自然度	生动性	综合
Gold Reference	21:63:16	24:55:21	23:51:26	24:50:26
Vanilla Qwen2.5-14B	24:51:25	26:50:24	26:53:21	32:41:27
GPT-4o	25:51:24	19:58:22	23:48:29	23:49:28
SFT 模型	23:48:29	21:54:25	24:49:27	24:50:26

SSPO 在不显著降低翻译质量的前提下大幅提升时长一致性。LLM 方法准确性普遍优于人工翻译，但生动性略逊（缺乏视频/音频多模态信息）。

消融实验¶

格式控制（Table 5）：全参数微调格式合规率骤降（Qwen2.5: 81.2%/73.9%），LoRA 保持 99.8%/99.7%，TKLD 为 96.9%/97.2%
beta 敏感度（Figure 4）：beta 越小时长一致性越好但格式合规率下降；折中选 beta=0.5
数据规模（Figure 5）：约 10,000 行对话（~600 个 prompt-response 对，占 PolySC ~3%）即可取得显著效果，数据过多则格式合规率急降

亮点¶

问题建模新颖：将视频配音时长对齐转化为“局部多段偏好优化”问题，提出一种全新的 CTG 范式
细粒度控制：逐句独立采样+逐句 DPO 损失，实现行级时长对齐而非整体对齐，解决标准 DPO 粒度太粗的问题
不对称惩罚设计：译文超时用指数惩罚、偏短用线性惩罚，完美贴合配音场景的实际需求
数据高效：仅需 3% 数据即可获得接近理论上界的对齐效果
通用性强：跨三个基座模型（Llama3.1-8B、GLM-4-9B、Qwen2.5-14B）和四个语言对（zh→en/th/es, es→zh）均有效

局限与展望¶

TTS 时长估计粗糙：使用 edge-tts 合成时长作为代理指标，未考虑角色情感、语速变化等实际配音因素
语言对上界差异：不同语言对的信息密度差异决定了对齐上限，某些语言对天然难以完全消除时长不一致
缺乏多模态信息：翻译模型无法感知视频画面和音频情感，导致生动性系统性低于人工翻译
采样成本高：逐句采样 k 个候选需 TTS 合成+翻译质量评估（10B 参数模型），训练数据构建开销大
仅在配音场景验证：段级偏好优化思想有泛化潜力（如对话生成、代码生成的局部对齐），但本文未探索

评分¶

新颖性: ⭐⭐⭐⭐ — 将时长对齐建模为段级偏好优化，视角独特，定义了新的“局部多段偏好优化”问题
实验充分度: ⭐⭐⭐⭐ — 多语言对、多基座模型、人工评估+自动指标+消融+可视化+案例分析覆盖全面
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，符号系统完整，理论推导严谨，附录详尽
价值: ⭐⭐⭐⭐ — 解决阿里优酷实际产业问题，段级偏好优化框架有泛化潜力