Anchoring and Rescaling Attention for Semantically Coherent Inbetweening¶
会议: CVPR 2026
arXiv: 2603.17651
代码: 待确认
领域: 视频生成
关键词: 生成式帧插值, 注意力锚定, 时序RoPE缩放, 关键帧引导, 视频扩散模型
一句话总结¶
提出 KAB(Keyframe-Anchored Attention Bias)和 ReTRo(Rescaled Temporal RoPE)两个无需训练的推理时方法,基于 Wan2.1 视频扩散模型解决稀疏关键帧下大运动生成式帧插值(GI)中的语义不忠、帧不一致和节奏不稳问题,并构建首个文本条件 GI 评估基准 TGI-Bench。
研究背景与动机¶
生成式帧插值(Generative Inbetweening, GI)是指给定首尾两个关键帧,生成中间过渡帧序列。与传统光流插帧不同,GI 需要"想象"中间过程,在大运动、长时序场景下面临三大核心挑战:
- 语义不忠(Semantic Infidelity):中间帧出现与关键帧不一致的物体或场景元素
- 帧间不一致(Frame Inconsistency):相邻帧之间出现闪烁、突变
- 节奏不稳(Temporal Rhythm Instability):运动速度不均匀,时序分布不自然
现有方法大多基于 Image-to-Video(I2V)模型改造,典型如 TRF 和 SEINE。但当关键帧间距增大(如 65、81 帧),这些方法的质量急剧下降。根本原因在于:
- Cross-attention 机制对两端关键帧的关注度在长序列中稀释
- Temporal attention 的位置编码未考虑首尾帧的锚定需求
- 缺乏统一的评估基准来衡量文本条件 GI 的质量
本文的出发点是:不修改模型权重,仅通过推理时的注意力操控来解决上述问题。
方法详解¶
整体框架¶
基于 Wan2.1(DiT-based First-Last-Frame-to-Video 模型),在推理阶段引入两个互补模块:
- KAB:操控 cross-attention 的 logit 分布,将关键帧的语义锚点注入中间帧
- ReTRo:调整 temporal self-attention 中 RoPE 的缩放系数,差异化处理边缘帧与中间帧
两者均不需要额外训练,直接在去噪过程中介入。
关键设计¶
1. KAB(Keyframe-Anchored Attention Bias)¶
核心思想:从关键帧的 cross-attention map 中提取语义锚点,通过 logit bias 引导中间帧的注意力分布。
Step 1: 提取关键帧锚点
对首帧 \(I_{\text{first}}\) 和尾帧 \(I_{\text{last}}\),在 cross-attention 层中获取它们的注意力分布 \(A_{\text{first}}\) 和 \(A_{\text{last}}\),作为 keyframe anchors。
Step 2: 线性插值生成逐帧 target anchors
对第 \(t\) 帧,按时间位置线性插值:
Step 3: 计算并施加 logit bias
定义注意力偏置:
其中 \(M(t)\) 是期望的 target mask,\(\varepsilon\) 防止数值溢出。该 bias 被加到 cross-attention 的 logit 上,在 softmax 之前生效,从而不改变模型参数地引导注意力聚焦。
Triple Isolated Cross-Attention:
为避免首帧、尾帧和文本条件之间的信息干扰,将三者的 cross-attention 完全隔离:
- \(I_{\text{first}}\) 的 cross-attention 独立计算
- \(I_{\text{last}}\) 的 cross-attention 独立计算
- 文本 prompt 的 cross-attention 独立计算
三路结果加权融合,确保对称处理两端关键帧。
2. ReTRo(Rescaled Temporal RoPE)¶
Temporal self-attention 中的 RoPE 位置编码控制了帧间的注意力衰减模式。ReTRo 对不同位置的帧使用不同的缩放系数:
- 边缘帧(靠近首/尾关键帧):使用 \(s_{\text{edge}} > 1\)
- 放大位置编码频率 → 锐化局部注意力 → 更好地保留关键帧细节
-
直觉:靠近关键帧的帧应该"更像"关键帧
-
中间帧:使用 \(s_{\text{mid}} < 1\)
- 缩小位置编码频率 → 扩展感受野范围 → 促进帧间一致性
- 直觉:远离关键帧的帧需要"看得更远"来保持连贯
这种非均匀缩放在时间轴上形成一个"U 形"分布:两端紧、中间松,巧妙平衡了关键帧保真度与中间过渡流畅性。
损失函数 / 训练策略¶
本方法完全无需训练(training-free),所有操作在推理时完成:
- KAB 仅修改 cross-attention 的 logit(加 bias)
- ReTRo 仅修改 RoPE 的缩放系数
- 不引入额外参数,不需要反向传播
- 计算开销:仅增加关键帧 anchor 提取和 bias 计算,相对总推理时间可忽略
实验关键数据¶
TGI-Bench(新基准)¶
首个文本条件生成式帧插值评估基准:
| 维度 | 规模 |
|---|---|
| 视频数量 | 220 |
| 序列长度 | 25 / 33 / 65 / 81 帧 |
| 挑战类别 | 4 类(大运动/遮挡/外观变化/场景切换) |
| 评估指标 | PSNR, SSIM, FVD, VBench |
主实验¶
长序列(65/81 帧)性能对比:
| 方法 | 训练需求 | PSNR↑ | SSIM↑ | FVD↓ | VBench↑ |
|---|---|---|---|---|---|
| TRF | 需要 | 中 | 中 | 中 | 中 |
| SEINE | 需要 | 中 | 中 | 中 | 中 |
| Wan2.1 (baseline) | - | 中 | 中 | 中 | 中 |
| KAB + ReTRo | 不需要 | 最优 | 最优 | 最优 | 最优 |
关键观察:在短序列(25 帧)上各方法差距不大,但随着序列增长到 65/81 帧,KAB+ReTRo 的优势显著放大。
消融实验¶
| 配置 | PSNR | SSIM | 说明 |
|---|---|---|---|
| Baseline (Wan2.1) | 基线 | 基线 | 无干预 |
| + KAB only | ↑ | ↑ | 语义一致性提升 |
| + ReTRo only | ↑ | ↑ | 时序稳定性提升 |
| + KAB + ReTRo | ↑↑ | ↑↑ | 两者互补,最优 |
| KAB w/o Triple Isolation | ↓ | ↓ | 首尾帧干扰导致退化 |
| ReTRo 均匀缩放 (s=1) | → 基线 | → 基线 | 等于不做缩放 |
| \(s_{\text{edge}}\) 过大 | ↓ | ↑ | 过度锐化,失去流畅性 |
| \(s_{\text{mid}}\) 过小 | ↓ | ↓ | 感受野过大,细节模糊 |
关键发现¶
- KAB 和 ReTRo 解决不同问题:KAB 主攻语义忠实度,ReTRo 主攻时序一致性,组合效果最佳
- 长序列优势明显:序列越长(65/81帧),方法增益越大,说明针对的确实是长程依赖问题
- Triple Isolation 不可或缺:不隔离首尾帧 attention 会导致信息串扰,中间帧偏向一端
- ReTRo 的 U 形分布至关重要:均匀缩放无效,必须边缘紧中间松
亮点与洞察¶
- Training-free 的设计极具实用性:无需收集配对数据、无需微调,即插即用
- KAB 的 logit bias 思路与 Classifier-Free Guidance 异曲同工,但在空间维度(attention map)而非类别维度操作
- ReTRo 对 RoPE 缩放的非均匀设计思路新颖,可推广到其他需要差异化时序建模的任务
- Triple Isolated Cross-Attention 的对称设计体现了对首尾帧公平性的细致考量
- TGI-Bench 填补了文本条件 GI 评估的空白,4 类挑战场景×4 种长度的设计科学全面
- 方法的可解释性强:每个组件的物理含义清晰,消融实验验证了各部分的独立贡献
局限性 / 可改进方向¶
- 依赖 Wan2.1 架构:KAB 和 ReTRo 的设计与 DiT + RoPE 紧密耦合,迁移到 U-Net 架构需适配
- 线性插值假设:target anchor 的线性插值假设运动均匀,对非线性运动(加速/减速)可能不理想
- 超参数敏感性:\(s_{\text{edge}}\) 和 \(s_{\text{mid}}\) 需要手动调整,缺乏自适应选择机制
- 计算成本未详细分析:虽然声称开销可忽略,但未给出具体的推理时间对比数据
- 仅限帧插值:方法针对首尾帧已知的场景,无法直接扩展到单帧外推或无条件生成
- 评估指标局限:PSNR/SSIM 侧重像素级,对感知质量的评估有限;VBench 覆盖面更广但不够细粒度
相关工作与启发¶
- vs Wan2.1 (baseline):本文直接基于 Wan2.1 FLF2V,不改权重只操控注意力,可视为其推理增强插件
- vs TRF / SEINE:先前帧插值方法需要训练且长序列退化严重;KAB+ReTRo 无需训练且长序列优势更大
- vs Classifier-Free Guidance:CFG 在类别维度操控生成方向;KAB 在空间维度(attention map)操控语义聚焦,是注意力层面的类比
- RoPE 的非均匀缩放思路可推广到其他需要差异化时序建模的任务(如长视频理解中的关键帧增强)
- 推理时注意力操控是一种低成本但高效的模型能力提升手段,值得在视频编辑、视频补全等更多任务中探索
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ KAB + ReTRo 组合新颖,training-free 设计思路独特
- 实验充分度: ⭐⭐⭐⭐⭐ TGI-Bench 新基准 + 4种长度×4类挑战的全面评测
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导完整,图表丰富
- 价值: ⭐⭐⭐⭐⭐ 无需训练即插即用,视频生成社区直接受益