跳转至

SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution

日期: 2026-03-09
arXiv: 2603.08536
代码: GitHub
领域: 视频理解 / 生成视频溯源
关键词: 视频归因, 生成视频检测, 3D VAE, 滑动窗口重建, 少样本

一句话总结

提出 SWIFT,利用视频生成模型 3D VAE 的时序压缩特性,通过滑动窗口进行正常/破坏两轮重建,以重建损失比值作为归因信号,实现少样本甚至零样本的生成视频溯源。

研究背景与动机

  1. 现状:视频生成技术(Sora、HunyuanVideo、Wan2.1 等)快速发展,已能生成高度逼真的视频内容,广泛应用于多个领域。
  2. 痛点:生成视频可能被恶意使用(侵权、虚假信息传播),亟需可靠的来源归因方法来追溯生成器责任方。
  3. 现有方案局限:主动归因(水印嵌入)会降低视频质量;被动归因(训练溯源模型)需要大量训练样本且新模型出现时需重新训练。
  4. 图像方法迁移失败:基于重建的图像归因方法(RONAN、LatentTracer、AEDR)迁移到视频场景时准确率显著下降,因为它们仅关注空间一致性,忽视了视频特有的时序连贯性约束。
  5. 核心 idea:SOTA 视频生成模型使用 3D VAE,在时序维度存在"多像素帧 ↔ 单隐空间帧"的映射关系。利用滑动窗口破坏这一时序映射,归属视频的重建损失会显著增大,而非归属视频不受影响,由此构建归因信号。

方法详解

整体框架

SWIFT 包含三个关键模块:(1) 固定长度滑动窗口的确定;(2) 正常与破坏两轮重建;(3) 基于 KDE 的阈值确定。整体流程:对测试视频用目标模型的 3D VAE 进行两次不同偏移的重建,计算重叠帧的平均损失比值作为归因信号,再与 KDE 确定的阈值比较得出结果。

关键设计

模块 1:固定长度滑动窗口

  • 做什么:确定窗口大小和滑动策略,生成正常窗口 \(W_0\) 和破坏窗口 \(W_{K-1}\)
  • 核心思路:窗口大小设为 \(K(N-1)\) 帧(对应 \(N-1\) 个 chunk),窗口按单帧步长滑动。当偏移 \(j \bmod K = 0\) 时为正常窗口(chunk 内帧组成和位置对齐满足时序映射),\(j \bmod K \neq 0\) 时为破坏窗口
  • 设计动机\(W_{K-1}\) 相对 \(W_0\) 每帧偏移 \(K-1\) 帧,同时改变 chunk 内帧组成和位置映射,达到最大破坏效果

模块 2:正常与破坏重建

  • 做什么:用目标模型的 3D VAE 对 \(W_0\)\(W_{K-1}\) 分别重建,计算归因信号
  • 核心思路:归属视频经目标 VAE 解码后,每个 chunk 的时序映射符合 VAE 分布;破坏重建打破时序一致性导致损失大幅上升。归因信号 \(t\) 为重叠帧的平均损失比值
  • 设计动机:非归属视频不满足 VAE 分布,两轮重建的损失比值接近 1;归属视频正常重建损失低、破坏重建损失高,比值远小于 1

模块 3:KDE 阈值确定

  • 做什么:用核密度估计从少量归属视频样本中自适应确定归因阈值 \(\tau\)
  • 核心思路:KDE 为非参数方法,不依赖先验分布假设,对异常值具有鲁棒性
  • 设计动机:不同模型的归因信号分布不一致且可能含异常值,需要模型独立的自适应阈值

损失函数 / 训练策略

  • 无需训练,使用 MSE 作为重建损失度量
  • 归因信号计算公式:\(t = \frac{1}{K(N-1)-K+1} \sum_{i=K}^{K(N-1)} \frac{\mathcal{L}(F_i^*, F_i)}{\mathcal{L}(F_i^{**}, F_i)}\)
  • 仅需白盒访问目标模型的自编码器(VAE),不需要控制模型训练或生成过程

实验关键数据

主实验

在 5 个 SOTA 视频生成模型上评估归因效果(S-Video 数据集,4000 视频):

目标模型 \(\mathcal{M}_1\) 非归属来源 AEDR Acc SWIFT Acc 提升
HunyuanVideo Wan2.1 51.6% 96.7% +45.1
HunyuanVideo EasyAnimate 60.6% 96.6% +36.0
HunyuanVideo Real 54.8% 96.9% +42.1
Wan2.1 HunyuanVideo 89.7% 98.4% +8.7
Wan2.1 Real 87.5% 98.4% +10.9
EasyAnimate HunyuanVideo 65.5% 97.8% +32.3
EasyAnimate LTX 50.0% 97.8% +47.8
Wan2.2 Wan2.1 60.3% 98.3% +38.0

消融实验

  • 仅用 20 个视频样本即可达 90%+ 平均归因准确率
  • HunyuanVideo、EasyAnimate、Wan2.2 支持零样本归因,约 90% 准确率
  • 对比 AEDR 基线:SWIFT 在所有模型配对上全面超越,平均提升约 30%+

关键发现

  • SWIFT 对 5 个 SOTA 模型(HunyuanVideo、Wan2.1、EasyAnimate、LTX-Video、Wan2.2)平均归因准确率达 94%
  • 破坏窗口偏移量 \(K-1\) 效果最佳,因其最大化了时序映射的破坏程度
  • 基于 KDE 的阈值确定方法比固定阈值更稳健,不受信号分布差异影响
  • 该方法计算开销远低于基于梯度优化的重建方法(RONAN、LatentTracer)

亮点与洞察

  1. 首次定义任务:形式化定义了"少样本无训练生成视频归因"任务,填补了视频归因领域的空白
  2. 巧妙利用 3D VAE 特性:发现并利用了 3D VAE 的"多帧→单隐帧"时序映射,将视频模态特有的时序特性转化为归因优势
  3. 极高实用性:仅需白盒访问 VAE(不需完整模型),无需训练、少样本甚至零样本即可工作
  4. 可扩展性:随着新视频生成模型的出现,只需获取其 VAE 即可直接应用

局限性 / 可改进方向

  1. 需要白盒访问目标模型的 VAE,完全黑盒场景不适用
  2. 对使用相同 VAE 架构的不同模型(如 Wan2.1 vs Wan2.2)区分能力可能有限
  3. LTX-Video 的归因准确率相对较低(约 77-85%),可能与其解码阶段的去噪步骤有关
  4. 视频经过后处理(压缩、裁剪等)后的鲁棒性需要进一步验证
  5. 未探讨多模型联合归因(多分类)场景

相关工作与启发

  • AEDR:基于 VAE 重建的图像归因方法,本文的直接对比基线
  • FunSearch / AlphaEvolve:不同领域但类似思路——利用模型内在特性作为"指纹"
  • 启发:3D VAE 的时序映射特性可能还有其他应用,如视频完整性验证、生成视频质量评估等

评分

  • ⭐⭐⭐⭐ 新颖性:首次定义任务 + 创新性利用 3D VAE 时序特性
  • ⭐⭐⭐⭐ 实验充分度:5 个模型、大规模数据集、对比基线、消融实验齐全
  • ⭐⭐⭐⭐ 写作质量:问题定义清晰,方法动机自然,理论与实验紧密结合
  • ⭐⭐⭐⭐⭐ 价值:解决了一个重要且实际的安全问题,方案优雅实用