SWIFT: Sliding Window Reconstruction for Few-Shot Training-Free Generated Video Attribution¶

日期: 2026-03-09
arXiv: 2603.08536
代码: GitHub
领域: 视频理解 / 生成视频溯源
关键词: 视频归因, 生成视频检测, 3D VAE, 滑动窗口重建, 少样本

一句话总结¶

提出 SWIFT，利用视频生成模型 3D VAE 的时序压缩特性，通过滑动窗口进行正常/破坏两轮重建，以重建损失比值作为归因信号，实现少样本甚至零样本的生成视频溯源。

现状：视频生成技术（Sora、HunyuanVideo、Wan2.1 等）快速发展，已能生成高度逼真的视频内容，广泛应用于多个领域。
痛点：生成视频可能被恶意使用（侵权、虚假信息传播），亟需可靠的来源归因方法来追溯生成器责任方。
现有方案局限：主动归因（水印嵌入）会降低视频质量；被动归因（训练溯源模型）需要大量训练样本且新模型出现时需重新训练。
图像方法迁移失败：基于重建的图像归因方法（RONAN、LatentTracer、AEDR）迁移到视频场景时准确率显著下降，因为它们仅关注空间一致性，忽视了视频特有的时序连贯性约束。
核心 idea：SOTA 视频生成模型使用 3D VAE，在时序维度存在"多像素帧 ↔ 单隐空间帧"的映射关系。利用滑动窗口破坏这一时序映射，归属视频的重建损失会显著增大，而非归属视频不受影响，由此构建归因信号。

SWIFT 包含三个关键模块：(1) 固定长度滑动窗口的确定；(2) 正常与破坏两轮重建；(3) 基于 KDE 的阈值确定。整体流程：对测试视频用目标模型的 3D VAE 进行两次不同偏移的重建，计算重叠帧的平均损失比值作为归因信号，再与 KDE 确定的阈值比较得出结果。

模块 1：固定长度滑动窗口

做什么：确定窗口大小和滑动策略，生成正常窗口 \(W_0\) 和破坏窗口 \(W_{K-1}\)
核心思路：窗口大小设为 \(K(N-1)\) 帧（对应 \(N-1\) 个 chunk），窗口按单帧步长滑动。当偏移 \(j \bmod K = 0\) 时为正常窗口（chunk 内帧组成和位置对齐满足时序映射），\(j \bmod K \neq 0\) 时为破坏窗口
设计动机：\(W_{K-1}\) 相对 \(W_0\) 每帧偏移 \(K-1\) 帧，同时改变 chunk 内帧组成和位置映射，达到最大破坏效果

模块 2：正常与破坏重建

做什么：用目标模型的 3D VAE 对 \(W_0\) 和 \(W_{K-1}\) 分别重建，计算归因信号
核心思路：归属视频经目标 VAE 解码后，每个 chunk 的时序映射符合 VAE 分布；破坏重建打破时序一致性导致损失大幅上升。归因信号 \(t\) 为重叠帧的平均损失比值
设计动机：非归属视频不满足 VAE 分布，两轮重建的损失比值接近 1；归属视频正常重建损失低、破坏重建损失高，比值远小于 1

模块 3：KDE 阈值确定

无需训练，使用 MSE 作为重建损失度量
归因信号计算公式：\(t = \frac{1}{K(N-1)-K+1} \sum_{i=K}^{K(N-1)} \frac{\mathcal{L}(F_i^*, F_i)}{\mathcal{L}(F_i^{**}, F_i)}\)
仅需白盒访问目标模型的自编码器（VAE），不需要控制模型训练或生成过程

在 5 个 SOTA 视频生成模型上评估归因效果（S-Video 数据集，4000 视频）：

目标模型 \(\mathcal{M}_1\)	非归属来源	AEDR Acc	SWIFT Acc	提升
HunyuanVideo	Wan2.1	51.6%	96.7%	+45.1
HunyuanVideo	EasyAnimate	60.6%	96.6%	+36.0
HunyuanVideo	Real	54.8%	96.9%	+42.1
Wan2.1	HunyuanVideo	89.7%	98.4%	+8.7
Wan2.1	Real	87.5%	98.4%	+10.9
EasyAnimate	HunyuanVideo	65.5%	97.8%	+32.3
EasyAnimate	LTX	50.0%	97.8%	+47.8
Wan2.2	Wan2.1	60.3%	98.3%	+38.0

SWIFT 对 5 个 SOTA 模型（HunyuanVideo、Wan2.1、EasyAnimate、LTX-Video、Wan2.2）平均归因准确率达 94%
破坏窗口偏移量 \(K-1\) 效果最佳，因其最大化了时序映射的破坏程度
基于 KDE 的阈值确定方法比固定阈值更稳健，不受信号分布差异影响
该方法计算开销远低于基于梯度优化的重建方法（RONAN、LatentTracer）