When to Lock Attention: Training-Free KV Control in Video Diffusion¶

基本信息¶

会议: CVPR2026
arXiv: 2603.09657
代码: 未开源
领域: 图像生成 / 视频编辑
关键词: Training-Free Video Editing, KV Cache, Classifier-Free Guidance, Diffusion Hallucination Detection, DiT

一句话总结¶

提出 KV-Lock，基于扩散模型幻觉检测动态调度背景 KV 缓存融合比例和 CFG 引导强度，在无需训练的前提下同时保证视频编辑的背景一致性和前景生成质量。

研究背景与动机¶

视频编辑的核心挑战在于：编辑前景目标的同时保持背景场景的高保真。现有方法存在两个极端：

全图信息注入（如 cross-attention 操纵、latent 空间插值）：编辑效果容易泄漏到背景区域，导致背景伪影，尤其在颜色、姿态等属性上产生局部幻觉。

刚性背景锁定（固定 KV 缓存权重）：过度约束模型的表达能力，导致前景生成质量下降。

近期工作（ProEdit、Follow-Your-Shape）虽然利用了 DiT 架构中的 KV 缓存来保持背景，但采用固定的融合权重或简单启发式调度，无法自适应地平衡前景质量与背景一致性。这引出了一个核心问题：何时应该将注意力锁定到缓存的 KV 上，何时应该允许模型重新计算注意力模式？

KV-Lock 的核心洞察：扩散模型的幻觉检测指标（\(\hat{x}_0\) 轨迹方差）与 CFG 引导尺度的多样性调节功能天然对应——可以用方差作为统一的调度信号，将启发式调参转为基于方差的原理性决策。

方法详解¶

整体框架¶

KV-Lock 是一个即插即用的 training-free 框架，适用于任意预训练 DiT 模型。整体流程分为三个阶段：

编码阶段：3D VAE 将源视频编码为 latent 表示，同时将编辑 mask 映射到 token 空间
反演阶段（Inversion）：对源视频进行前向扩散，在每个时间步和每层 Transformer 中缓存源视频的 KV 对
去噪阶段（Denoising）：基于幻觉检测的调度器动态融合新生成的 KV 与缓存的 KV（保背景），同时动态调节 CFG 引导强度（优前景）

关键设计一：Token 级 KV 缓存锁定¶

Latent 空间 Mask 编码¶

输入视频 \(\mathcal{V}_{\text{src}} \in \mathbb{R}^{3 \times F \times H \times W}\) 经 3D VAE 编码（压缩比 \(s = (4, 8, 8)\)），编辑 mask \(\mathcal{M}\) 通过时间维度 max-pooling 与 VAE 的时间压缩对齐：

\[m_0^{\text{latent},t} = \begin{cases} \max(\mathcal{M}_0), & t=0 \\ \max(\mathcal{M}_{[1+(t-1)s_t : 1+ts_t]}), & t \geq 1 \end{cases}\]

max-pooling 确保时间窗口内任何帧需要编辑时，对应 latent mask 均标记为 1。

Token 空间投影¶

DiT 对 latent 做 patchify（patch size \(p = (1, 2, 2)\)），产生 \(N = T \cdot (h/p_h) \cdot (w/p_w)\) 个 token。mask 通过 3D MaxPool 对齐到 token 空间：

\[m_{\text{token}} = \text{Flatten}(\text{MaxPool3D}(m_0^{\text{latent}}, \text{kernel}=p, \text{stride}=p)) \in \{0,1\}^N\]

这保证了 token \(i\) 的感受野只要覆盖任何被 mask 的像素，就标记为前景 token。

KV 缓存提取¶

在每个去噪时间步 \(t_k\)，构造带噪源 latent：

\[z_{t_k}^{\text{src}} = \sqrt{\bar{\alpha}_{t_k}} \mathcal{E}(\mathcal{V}_{\text{src}}) + \sqrt{1 - \bar{\alpha}_{t_k}} \epsilon\]

通过前向传播提取所有 \(L=24\) 层 Transformer 的 KV 对：

\[\mathcal{K}_k^\ell = W_K^{(\ell)} h_{t_k}^{(\ell)}, \quad \mathcal{V}_k^\ell = W_V^{(\ell)} h_{t_k}^{(\ell)}, \quad \forall \ell \in \{1, \ldots, L\}\]

这些缓存的 KV 作为"内容锚点"。注意力机制可理解为可微检索：query \(q_i\) 与所有 key 计算相似度后加权聚合 value。当背景 token 的 KV 被替换为源视频缓存时，注意力输出被约束在源内容的流形上，提供确定性的重建机制。

关键设计二：幻觉感知的动态 KV 融合¶

全部锁定背景 KV 会约束模型对前景的生成能力。为此引入动态融合率 \(\alpha_k \in [0,1]\)，根据去噪方差调节 KV 锁定强度：

\[\alpha_k = \text{clamp}\left(\frac{\sigma_{\hat{x}_0^{(k)}}^2}{\tau}, 0, 1\right)\]

其中 \(\tau = 0.01\) 是幻觉阈值。在最后 \(\kappa = 20\) 个采样步中，对背景 token 执行加权插值：

\[K_k^{\text{mix}} = m_{\text{token}} \odot K_k^{\text{new}} + (1 - m_{\text{token}}) \odot (\alpha_k \cdot \tilde{\mathcal{K}}_k^\ell + (1 - \alpha_k) \cdot K_k^{\text{new}})\]

\[V_k^{\text{mix}} = m_{\text{token}} \odot V_k^{\text{new}} + (1 - m_{\text{token}}) \odot (\alpha_k \cdot \tilde{\mathcal{V}}_k^\ell + (1 - \alpha_k) \cdot V_k^{\text{new}})\]

前景 token（\(m_{\text{token}} = 1\)）：使用新生成的 KV，保留完全自由度
背景 token（\(m_{\text{token}} = 0\)）：在缓存 KV 与新 KV 之间插值，\(\alpha_k\) 越大锁定越强

设计动机：高方差 = 模型在当前区域不确定 → 需要更强的背景约束防止幻觉向背景扩散。

关键设计三：前景生成引导（优化 CFG）¶

自适应缩放因子 \(s^*\)¶

标准 CFG 使用固定引导强度 \(\omega\) 线性插值条件/无条件噪声预测，但无法补偿模型欠拟合导致的噪声估计偏差（尤其在早期去噪阶段）。引入可优化缩放因子 \(s\)：

\[\tilde{\epsilon}_\theta(x_t, t | y) = (1 - \omega) \cdot s \cdot \epsilon_\theta(x_t, t | \emptyset) + \omega \cdot \epsilon_\theta(x_t, t | y)\]

目标：最小化 \(\|\tilde{\epsilon}_\theta - \epsilon_t\|_2^2\)。由于真实噪声 \(\epsilon_t\) 不可观测，通过三角不等式推导上界，消去 \(\epsilon_t\) 后得闭式解：

\[s^* = \frac{\langle \epsilon_\theta(x_t, t | y), \epsilon_\theta(x_t, t | \emptyset) \rangle}{\|\epsilon_\theta(x_t, t | \emptyset)\|_2^2 + \varepsilon}\]

几何意义：\(s^*\) 是条件噪声预测向量在无条件噪声预测方向上的正交投影，对齐两个噪声估计以减少模型欠拟合引入的偏差。计算开销仅为一次内积和范数运算。

幻觉感知的动态 CFG 引导¶

当检测到幻觉风险时，在窗口 \(W = 10\) 内动态调大引导强度：

\[\omega = \omega_0 \cdot \text{clamp}\left(\frac{\sigma_{\hat{x}_0^{(k)}}^2}{\tau}, 0, b\right)\]

其中 \(b = 2\) 为 clamp 上界。核心洞察：CFG 的引导强度 \(\omega\) 本身就调控生成样本的多样性，这与幻觉检测的方差度量天然对应——当方差高（幻觉风险大）时增大 \(\omega\) 可约束样本多样性、强制条件对齐、稳定扩散过程。在扩散早期所有样本方差都高，因此仅在最后 \(\kappa = 20\) 步中激活动态调度。

关键设计四：局部幻觉检测¶

利用滑动窗口追踪前景区域的 \(\hat{x}_0\) 方差作为幻觉代理指标：

\[\hat{x}_0^{\text{masked},(k)} = \frac{1}{B} \sum_{b=1}^{B} \text{Flatten}(\hat{x}_0^{(k,b)} \odot m_0^{\text{latent}})\]

\[\sigma_{\hat{x}_0^{(k)}}^2 = \frac{1}{W-1} \sum_{i=t_k-W+1}^{t_k} (\hat{x}_0^{\text{masked},(i)} - \bar{\hat{x}}_0^{\text{masked}})^2\]

方差超过阈值 \(\tau = 0.01\) 则标记为幻觉风险。关键改进：相比全局方差计算，局部方差（仅 mask 区域）可以更灵敏地捕捉幻觉信号——消融实验中全局检测的 Ave. 为 84.05% vs 局部检测的 84.87%。

理论依据：in-support 样本的 \(\hat{x}_0\) 在后期去噪阶段收敛到一致表示（低方差）；hallucinated 样本因模式插值导致不确定性，\(\hat{x}_0\) 持续波动（高方差）。

实验¶

实验设置¶

基座模型: Wan 2.1（用于 CFG-Zero*、APG、ProEdit、KV-Lock），SD 2.1（用于 FateZero、FLATTEN、TokenFlow）
测试数据: 52 个样本（22 个 VACE-Benchmark + 30 个网络视频），80-210 帧，分辨率 480×832
硬件: A100 80GB GPU
评估指标: VBench 5项（SC/BC/MS/AQ/IQ）、背景指标（SSIM/PSNR）、用户研究 3 维度（PF/FC/VQ，54 份有效问卷）

主实验结果¶

方法	SC↑	BC↑	AQ↑	IQ↑	Ave.↑	SSIM↑	PSNR↑	User↑	Time(s)↓
FateZero	87.17	92.89	53.84	57.53	77.23	0.715	17.57	1.74	3.98
FLATTEN	92.90	95.54	53.24	59.41	79.71	0.772	19.30	2.60	1.14
TokenFlow	93.64	96.17	57.22	69.67	83.03	0.805	20.07	2.51	11.92
CFG-Zero*	93.80	95.99	61.22	71.04	84.16	0.911	26.65	4.01	5.58
APG	93.39	96.25	60.09	71.53	84.02	0.921	26.04	3.95	5.80
ProEdit	93.96	96.23	61.62	72.23	84.52	0.912	27.57	4.06	7.20
VACE	93.82	95.85	61.25	71.01	84.13	0.922	31.20	4.10	5.25
KV-Lock	94.56	96.92	62.15	72.18	84.87	0.931	31.04	4.21	7.39

消融实验¶

配置	SC↑	BC↑	MS↑	Ave.↑	SSIM↑	PSNR↑
仅方差 KV 调度	93.01	95.89	98.10	83.69	0.913	31.01
仅 CFG ω 调度	93.32	93.89	97.72	83.46	0.922	29.84
仅 CFG s* 调度	91.76	92.18	96.92	82.24	0.914	29.59
CFG s* + ω 调度	93.28	95.71	98.63	84.05	0.913	30.55
固定融合 α=0.5	90.33	93.97	97.51	82.58	0.918	30.90
全局幻觉检测	93.14	95.85	98.28	84.05	0.925	30.96
完整模型	94.56	96.92	98.57	84.87	0.931	31.04

关键发现¶

三模块协同不可或缺：KV 调度、CFG ω 调度、CFG s* 优化三者组合才达最优，单独使用均有明显差距（Ave. 82.24~83.69 vs 84.87）
动态调度远优于固定策略：固定 α=0.5 的 SC 仅 90.33%，远低于动态调度的 94.56%（↓4.23%），证明自适应调度的核心价值
局部幻觉检测优于全局：全局检测稀释信号导致漏检，SSIM 从 0.925 提升至 0.931
超越训练方法 VACE：在 VBench Ave.（84.87 vs 84.13）和用户研究（4.21 vs 4.10）上均优于训练式 VACE
推理时间代价：每次迭代 7.39s，主要开销来自 KV 缓存和滑动窗口计算，额外显存约 10GB

亮点¶

理论驱动的统一调度：方差 → 幻觉风险 → 同时驱动 KV 融合率和 CFG 强度，一个信号解决两个问题，设计简洁优雅
闭式 CFG 缩放因子 \(s^*\)：通过上界推导消去不可观测的真实噪声，得到正交投影的解析解，无需迭代优化
即插即用：training-free，可无缝集成到任意预训练 DiT 模型（Wan 2.1 验证）
全面评估体系：52 样本 × 5 VBench 指标 + 2 背景指标 + 3 用户研究维度 + 54 份有效问卷 + 详尽消融

局限¶

推理速度偏慢（7.39s/iter），KV 缓存需预跑一遍源视频
额外 GPU 显存开销约 10GB
依赖外部 mask 输入区隔前背景，未实现自动分割
扩散幻觉定义模糊，方差检测可能遗漏非方差型幻觉
部分基线（FateZero/FLATTEN/TokenFlow）使用 SD 2.1 而非 Wan 2.1，存在基座差异

评分¶

⭐⭐⭐⭐ (4/5)

创新性 ⭐⭐⭐⭐：幻觉检测驱动动态调度的思路新颖，方差-CFG-KV 三者的理论联系论证充分
实验 ⭐⭐⭐⭐：指标全面、消融详尽，但 52 样本偏少且部分基线基座不统一
写作 ⭐⭐⭐⭐：数学推导严谨，框架图直观，动机阐述清晰
实用性 ⭐⭐⭐：training-free 且即插即用是优势，但推理慢和依赖 mask 限制实际场景