I'm a Map! Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers¶

会议: CVPR 2026
arXiv: 2603.02919
代码: https://github.com/youngjun-jun/IMAP
领域: 视频理解
关键词: 视频扩散模型, 可解释性, 运动定位, 注意力分析, 显著性图

一句话总结¶

提出IMAP(可解释运动注意力图)，通过GramCol空间定位和运动头选择时序定位两个无训练模块，从Video DiT中提取运动概念的时空显著性图，在运动定位和零样本视频语义分割上超越现有方法。

研究背景与动机¶

领域现状: Video Diffusion Transformers(如CogVideoX/HunyuanVideo)已能生成高质量视频，但对其内部机制的理解仍不充分。现有可解释性工作主要集中在图像DiT上。
现有痛点: 已有方法ConceptAttention仅提供空间分离，不处理运动/时序；DiTFlow/DiffTrack关注帧间视觉token的动态对应，但不分析文本如何转化为运动。核心问题未解答：Video DiT真的理解并创造运动了吗？
核心矛盾: 视频的核心区别于图像的是时序运动信息，但现有显著性图方法只做空间定位，无法回答"何时、哪个物体在运动"这一关键问题。
本文目标: 为视频DiT中的运动概念构建时空定位的可解释显著性图。
切入角度: 分析Video DiT的多头注意力发现：QK匹配有强空间定位能力，帧嵌入分离度与运动可定位性相关。不同注意力头有不同角色——某些头专注时序运动特征。
核心 idea: 用GramCol做空间定位（文本代理token+Gram矩阵），用帧分离度评分选择运动头做时序定位。

方法详解¶

整体框架¶

Pipeline在Video DiT的MM-Attn模块上运行。给定概念词：(1)通过QK匹配找到最相关的视觉token作为文本代理；(2)用GramCol计算基于Gram矩阵的空间显著性图；(3)对运动概念，额外进行运动头选择——用Calinski-Harabasz指数衡量帧间分离度，只保留top-k运动头的特征来计算IMAP。全程无需梯度计算、无需参数更新。

关键设计¶

GramCol空间定位:
- 功能：为任意文本概念生成每帧的空间显著性图。
- 核心思路：对每帧\(f_i\)，通过QK匹配\(s_{f_i}^c = \arg\max_p \text{row}_p(q_{f_i})k_c^\top\)找到与概念c最匹配的视觉token作为文本代理。GramCol为视觉Gram矩阵\(G = h_x h_x^\top \in \mathbb{R}^{P \times P}\)的第\(s_{f_i}^c\)列，即所有视觉token与代理token的相似度向量。最终对选定时间步、层、头取平均。
- 设计动机：相比ConceptAttention(跨模态特征相乘)，GramCol在同一模态空间内计算相似度，天然保证"正向高亮"的可解释性——与代理token相似的区域自动获得正的大值。而且不需要对概念列表做softmax，单个概念就能工作。
运动头选择 (Motion Head Selection):
- 功能：识别Video DiT中专门处理运动的注意力头，实现时序定位。
- 核心思路：对每个注意力头，将视觉token按帧分为\(F\)个聚类，计算Calinski-Harabasz指数(CHI)衡量帧间特征分离度。CHI越高说明该头的帧间差异越大，即包含更多时序运动信息。每层选择top-5高CHI头，只用这些头的特征计算GramCol，得到IMAP。Pearson相关系数0.60验证了CHI与运动定位得分的正相关。
- 设计动机：运动是帧间变化，包含强运动信息的头的帧间特征自然应该差异大。与直接聚合所有头相比，选择运动头消除了空间头的干扰，使得运动定位更清晰。
层与时间步选择:
- 功能：缩小分析范围，只在信息丰富的层和时间步上提取特征。
- 核心思路：排除早期时间步（接近噪声，语义不可解，且容易出现记忆相关伪影如水印）。层选择基于注意力矩阵的第二大特征值\(\lambda_2\)——在DTMC框架下，\(\lambda_2\)越大表示转移矩阵越informative。CogVideoX选\(\lambda_2 > 0.7\)的层，HunyuanVideo选\(> 0.75\)。
- 设计动机：\(L \times T\)个层×时间步的空间太大，全聚合会稀释信号。基于\(\lambda_2\)的自动选择避免了手动调参。

损失函数 / 训练策略¶

IMAP是完全无训练、无梯度的方法。不需要任何额外训练或参数更新。对于真实视频，通过加噪-去噪过程提取特征。GramCol只需Gram矩阵的一列——计算复杂度\(O(Pd)\)的矩阵乘法加\(O(P)\)的索引操作。CHI的计算也是轻量级操作（帧间/帧内方差比）。整个pipeline的额外开销相对于Video DiT的推理本身可以忽略不计。实验中处理49帧视频的全部分析可在数秒内完成。实现细节：CogVideoX用\(\lambda_2 > 0.7\)的层，HunyuanVideo用\(\lambda_2 > 0.75\)的层。运动头选择固定取top-5。仅使用双流MM-DiT块（HunyuanVideo的单流块不使用）。

实验关键数据¶

主实验 (运动定位)¶

方法	Backbone	SL	TL	PR	SS	OBJ	Avg
ViCLIP	ViT-H	0.33	0.17	0.35	0.29	0.28	0.28
DAAM	VideoCrafter2	0.36	0.17	0.38	0.32	0.35	0.32
ConceptAttn	CogVideoX-5B	0.50	0.32	0.51	0.47	0.47	0.45
IMAP	CogVideoX-5B	0.58	0.65	0.64	0.52	0.59	0.60
ConceptAttn	HunyuanVideo	0.42	0.26	0.44	0.35	0.34	0.36
IMAP	HunyuanVideo	0.60	0.41	0.62	0.50	0.62	0.55

消融实验¶

配置	Avg Score	说明
Cross-Attention Map	0.34	基础注意力图
GramCol (全部头)	~0.45	空间定位有效但时序不精确
GramCol + 层选择	~0.50	排除低info层后提升
IMAP (GramCol + 运动头)	0.54-0.60	运动头选择带来时序定位突破

关键发现¶

时序定位(TL)是IMAP最大优势：在CogVideoX-2B上TL从0.56(Cross-Attn)提升到0.62，在HunyuanVideo上从0.26提升到0.41。
GramCol比ConceptAttention更为稳定：ConceptAttention在不同头之间行为异质导致不稳定，GramCol使用同模态相似度避免了这一问题。
运动头选择的有效性通过CHI-MLS的正相关(r=0.60)得到验证,随机选头性能显著下降。
IMAP在零样本视频语义分割任务上同样有效。

亮点与洞察¶

文本代理token的巧妙设计：不直接用跨模态的文本token计算相似度，而是用QK匹配找到"最能代表文本概念"的视觉token，将跨模态问题转化为同模态问题。这个思路可以推广到任何需要跨模态定位的场景。
运动=帧间差异的简单假设：用聚类分离度衡量运动信息含量，计算开销极低(CHI是轻量操作)，却非常有效。证明了有时候简单的统计指标比复杂的学习方法更适合做特征选择。
对Video DiT内部机制的洞察：发现不同注意力头确实分工明确(空间vs运动)，\(\lambda_2\)大的层更语义化——这为未来Video DiT的设计和优化提供了指导。

局限与展望¶

评估依赖LLM评分：使用OpenAI o3-pro进行MLS评估，虽然使用了详细的rubric，但LLM评估的可复现性和一致性仍有顾虑。缺少人类评估的对比验证。
对非常微妙的运动（如微表情变化、缓慢渐变）的定位能力未验证——CHI分离度可能无法捕捉这类细粒度帧间差异。
目前只在CogVideoX (2B/5B) 和HunyuanVideo上验证，对其他架构（单流DiT、跨注意力架构）的适用性需要更多实验。
运动头选择的top-k=5是全局固定的，不同视频/运动类型可能需要不同数量的头。自适应k值选择是自然的改进方向。
\(\lambda_2\)层选择阈值（CogVideoX 0.7, HunyuanVideo 0.75）也是手动设定的，缺乏自动化的选择策略。
IMAP是分析工具而非生成控制工具，如何将运动头发现反向用于运动生成/编辑控制是值得探索的方向。
目前的benchmark（504视频，150种运动类型）规模有限，大规模评估有待构建。
对多个物体同时运动的场景（如两人互动），各物体的运动分离能力需要进一步验证。

评分¶

新颖性: ⭐⭐⭐⭐ GramCol+运动头选择的设计新颖且优雅，首次系统研究Video DiT中的运动可解释性
实验充分度: ⭐⭐⭐⭐ 三个Video DiT模型验证，含消融和零样本分割，benchmark构建规范
写作质量: ⭐⭐⭐⭐⭐ 分析层次清晰，从时间步→层→头逐步缩小范围，每步都有理论依据和实验验证
价值: ⭐⭐⭐⭐ 为Video DiT可解释性研究开辟了运动维度，GramCol和IMAP都有实用价值