Geometry-Guided Camera Motion Understanding in VideoLLMs¶

会议: CVPR 2026
arXiv: 2603.13119
代码: 待确认
领域: 多模态VLM
关键词: VideoLLM, 相机运动识别, 3D foundation model, structured prompting, VGGT

一句话总结¶

本文揭示了 VideoLLM 在细粒度相机运动原语（pan/tilt/dolly等）识别上几乎等于随机猜测，构建了 CameraMotionDataset（12K 段 × 15 种原子运动）和 CameraMotionVQA benchmark，并提出通过冻结 3DFM（VGGT）提取几何相机线索 + 轻量时序分类器 + structured prompting 注入的 model-agnostic 方案来弥补这一能力缺口。

研究背景与动机¶

领域现状：VideoLLM（Qwen2.5-VL、InternVL、VideoLLaMA 等）在高层视频语义理解上进步显著——物体识别、动作理解、叙事推理等。但这些模型主要优化语义对齐和时序推理，对"镜头是怎么拍的"这一电影语法核心要素缺乏建模。
现有痛点：
相机运动是时空几何信号：不能从单帧获取，容易被物体运动、剪切和运动模糊混淆。帧级感知很强的模型仍无法将相机建模为视觉流的"源头"。
ViT 深层 token 压缩丢失运动线索：VideoLLM pipeline 中视觉 token 随网络深度被压缩，微妙的时序运动线索被衰减。
训练数据缺乏相机运动监督：大规模视频字幕/VQA 语料中几乎没有显式的相机运动标注。
核心矛盾：VideoLLM 的表示空间被优化用于语义对齐而非精确 3D 几何变化，导致相机运动信息在表征中"被挤掉"。
本文要解决什么：(a) 构建可靠的相机运动评测基准；(b) 诊断运动线索在 VideoLLM 中哪里丢失；(c) 在不修改 VideoLLM 权重的前提下注入几何相机线索。
切入角度：核心假设——可靠的相机运动线索可以从具备 3D 推理能力的几何基础模型（3DFM）中获取，外挂式注入到 VideoLLM 中。用合成数据（UE5 渲染、精确 camera extrinsics）提供确定性标注。
核心 idea 一句话：用冻结 3DFM 抽取相机几何线索，轻量分类器预测约束感知的运动原语，通过 structured prompt 注入冻结 VideoLLM，无需任何微调即提升相机运动感知。

方法详解¶

整体框架¶

Pipeline 分为四步（见图1）：(1) 输入视频分割为 shot，每个 shot 切分为不重叠的 1 秒段；(2) 冻结 VGGT 对每段的 $T=8$ 帧提取 camera tokens $\{c_t\}_{t=1}^T$，$c_t \in \mathbb{R}^{2048}$；(3) 轻量 Transformer 时序分类器预测约束感知的 multi-label 运动原语；(4) 预测结果序列化为 structured prompt 前缀注入到下游冻结 VideoLLM 推理。整个过程 model-agnostic，不改动任何 VideoLLM 参数。

关键设计¶

CameraMotionDataset 构建
做什么：从 ReCamMaster 的 MultiCamVideo（UE5 渲染，136K 视频，112K 相机轨迹）中构建精确标注的相机运动数据集。
核心思路：每个视频切分为不重叠 1 秒段，每段均匀采样 $T=8$ 帧并 resize 到 $336 \times 336$。利用逐帧 camera extrinsic 矩阵计算每段的平移和旋转变化（yaw/pitch/roll 增量和前后平移），通过阈值化模式匹配映射到 15 种原子运动原语（pan-left, tilt-down, dolly-in 等）。多个原语可共现（如 arc-clockwise + dolly-in），但互斥对不能共存。经 stratified sampling 得到 12,274 段平衡子集。人工验证 720 段达 93% 一致率。
设计动机：与 CameraBench 等人工标注 benchmark 不同，本数据集从精确 camera parameters 确定性导出标签，标注质量更高且可大规模扩展。
CameraMotionVQA：将每个 1 秒段转为 4 选 1 MCQ，干扰项与正确答案具有相似标签复杂度且都满足互斥约束，避免答案长度偏差。
约束感知运动分类器
做什么：将 VGGT 的 camera tokens 映射为约束合规的 multi-label 运动预测。
核心思路：camera token $c_t$ 先经线性投影 $W_p$ 到 $c_t' \in \mathbb{R}^{512}$（信息瓶颈层），加正弦位置编码，前插可学习 [CLS] token，经 $L=4$ 层 Transformer encoder（8 头注意力）处理，最终 [CLS] embedding 经线性投影输出 $K=15$ 维 logits $s$，$p_k = \text{sigmoid}(s_k)$。
训练损失三项： $$\mathcal{L} = \mathcal{L}_{bce} + \lambda_{inc} \cdot \mathcal{L}_{inc} + \lambda_{card} \cdot \mathcal{L}_{card}$$
- $\mathcal{L}_{bce}$：标准 binary cross-entropy
- $\mathcal{L}_{inc} = \sum_{i<j} M_{ij} \cdot p_i \cdot p_j$：互斥正则，$M \in \{0,1\}^{K \times K}$ 是互斥矩阵，惩罚互斥原语同时激活
- $\mathcal{L}_{card}$：基数正则，约束激活原语数在 [1, 3] 范围内
推理时以 $\tau=0.5$ 阈值化，再用互斥矩阵后处理排除冲突组合。
Structured Prompting 注入
做什么：将分类器预测的运动原语以结构化文本形式注入到冻结 VideoLLM 的 prompt 中。
核心思路：对一个 shot 的 $S$ 个 1 秒段，每段运动标签序列化为字符串（如 "pan-left and tilt-up"），拼接成 per-shot 列表："Per-second camera motion: [$m_1, m_2, \ldots, m_S$]"，前置于用户 instruction。提示模板引导模型用电影语言描述视频，强调相机使用。
设计动机：training-free，不改任何 VideoLLM 权重，完全 plug-and-play。利用 LLM 的 in-context learning 能力将几何先验"免费"注入推理。
Q-Former Probing 诊断
做什么：诊断 VideoLLM 视觉编码器中相机运动信息在哪里丢失。
核心思路：冻结 Qwen2.5-VL 视觉编码器，在不同深度的 full-attention block（index 7, 15, 23, 31）提取中间特征，用 Q-Former 风格 probe（2 层 Transformer + 4 learnable query tokens + 1D temporal conv）训练 multi-label 预测。
关键发现：性能在第一个 full-attention block 达峰值，随后逐层下降。证实相机运动线索随深度递减，被语义对齐优化"挤掉"。
VGGT–Q-Former 蒸馏（可选效率优化）
做什么：将 1.2B 参数的 VGGT 蒸馏到轻量 Q-Former student，复用 VideoLLM 冻结视觉特征。
核心思路：student 采用 interleaved local-frame / global attention（模仿 VGGT 结构），4 个 learnable query，2 local + 2 global blocks。三阶段渐进训练：(1) 训练 motion classifier 50 epoch；(2) 训练 Q-Former 回归 projected VGGT tokens 100 epoch（MSE loss）；(3) 联合微调 30 epoch。
效果：instance accuracy 降 8.13%，但吞吐量提升 5.3×，显存降至 39%。

损失函数 / 训练策略¶

分类器：$\mathcal{L}_{bce} + \mathcal{L}_{inc} + \mathcal{L}_{card}$，$\lambda_{inc} = \lambda_{card} = 1.0$。蒸馏用 MSE regression loss。单卡 RTX A6000，Adam lr=1e-4。

实验关键数据¶

主实验：Multi-label 相机运动识别（CameraMotionDataset test split）¶

方法	Instance Acc.	Macro-F1	Weighted-F1
VGGT w. constraints	0.738	0.87	0.92
VGGT w/o constraints	0.572	0.79	0.84
VGGT–Q-Former (蒸馏)	0.638	0.83	0.87
Q-Former probing	0.450	0.69	0.74

效率对比¶

Pipeline	可训练参数 (M)	峰值显存 (MB)	吞吐量 (samples/s)
VGGT classifier	9.47	23649	4.39
VGGT–Q-Former	9.15	9203	23.36
Q-Former probing	15.18	9232	25.12

关键发现¶

现有 VideoLLM 接近随机猜测：在 CameraMotionVQA 上，大部分模型准确率接近 25%（4 选 1 random baseline），包括 Qwen2.5-VL、InternVL 等。甚至 CameraBench fine-tuned 版本表现更差于原模型。
约束建模至关重要：加 incompatibility constraint 将 instance accuracy 从 0.572 提升到 0.738（+16.6%），说明建模物理互斥关系对多标签预测有显著收益。
运动线索随深度衰减：probing 实验确认 Qwen2.5-VL 第 7 层特征的运动可恢复性最高，31 层（最终层）最差，支持"深层 token 压缩丢失运动信息"的假设。
Structured prompting 有效：注入运动标签后，VideoLLM 从模糊的"camera quickly pans with motion blur"变为精确的"pan-left followed by static medium close-up"，能生成时序结构化的电影语言描述。
蒸馏可行但有 trade-off：VGGT→Q-Former 蒸馏在 accuracy 上损失 8.13%，但吞吐量提升 5.3 倍、显存降 61%。
static 类是 VGGT 的弱点：静止场景对 VGGT（其重建先验假设有相机运动）而言是 OOD，需要专门处理。

亮点与洞察¶

"benchmarking → diagnosis → injection" 的研究范式很值得学习：先量化问题（CameraMotionVQA 显示 VideoLLM 几乎瞎猜）→诊断根因（probing 证实运动信息随深度衰减）→提出解决方案（3DFM 外挂注入）。这种"诊断驱动"的方法论比直接提出方法更有说服力。
Constraint-aware multi-label 的建模：用互斥矩阵 $M$ 在训练和推理两端强制物理约束，简单但有效。这个思路可以迁移到任何具有物理/逻辑互斥约束的多标签分类任务。
Model-agnostic + training-free 的 plug-and-play 设计：完全不动 VideoLLM 权重，只用 structured prompt 注入，实用性极高。任何新的 VideoLLM 都可以直接使用。

局限性 / 可改进方向¶

合成到真实的域差距：CameraMotionDataset 基于 UE5 渲染的合成数据，真实视频中的运动模糊、压缩伪影、非理想相机模型可能导致性能下降。
只关注 extrinsic 运动，忽略 intrinsic 变化（zoom）：zoom in/out 是电影语法中极常用的技巧，当前方法无法检测。
仅探索一种 3DFM（VGGT）：未对比 DUSt3R、MASt3R 等其他几何基础模型。
Structured prompting 依赖 LLM 的 in-context learning 质量：不同 VideoLLM 对 prompt 的敏感度不同，效果可能不一致。
1 秒段粒度可能太粗：快速相机运动变化（如<0.5s 的 whip pan）可能被漏检。

评分¶

新颖性: ⭐⭐⭐⭐ 问题定义和诊断方法新颖，但技术方案（分类器+prompt注入）相对直接
实验充分度: ⭐⭐⭐⭐ benchmark 构建严谨、消融充分，但缺少真实视频评估
写作质量: ⭐⭐⭐⭐⭐ "benchmark→diagnosis→injection" 结构清晰，图表质量高
价值: ⭐⭐⭐⭐ 揭示了 VideoLLM 的一个严重能力缺口，方案实用且 plug-and-play