跳转至

Dynamic Reflections: Probing Video Representations with Text Alignment

会议: ICLR 2026
arXiv: 2511.02767
代码: https://video-prh.github.io (有)
领域: LLM推理
关键词: 视频表示对齐, 柏拉图表示假说, 测试时缩放律, 跨模态对齐, 自监督学习

一句话总结

本文首次将柏拉图表示假说(Platonic Representation Hypothesis)扩展到时序领域,系统研究了视频-文本跨模态表示对齐,发现通过在测试时增加视频帧数和文本描述数量可以显著提升对齐分数(最高翻倍),并提出了具有强预测力的参数化缩放律。

研究背景与动机

柏拉图表示假说(PRH)认为,随着神经网络在容量、数据多样性和任务种类上扩展,其学到的内部表示会趋向一个共享的、通用的现实统计模型。此前的研究已在图像-文本静态模态间验证了这一假说,发现独立训练的视觉和语言编码器的潜空间具有惊人的结构相似性。

然而,先前工作几乎完全局限于静态模态,视频数据中蕴含的运动、因果和时序依赖信息在表示对齐的研究中被忽略了。此外,Huh et al. (2024) 提出了一个开放问题:对齐分数的绝对值难以解释——0.16 究竟算高还是低?本文对此给出了部分回答:之前观察到的有限对齐很大程度上是因为测试时提供的数据太少。

方法详解

整体框架

沿用 Huh et al. (2024) 的 Mutual k-NN (MkNN) 指标衡量跨模态对齐,并将其扩展到多帧/多描述的视频-文本对齐场景。给定 N 个视频-文本对,分别通过视频编码器和文本编码器得到嵌入矩阵 X ∈ ℝ^{N×p} 和 Y ∈ ℝ^{N×q},然后计算两个空间中 k-近邻集合的重叠度。

关键设计

多帧视频编码:对于原生处理 n_o 帧的视频编码器,通过均匀线性插值提取 n_f 帧。当 n_f > n_o 时,将视频切分为多个 n_o 长度的子片段,分别编码后取平均表示。使用单帧(n_f=1)对应先前图像-文本对齐的设置。

多描述文本编码:将多条描述拼接为一个长字符串,通过文本编码器(包括 LLM)提取中间层特征,对 token 维度取均值得到 [layer, hidden_dim] 形状的特征。

测试时缩放律:基于经验观察,提出饱和模型来量化对齐分数对帧数和描述数的依赖关系:

score(n_f, n_c) = S_∞ - (C_f · n_f^{-α} + C_c · n_c^{-β})

其中 S_∞ 是理论饱和分数,C_f、C_c、α、β 为拟合参数。该模型对 VideoMAEv2 的 R²=0.9791,对 DINOv2 的 R²=0.9964。

大规模模型评估:共测试了 121 个视觉和语言模型的组合,包括 85 个不同的视觉模型变体。视觉模型分为纯图像模型(单帧)、图像模型视频化(多帧平均)、和原生视频模型三类。

损失函数 / 训练策略

本文是分析评估类工作,不涉及模型训练。核心在于在测试时通过增加数据量(帧数和描述数)来提升对齐质量,这与训练时扩展(模型大小、训练数据量)形成互补。

实验关键数据

主实验

在 VATEX 数据集(10 秒视频 + 10 条独立标注)上的视频-文本对齐结果:

视觉模型 文本编码器 条件 MkNN对齐分数
DINOv2 (图像, 单帧) 非Gemma最佳 1帧1描述 ~0.18
DINOv2 (图像, 单帧) Gemma 2 9B-it 1帧1描述 ~0.206
DINOv2 (图像→视频) Gemma 2 9B-it 8帧平均 ~0.223
VideoMAEv2 (视频) Gemma 2 9B-it 多帧多描述 ~0.41 (饱和值)
DINOv2 (图像→视频) Gemma 2 9B-it 多帧多描述 ~0.37 (饱和值)

关键发现:原生视频模型的饱和对齐分数(0.41)超过最强图像模型(0.37),帧系数 C_f 是 DINOv2 的 3 倍。

消融实验

消融因素 观察结果
帧数 (1→80) 对齐分数稳步提升,视频模型比图像模型受益更大
描述数 (1→10) 从 1 到 10 条描述平均提升对齐 60%
缩放律拟合 VideoMAEv2: R²=0.9791, S_∞=0.41; DINOv2: R²=0.9964, S_∞=0.37
下游任务相关性 对齐分数与动作分类(SSv2, Kinetics)强正相关,与深度估计、相机位姿估计也正相关
时序敏感性 LLM 更像词袋模型,视频模型对时序重排序文本对齐下降更多
合成描述 即使从单条长描述合成多条短描述,也能提升对齐 (PVD 数据集验证)

关键发现

  1. 测试时数据量至关重要:增加帧数和描述数可将对齐分数从 ~0.18 提升至 ~0.41,接近翻倍
  2. 原生视频模型优于图像模型:自监督训练的 VideoMAEv2 在文本对齐上超越强图像模型 DINOv2,表明时序动态对语义理解很重要
  3. 对齐可作为零样本评估指标:视频-文本对齐与下游任务性能(语义和非语义任务)强相关,可替代昂贵的任务特定评估
  4. LLM 不善于编码时序:语言模型在浅层特征中更像词袋模型,对时序顺序不敏感

亮点与洞察

  • 首次将 PRH 扩展到时序领域:填补了表示对齐研究中视频模态的空白,发现结论与静态模态一致但更强
  • 测试时缩放律:类比训练时 compute-optimal scaling laws,提出了测试时数据缩放律,R² > 0.98 的拟合质量令人印象深刻
  • 实用价值:视频-文本对齐作为零样本评估指标,可指导视频模型开发,避免反复训练跨模态解码器
  • 回答了开放问题:Huh et al. 提出的"对齐分数绝对值如何解释"的问题,在多帧多描述设置下得到了清晰回答

局限性 / 可改进方向

  1. 点跟踪任务与对齐的相关性较弱,说明当前对齐指标可能无法捕捉局部细粒度能力
  2. 许多视频模型的对齐分数仍低于帧级平均的图像模型,说明视频基础模型仍有提升空间
  3. 生成式视频模型的潜在表示与文本的对齐目前很弱,未来如何利用值得探索
  4. 实验主要使用 VATEX 和 PVD 数据集,长视频和更复杂的时序推理场景覆盖有限

相关工作与启发

本文是 PRH 方向的自然延伸,与 Maniparambil et al. (2024) 的图像-文本对齐工作、VideoMAEv2 等自监督视频学习以及 Gemma 系列 LLM 作为文本编码器的发现相衔接。测试时缩放律的发现与 Kaplan/Hoffmann 的训练缩放律思路一致,暗示"测试时 scaling"是一个值得系统研究的新方向。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次扩展 PRH 至视频领域,缩放律发现新颖
  • 实验充分度: ⭐⭐⭐⭐⭐ — 121 个模型组合,多数据集验证,消融全面
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富,核心发现表达精确
  • 价值: ⭐⭐⭐⭐ — 对视频表示学习和多模态对齐有启发性