跳转至

Dynamic Reflections: Probing Video Representations with Text Alignment

会议: ICLR 2026
arXiv: 2511.02767
代码: https://video-prh.github.io (有)
领域: 可解释性 / 表示学习
关键词: 视频表示对齐, 柏拉图表示假说, 测试时缩放律, 跨模态对齐, 自监督学习

一句话总结

本文首次将柏拉图表示假说 (PRH) 从静态图像-文本扩展到时序视频-文本领域,通过对 121 个视觉与语言模型的系统评估,揭示了测试时增加帧数与描述数可将对齐分数提升近一倍的现象,并提出 \(R^2 > 0.98\) 的饱和式缩放律来量化这一行为。

研究背景与动机

柏拉图表示假说 (Platonic Representation Hypothesis, PRH) 指出:随着神经网络在容量、数据多样性和任务种类上扩展,不同模型学到的内部表示会趋向一个共享的、与模态无关的通用统计模型。此前 Huh et al. (2024) 在图像-文本静态模态上验证了该假说,发现独立训练的视觉编码器(如 DINOv2)和语言编码器之间的潜空间具有显著的结构相似性。

然而,先前的验证存在两个核心缺陷:

  1. 模态局限:所有实验都集中在静态模态(图像与文本),视频数据中蕴含的运动、因果关系和时序依赖信息在表示对齐研究中被完全忽略。PRH 的假说是面向所有模态提出的,但其在时序领域的有效性仍是开放问题。

  2. 对齐分数的可解释性:Huh et al. (2024) 提出了一个未解决的问题——最高对齐分数仅为 0.16,究竟算高还是低?这个绝对值难以解释。

本文的核心观察是:先前报告的有限对齐很大程度上是因为测试时提供的数据太少(单帧 + 单条描述)。通过提供多帧视频和多条文本描述,对齐分数可以大幅提升到接近 0.4,且不需要修改任何已训练模型。这一发现将"测试时缩放"确立为与训练时缩放互补的全新维度。

方法详解

整体框架

本文沿用 Huh et al. (2024) 提出的 Mutual \(k\)-NN (MkNN) 指标来衡量跨模态表示对齐。给定 \(N\) 个视频-文本对 \(\mathcal{S} = \{(v_1, c_1), \ldots, (v_N, c_N)\}\),分别通过视频编码器和文本编码器得到嵌入矩阵 \(\mathbf{X} \in \mathbb{R}^{N \times p}\)\(\mathbf{Y} \in \mathbb{R}^{N \times q}\)。然后构造两个 \(k\)-近邻二值指示矩阵 \(\mathbf{M_X}\)\(\mathbf{M_Y}\),对齐分数计算为:

\[\mathcal{A}^{\text{MkNN}}(\mathbf{X}, \mathbf{Y}) = \frac{1}{kN} \sum_{i=1}^{N} \sum_{j=1}^{N} (\mathbf{M_X} \odot \mathbf{M_Y})_{ij}\]

其中 \(\odot\) 为 Hadamard 积,\(k\) 通常设为 10(针对 1024 个样本的数据集)。此外,对两个编码器的中间层组合进行搜索,选择最大化对齐分数的层对。

本文的核心扩展在于:将该框架从"单帧 + 单描述"推广到"多帧视频 + 多条描述"的设置,系统地研究测试时数据丰富度对对齐分数的影响。

关键设计

多帧视频编码策略:对于原生处理 \(n_o\) 帧的视频编码器,通过均匀线性插值抽取 \(n_f\) 帧。当 \(n_f > n_o\) 时,将视频切分为多个 \(n_o\) 长度的子片段,分别编码后取平均表示。当 \(n_f = 1\) 时退化为先前的图像-文本对齐设置。对于图像模型,提供两种变体:仅用首帧(单帧)和跨 8 帧平均特征(图像模型视频化)。

多描述文本编码策略:将多条描述拼接为单个长字符串,通过文本编码器(包括 LLM 如 Gemma 2 系列)提取中间层特征,对 token 维度取均值得到 \([\text{layer}, \text{hidden\_dim}]\) 形状的特征。VATEX 数据集为每个视频提供 10 条不同标注者撰写的独立描述,天然支持多描述评估。对于仅有单条长描述的 PVD 数据集,使用 Gemini-2.5 Pro 将其拆分为 10 条短描述。

饱和式测试时缩放律:基于经验观察,提出参数化饱和模型来量化对齐分数对帧数 \(n_f\) 和描述数 \(n_c\) 的双重依赖:

\[\text{score}(n_f, n_c) = S_{\infty} - (C_f \cdot n_f^{-\alpha} + C_c \cdot n_c^{-\beta})\]

其中 \(S_{\infty}\) 为理论饱和对齐分数,\(C_f, C_c\) 分别为帧和描述的误差系数,\(\alpha, \beta\) 为衰减指数。该模型类比 Hoffmann et al. (2022) 的训练时 compute-optimal scaling laws:\(S_{\infty}\) 对应理想对齐精度,减去的项是有限测试数据带来的误差惩罚。

损失函数 / 训练策略

本文是分析评估类工作,不涉及新模型训练。其核心策略可概括为"测试时缩放":

  • 视觉端缩放:从 \(n_f = 1\) 逐步增加至 \(n_f = 80\) 帧,通过子片段编码 + 平均池化利用更多时序信息
  • 文本端缩放:从 \(n_c = 1\) 逐步增加至 \(n_c = 10\) 条描述,通过拼接多描述来提升语义覆盖
  • 层搜索策略:遍历所有编码器中间层组合,选择对齐最优的层对作为最终结果

这一范式与训练时资源扩展(模型参数量、训练数据量)形成互补,证明了测试阶段的数据精细化也是提升表示对齐的有效途径。

实验关键数据

主实验:视频-文本对齐分数

在 VATEX(10 秒视频 + 10 条标注)和 PVD 数据集上,使用 1024 个样本的测试集:

视觉模型 类型 文本编码器 帧/描述数 MkNN 对齐分数
DINOv2 图像 (单帧) 非 Gemma 最佳 1帧 / 1描述 ~0.18
DINOv2 图像 (单帧) Gemma 2 9B-it 1帧 / 1描述 ~0.206
DINOv2 图像→视频 (8帧均值) Gemma 2 9B-it 8帧 / 1描述 ~0.223
VideoMAEv2 原生视频 Gemma 2 9B-it 多帧 / 多描述 ~0.41 (\(S_{\infty}\))
DINOv2 图像→视频 Gemma 2 9B-it 多帧 / 多描述 ~0.37 (\(S_{\infty}\))

核心发现:从最简设置 (0.18) 到完全利用测试时数据 (0.41),对齐分数提升超过 2 倍

缩放律拟合与消融分析

拟合参数 VideoMAEv2 DINOv2 解读
\(S_{\infty}\) (饱和分数) 0.41 0.37 视频模型理论上限更高
\(C_f\) (帧误差系数) 0.15 0.05 视频模型受帧数影响 3 倍
\(C_c\) (描述误差系数) 0.13 0.13 文本端影响相当
\(\alpha\) (帧衰减指数) 0.75 1.76 视频模型衰减更慢,需更多帧才饱和
\(\beta\) (描述衰减指数) 1.30 1.40 描述端衰减相近
\(R^2\) 0.9791 0.9964 拟合质量极高
消融维度 变化范围 关键观察
帧数 \(n_f\) 1 → 80 对齐稳步上升,视频模型获益远大于图像模型
描述数 \(n_c\) 1 → 10 平均提升对齐 60%,早期增长最快
下游语义任务 (SSv2, K700) 与对齐分数呈强正相关
下游非语义任务 (深度、位姿) 也呈正相关,但点跟踪除外
时序敏感性 (Test of Time) \(k=1,2,3\) \(k=3\) 时几乎完美对齐;\(k=1,2\) 差异大,LLM 偏词袋
时序敏感性 (VideoComp) 正 vs 负描述 高对齐模型受时序重排干扰更大
合成多描述 (PVD) 1条→10条合成 从单条长描述合成短描述也能提升对齐

亮点与洞察

  • 首次将 PRH 扩展到时序领域:系统评估了 85 个视觉模型 × 36 个语言模型的组合,填补了视频模态在表示对齐研究中的空白,证明时序信息为语义理解提供了强信号
  • 测试时缩放律的发现:类比训练阶段的 compute-optimal scaling laws,提出了测试时数据缩放律,\(R^2 > 0.98\) 的拟合质量说明对齐分数对帧数/描述数的依赖是高度可预测的幂律行为
  • 回答了关键开放问题:Huh et al. (2024) 提出"0.16 的对齐分数究竟算高还是低"的疑问,本文给出了清晰答案——是测试时数据匮乏导致的低估,充分数据下可达 0.4+
  • 零样本评估指标的实用价值:视频-文本对齐与下游任务(语义 + 非语义)的强相关性表明,它可以替代昂贵的任务特定评估来指导视频模型开发
  • 自监督视频模型的潜力:VideoMAEv2 在无任何文本监督的条件下超越 DINOv2 的对齐分数,证明纯视频自监督训练也能学到与语言空间高度对齐的表示

局限与展望

  1. 局部任务覆盖不足:点跟踪任务与对齐的相关性很弱,说明当前 MkNN 指标更侧重全局语义,难以捕捉局部细粒度时空能力
  2. 视频基础模型仍有差距:许多原生视频模型的对齐分数低于帧级平均的图像模型,说明视频编码器的训练范式仍有优化空间
  3. 生成式视频模型的表示利用:当前生成式视频模型(如视频扩散模型)的潜在表示与文本对齐很弱,如何发挥其理解能力是开放问题
  4. 数据集多样性有限:主要使用 VATEX(10 秒短视频)和 PVD 数据集,对长视频和更复杂时序推理场景的覆盖不足
  5. 描述效应的混杂因素:增加描述数既增加了语义覆盖又增加了视角多样性,两者对对齐的贡献未被解耦

相关工作与启发

本文处于三个方向的交汇处:(1) 柏拉图表示假说与涌现对齐 — 延续 Huh et al. (2024) 和 Maniparambil et al. (2024) 的静态模态工作,首次推向时序领域;(2) 自监督视频表示学习 — 以 VideoMAEv2、V-JEPA 为代表的大规模无标注视频预训练,本文为其提供了新的零样本评估手段;(3) 缩放律研究 — 与 Hoffmann et al. (2022) 的训练时 scaling laws 形成对偶,开辟了"测试时 scaling"的系统研究方向。此外,Gemma 2 系列作为纯文本生成模型却作为最优文本编码器的发现,呼应了 Zhang et al. (2025) 关于语言模型在多模态对齐中重要性的结论。

评分

  • 新颖性: ⭐⭐⭐⭐ — 首次将 PRH 扩展至视频领域,测试时缩放律发现新颖且有预测力
  • 实验充分度: ⭐⭐⭐⭐⭐ — 121 个模型组合覆盖广泛,多数据集验证,缩放律拟合严谨
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富直观,核心发现阐述精确
  • 价值: ⭐⭐⭐⭐ — 对视频表示学习的评估范式和多模态对齐理论均有启发意义

相关论文