Dynamic Reflections: Probing Video Representations with Text Alignment¶

会议: ICLR 2026
arXiv: 2511.02767
代码: https://video-prh.github.io (有)
领域: 可解释性 / 表示学习
关键词: 视频表示对齐, 柏拉图表示假说, 测试时缩放律, 跨模态对齐, 自监督学习

一句话总结¶

本文首次将柏拉图表示假说 (PRH) 从静态图像-文本扩展到时序视频-文本领域，通过对 121 个视觉与语言模型的系统评估，揭示了测试时增加帧数与描述数可将对齐分数提升近一倍的现象，并提出 \(R^2 > 0.98\) 的饱和式缩放律来量化这一行为。

研究背景与动机¶

柏拉图表示假说 (Platonic Representation Hypothesis, PRH) 指出：随着神经网络在容量、数据多样性和任务种类上扩展，不同模型学到的内部表示会趋向一个共享的、与模态无关的通用统计模型。此前 Huh et al. (2024) 在图像-文本静态模态上验证了该假说，发现独立训练的视觉编码器（如 DINOv2）和语言编码器之间的潜空间具有显著的结构相似性。

然而，先前的验证存在两个核心缺陷：

模态局限：所有实验都集中在静态模态（图像与文本），视频数据中蕴含的运动、因果关系和时序依赖信息在表示对齐研究中被完全忽略。PRH 的假说是面向所有模态提出的，但其在时序领域的有效性仍是开放问题。
对齐分数的可解释性：Huh et al. (2024) 提出了一个未解决的问题——最高对齐分数仅为 0.16，究竟算高还是低？这个绝对值难以解释。

本文的核心观察是：先前报告的有限对齐很大程度上是因为测试时提供的数据太少（单帧 + 单条描述）。通过提供多帧视频和多条文本描述，对齐分数可以大幅提升到接近 0.4，且不需要修改任何已训练模型。这一发现将"测试时缩放"确立为与训练时缩放互补的全新维度。

方法详解¶

整体框架¶

本文沿用 Huh et al. (2024) 提出的 Mutual \(k\)-NN (MkNN) 指标来衡量跨模态表示对齐。给定 \(N\) 个视频-文本对 \(\mathcal{S} = \{(v_1, c_1), \ldots, (v_N, c_N)\}\)，分别通过视频编码器和文本编码器得到嵌入矩阵 \(\mathbf{X} \in \mathbb{R}^{N \times p}\) 和 \(\mathbf{Y} \in \mathbb{R}^{N \times q}\)。然后构造两个 \(k\)-近邻二值指示矩阵 \(\mathbf{M_X}\) 和 \(\mathbf{M_Y}\)，对齐分数计算为：

\[\mathcal{A}^{\text{MkNN}}(\mathbf{X}, \mathbf{Y}) = \frac{1}{kN} \sum_{i=1}^{N} \sum_{j=1}^{N} (\mathbf{M_X} \odot \mathbf{M_Y})_{ij}\]

其中 \(\odot\) 为 Hadamard 积，\(k\) 通常设为 10（针对 1024 个样本的数据集）。此外，对两个编码器的中间层组合进行搜索，选择最大化对齐分数的层对。

本文的核心扩展在于：将该框架从"单帧 + 单描述"推广到"多帧视频 + 多条描述"的设置，系统地研究测试时数据丰富度对对齐分数的影响。

关键设计¶

多帧视频编码策略：对于原生处理 \(n_o\) 帧的视频编码器，通过均匀线性插值抽取 \(n_f\) 帧。当 \(n_f > n_o\) 时，将视频切分为多个 \(n_o\) 长度的子片段，分别编码后取平均表示。当 \(n_f = 1\) 时退化为先前的图像-文本对齐设置。对于图像模型，提供两种变体：仅用首帧（单帧）和跨 8 帧平均特征（图像模型视频化）。

多描述文本编码策略：将多条描述拼接为单个长字符串，通过文本编码器（包括 LLM 如 Gemma 2 系列）提取中间层特征，对 token 维度取均值得到 \([\text{layer}, \text{hidden\_dim}]\) 形状的特征。VATEX 数据集为每个视频提供 10 条不同标注者撰写的独立描述，天然支持多描述评估。对于仅有单条长描述的 PVD 数据集，使用 Gemini-2.5 Pro 将其拆分为 10 条短描述。

饱和式测试时缩放律：基于经验观察，提出参数化饱和模型来量化对齐分数对帧数 \(n_f\) 和描述数 \(n_c\) 的双重依赖：

\[\text{score}(n_f, n_c) = S_{\infty} - (C_f \cdot n_f^{-\alpha} + C_c \cdot n_c^{-\beta})\]

其中 \(S_{\infty}\) 为理论饱和对齐分数，\(C_f, C_c\) 分别为帧和描述的误差系数，\(\alpha, \beta\) 为衰减指数。该模型类比 Hoffmann et al. (2022) 的训练时 compute-optimal scaling laws：\(S_{\infty}\) 对应理想对齐精度，减去的项是有限测试数据带来的误差惩罚。

损失函数 / 训练策略¶

本文是分析评估类工作，不涉及新模型训练。其核心策略可概括为"测试时缩放"：

视觉端缩放：从 \(n_f = 1\) 逐步增加至 \(n_f = 80\) 帧，通过子片段编码 + 平均池化利用更多时序信息
文本端缩放：从 \(n_c = 1\) 逐步增加至 \(n_c = 10\) 条描述，通过拼接多描述来提升语义覆盖
层搜索策略：遍历所有编码器中间层组合，选择对齐最优的层对作为最终结果

这一范式与训练时资源扩展（模型参数量、训练数据量）形成互补，证明了测试阶段的数据精细化也是提升表示对齐的有效途径。

实验关键数据¶

主实验：视频-文本对齐分数¶

在 VATEX（10 秒视频 + 10 条标注）和 PVD 数据集上，使用 1024 个样本的测试集：

视觉模型	类型	文本编码器	帧/描述数	MkNN 对齐分数
DINOv2	图像 (单帧)	非 Gemma 最佳	1帧 / 1描述	~0.18
DINOv2	图像 (单帧)	Gemma 2 9B-it	1帧 / 1描述	~0.206
DINOv2	图像→视频 (8帧均值)	Gemma 2 9B-it	8帧 / 1描述	~0.223
VideoMAEv2	原生视频	Gemma 2 9B-it	多帧 / 多描述	~0.41 (\(S_{\infty}\))
DINOv2	图像→视频	Gemma 2 9B-it	多帧 / 多描述	~0.37 (\(S_{\infty}\))

核心发现：从最简设置 (0.18) 到完全利用测试时数据 (0.41)，对齐分数提升超过 2 倍。

缩放律拟合与消融分析¶

拟合参数	VideoMAEv2	DINOv2	解读
\(S_{\infty}\) (饱和分数)	0.41	0.37	视频模型理论上限更高
\(C_f\) (帧误差系数)	0.15	0.05	视频模型受帧数影响 3 倍
\(C_c\) (描述误差系数)	0.13	0.13	文本端影响相当
\(\alpha\) (帧衰减指数)	0.75	1.76	视频模型衰减更慢，需更多帧才饱和
\(\beta\) (描述衰减指数)	1.30	1.40	描述端衰减相近
\(R^2\)	0.9791	0.9964	拟合质量极高

消融维度	变化范围	关键观察
帧数 \(n_f\)	1 → 80	对齐稳步上升，视频模型获益远大于图像模型
描述数 \(n_c\)	1 → 10	平均提升对齐 60%，早期增长最快
下游语义任务 (SSv2, K700)	—	与对齐分数呈强正相关
下游非语义任务 (深度、位姿)	—	也呈正相关，但点跟踪除外
时序敏感性 (Test of Time)	\(k=1,2,3\)	\(k=3\) 时几乎完美对齐；\(k=1,2\) 差异大，LLM 偏词袋
时序敏感性 (VideoComp)	正 vs 负描述	高对齐模型受时序重排干扰更大
合成多描述 (PVD)	1条→10条合成	从单条长描述合成短描述也能提升对齐

亮点与洞察¶

首次将 PRH 扩展到时序领域：系统评估了 85 个视觉模型 × 36 个语言模型的组合，填补了视频模态在表示对齐研究中的空白，证明时序信息为语义理解提供了强信号
测试时缩放律的发现：类比训练阶段的 compute-optimal scaling laws，提出了测试时数据缩放律，\(R^2 > 0.98\) 的拟合质量说明对齐分数对帧数/描述数的依赖是高度可预测的幂律行为
回答了关键开放问题：Huh et al. (2024) 提出"0.16 的对齐分数究竟算高还是低"的疑问，本文给出了清晰答案——是测试时数据匮乏导致的低估，充分数据下可达 0.4+
零样本评估指标的实用价值：视频-文本对齐与下游任务（语义 + 非语义）的强相关性表明，它可以替代昂贵的任务特定评估来指导视频模型开发
自监督视频模型的潜力：VideoMAEv2 在无任何文本监督的条件下超越 DINOv2 的对齐分数，证明纯视频自监督训练也能学到与语言空间高度对齐的表示

局限与展望¶

局部任务覆盖不足：点跟踪任务与对齐的相关性很弱，说明当前 MkNN 指标更侧重全局语义，难以捕捉局部细粒度时空能力
视频基础模型仍有差距：许多原生视频模型的对齐分数低于帧级平均的图像模型，说明视频编码器的训练范式仍有优化空间
生成式视频模型的表示利用：当前生成式视频模型（如视频扩散模型）的潜在表示与文本对齐很弱，如何发挥其理解能力是开放问题
数据集多样性有限：主要使用 VATEX（10 秒短视频）和 PVD 数据集，对长视频和更复杂时序推理场景的覆盖不足
描述效应的混杂因素：增加描述数既增加了语义覆盖又增加了视角多样性，两者对对齐的贡献未被解耦

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将 PRH 扩展至视频领域，测试时缩放律发现新颖且有预测力
实验充分度: ⭐⭐⭐⭐⭐ — 121 个模型组合覆盖广泛，多数据集验证，缩放律拟合严谨
写作质量: ⭐⭐⭐⭐ — 结构清晰，图表丰富直观，核心发现阐述精确
价值: ⭐⭐⭐⭐ — 对视频表示学习的评估范式和多模态对齐理论均有启发意义