Dynamic Reflections: Probing Video Representations with Text Alignment¶
会议: ICLR 2026
arXiv: 2511.02767
代码: https://video-prh.github.io (有)
领域: 可解释性 / 表示学习
关键词: 视频表示对齐, 柏拉图表示假说, 测试时缩放律, 跨模态对齐, 自监督学习
一句话总结¶
本文首次将柏拉图表示假说 (PRH) 从静态图像-文本扩展到时序视频-文本领域,通过对 121 个视觉与语言模型的系统评估,揭示了测试时增加帧数与描述数可将对齐分数提升近一倍的现象,并提出 \(R^2 > 0.98\) 的饱和式缩放律来量化这一行为。
研究背景与动机¶
柏拉图表示假说 (Platonic Representation Hypothesis, PRH) 指出:随着神经网络在容量、数据多样性和任务种类上扩展,不同模型学到的内部表示会趋向一个共享的、与模态无关的通用统计模型。此前 Huh et al. (2024) 在图像-文本静态模态上验证了该假说,发现独立训练的视觉编码器(如 DINOv2)和语言编码器之间的潜空间具有显著的结构相似性。
然而,先前的验证存在两个核心缺陷:
-
模态局限:所有实验都集中在静态模态(图像与文本),视频数据中蕴含的运动、因果关系和时序依赖信息在表示对齐研究中被完全忽略。PRH 的假说是面向所有模态提出的,但其在时序领域的有效性仍是开放问题。
-
对齐分数的可解释性:Huh et al. (2024) 提出了一个未解决的问题——最高对齐分数仅为 0.16,究竟算高还是低?这个绝对值难以解释。
本文的核心观察是:先前报告的有限对齐很大程度上是因为测试时提供的数据太少(单帧 + 单条描述)。通过提供多帧视频和多条文本描述,对齐分数可以大幅提升到接近 0.4,且不需要修改任何已训练模型。这一发现将"测试时缩放"确立为与训练时缩放互补的全新维度。
方法详解¶
整体框架¶
本文沿用 Huh et al. (2024) 提出的 Mutual \(k\)-NN (MkNN) 指标来衡量跨模态表示对齐。给定 \(N\) 个视频-文本对 \(\mathcal{S} = \{(v_1, c_1), \ldots, (v_N, c_N)\}\),分别通过视频编码器和文本编码器得到嵌入矩阵 \(\mathbf{X} \in \mathbb{R}^{N \times p}\) 和 \(\mathbf{Y} \in \mathbb{R}^{N \times q}\)。然后构造两个 \(k\)-近邻二值指示矩阵 \(\mathbf{M_X}\) 和 \(\mathbf{M_Y}\),对齐分数计算为:
其中 \(\odot\) 为 Hadamard 积,\(k\) 通常设为 10(针对 1024 个样本的数据集)。此外,对两个编码器的中间层组合进行搜索,选择最大化对齐分数的层对。
本文的核心扩展在于:将该框架从"单帧 + 单描述"推广到"多帧视频 + 多条描述"的设置,系统地研究测试时数据丰富度对对齐分数的影响。
关键设计¶
多帧视频编码策略:对于原生处理 \(n_o\) 帧的视频编码器,通过均匀线性插值抽取 \(n_f\) 帧。当 \(n_f > n_o\) 时,将视频切分为多个 \(n_o\) 长度的子片段,分别编码后取平均表示。当 \(n_f = 1\) 时退化为先前的图像-文本对齐设置。对于图像模型,提供两种变体:仅用首帧(单帧)和跨 8 帧平均特征(图像模型视频化)。
多描述文本编码策略:将多条描述拼接为单个长字符串,通过文本编码器(包括 LLM 如 Gemma 2 系列)提取中间层特征,对 token 维度取均值得到 \([\text{layer}, \text{hidden\_dim}]\) 形状的特征。VATEX 数据集为每个视频提供 10 条不同标注者撰写的独立描述,天然支持多描述评估。对于仅有单条长描述的 PVD 数据集,使用 Gemini-2.5 Pro 将其拆分为 10 条短描述。
饱和式测试时缩放律:基于经验观察,提出参数化饱和模型来量化对齐分数对帧数 \(n_f\) 和描述数 \(n_c\) 的双重依赖:
其中 \(S_{\infty}\) 为理论饱和对齐分数,\(C_f, C_c\) 分别为帧和描述的误差系数,\(\alpha, \beta\) 为衰减指数。该模型类比 Hoffmann et al. (2022) 的训练时 compute-optimal scaling laws:\(S_{\infty}\) 对应理想对齐精度,减去的项是有限测试数据带来的误差惩罚。
损失函数 / 训练策略¶
本文是分析评估类工作,不涉及新模型训练。其核心策略可概括为"测试时缩放":
- 视觉端缩放:从 \(n_f = 1\) 逐步增加至 \(n_f = 80\) 帧,通过子片段编码 + 平均池化利用更多时序信息
- 文本端缩放:从 \(n_c = 1\) 逐步增加至 \(n_c = 10\) 条描述,通过拼接多描述来提升语义覆盖
- 层搜索策略:遍历所有编码器中间层组合,选择对齐最优的层对作为最终结果
这一范式与训练时资源扩展(模型参数量、训练数据量)形成互补,证明了测试阶段的数据精细化也是提升表示对齐的有效途径。
实验关键数据¶
主实验:视频-文本对齐分数¶
在 VATEX(10 秒视频 + 10 条标注)和 PVD 数据集上,使用 1024 个样本的测试集:
| 视觉模型 | 类型 | 文本编码器 | 帧/描述数 | MkNN 对齐分数 |
|---|---|---|---|---|
| DINOv2 | 图像 (单帧) | 非 Gemma 最佳 | 1帧 / 1描述 | ~0.18 |
| DINOv2 | 图像 (单帧) | Gemma 2 9B-it | 1帧 / 1描述 | ~0.206 |
| DINOv2 | 图像→视频 (8帧均值) | Gemma 2 9B-it | 8帧 / 1描述 | ~0.223 |
| VideoMAEv2 | 原生视频 | Gemma 2 9B-it | 多帧 / 多描述 | ~0.41 (\(S_{\infty}\)) |
| DINOv2 | 图像→视频 | Gemma 2 9B-it | 多帧 / 多描述 | ~0.37 (\(S_{\infty}\)) |
核心发现:从最简设置 (0.18) 到完全利用测试时数据 (0.41),对齐分数提升超过 2 倍。
缩放律拟合与消融分析¶
| 拟合参数 | VideoMAEv2 | DINOv2 | 解读 |
|---|---|---|---|
| \(S_{\infty}\) (饱和分数) | 0.41 | 0.37 | 视频模型理论上限更高 |
| \(C_f\) (帧误差系数) | 0.15 | 0.05 | 视频模型受帧数影响 3 倍 |
| \(C_c\) (描述误差系数) | 0.13 | 0.13 | 文本端影响相当 |
| \(\alpha\) (帧衰减指数) | 0.75 | 1.76 | 视频模型衰减更慢,需更多帧才饱和 |
| \(\beta\) (描述衰减指数) | 1.30 | 1.40 | 描述端衰减相近 |
| \(R^2\) | 0.9791 | 0.9964 | 拟合质量极高 |
| 消融维度 | 变化范围 | 关键观察 |
|---|---|---|
| 帧数 \(n_f\) | 1 → 80 | 对齐稳步上升,视频模型获益远大于图像模型 |
| 描述数 \(n_c\) | 1 → 10 | 平均提升对齐 60%,早期增长最快 |
| 下游语义任务 (SSv2, K700) | — | 与对齐分数呈强正相关 |
| 下游非语义任务 (深度、位姿) | — | 也呈正相关,但点跟踪除外 |
| 时序敏感性 (Test of Time) | \(k=1,2,3\) | \(k=3\) 时几乎完美对齐;\(k=1,2\) 差异大,LLM 偏词袋 |
| 时序敏感性 (VideoComp) | 正 vs 负描述 | 高对齐模型受时序重排干扰更大 |
| 合成多描述 (PVD) | 1条→10条合成 | 从单条长描述合成短描述也能提升对齐 |
亮点与洞察¶
- 首次将 PRH 扩展到时序领域:系统评估了 85 个视觉模型 × 36 个语言模型的组合,填补了视频模态在表示对齐研究中的空白,证明时序信息为语义理解提供了强信号
- 测试时缩放律的发现:类比训练阶段的 compute-optimal scaling laws,提出了测试时数据缩放律,\(R^2 > 0.98\) 的拟合质量说明对齐分数对帧数/描述数的依赖是高度可预测的幂律行为
- 回答了关键开放问题:Huh et al. (2024) 提出"0.16 的对齐分数究竟算高还是低"的疑问,本文给出了清晰答案——是测试时数据匮乏导致的低估,充分数据下可达 0.4+
- 零样本评估指标的实用价值:视频-文本对齐与下游任务(语义 + 非语义)的强相关性表明,它可以替代昂贵的任务特定评估来指导视频模型开发
- 自监督视频模型的潜力:VideoMAEv2 在无任何文本监督的条件下超越 DINOv2 的对齐分数,证明纯视频自监督训练也能学到与语言空间高度对齐的表示
局限与展望¶
- 局部任务覆盖不足:点跟踪任务与对齐的相关性很弱,说明当前 MkNN 指标更侧重全局语义,难以捕捉局部细粒度时空能力
- 视频基础模型仍有差距:许多原生视频模型的对齐分数低于帧级平均的图像模型,说明视频编码器的训练范式仍有优化空间
- 生成式视频模型的表示利用:当前生成式视频模型(如视频扩散模型)的潜在表示与文本对齐很弱,如何发挥其理解能力是开放问题
- 数据集多样性有限:主要使用 VATEX(10 秒短视频)和 PVD 数据集,对长视频和更复杂时序推理场景的覆盖不足
- 描述效应的混杂因素:增加描述数既增加了语义覆盖又增加了视角多样性,两者对对齐的贡献未被解耦
相关工作与启发¶
本文处于三个方向的交汇处:(1) 柏拉图表示假说与涌现对齐 — 延续 Huh et al. (2024) 和 Maniparambil et al. (2024) 的静态模态工作,首次推向时序领域;(2) 自监督视频表示学习 — 以 VideoMAEv2、V-JEPA 为代表的大规模无标注视频预训练,本文为其提供了新的零样本评估手段;(3) 缩放律研究 — 与 Hoffmann et al. (2022) 的训练时 scaling laws 形成对偶,开辟了"测试时 scaling"的系统研究方向。此外,Gemma 2 系列作为纯文本生成模型却作为最优文本编码器的发现,呼应了 Zhang et al. (2025) 关于语言模型在多模态对齐中重要性的结论。
评分¶
- 新颖性: ⭐⭐⭐⭐ — 首次将 PRH 扩展至视频领域,测试时缩放律发现新颖且有预测力
- 实验充分度: ⭐⭐⭐⭐⭐ — 121 个模型组合覆盖广泛,多数据集验证,缩放律拟合严谨
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,图表丰富直观,核心发现阐述精确
- 价值: ⭐⭐⭐⭐ — 对视频表示学习的评估范式和多模态对齐理论均有启发意义
相关论文¶
- [ICLR 2026] Dynamic Reflections: Probing Video Representations with Text-Driven Reasoning
- [ICLR 2026] Beyond Linear Probes: Dynamic Safety Monitoring for Language Models
- [ICLR 2026] Uncovering Grounding IDs: How External Cues Shape Multimodal Binding
- [ICLR 2026] Uni-NTFM: A Unified Foundation Model for EEG Signal Representation Learning
- [CVPR 2026] Text-guided Fine-Grained Video Anomaly Understanding