Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency¶

会议: CVPR2026
arXiv: 2603.09798
代码: ZhaofengSHI/DCPGN
领域: 机器人 / Ego-Exo 视角适应
关键词: Test-Time Adaptation, Ego-Exo, Action Anticipation, Multi-Label, Prototype Learning, CLIP, 双线索一致性

一句话总结¶

首次提出 Test-time Ego-Exo Adaptation for Action Anticipation（TE2A3）任务，设计 DCPGN 网络通过多标签原型增长和双线索（视觉+文本）一致性，在测试时将源视角训练模型在线适配到目标视角进行动作预测，大幅超越现有 TTA 方法。

背景与动机¶

人类跨视角能力：人类凭借镜像神经元可以无缝切换第一人称（Ego）和第三人称（Exo）视角并预判后续动作，这一能力对人机协作和具身 AI 至关重要。
现有方法依赖目标视角数据：大多数 Ego-Exo 适应方法（预训练微调 / UDA）都需在训练阶段获取目标视角数据，带来额外的计算和数据采集成本。
单视角模型跨视角失效：在某一视角上训练好的动作识别/预测模型，直接用于另一视角时性能显著下降，因拍摄角度和风格差异巨大。
测试时适应（TTA）的新机遇：TTA 方法无需目标视角标注数据即可在线调整模型，但现有 TTA 方法面向单标签任务，难以处理多动作候选的场景。
多动作候选挑战：现实事件通常包含多个原子动作需同时预测，基于熵的 TTA 方法倾向选择最高置信度的单一类别，导致次优表现。
Ego-Exo 时空差距：两种视角在空间（不一致的布局和干扰物体）和时间（异步的动作进展）维度存在显著差异，简单域适应方法难以弥合。

方法详解¶

整体框架¶

DCPGN（Dual-Clue enhanced Prototype Growing Network）由两大核心模块构成：

ML-PGM（Multi-Label Prototype Growing Module）：渐进积累多标签知识以学习无偏原型
DCCM（Dual-Clue Consistency Module）：整合视觉和文本线索构建双线索一致性

训练阶段使用 BCE 损失在源视角带标注数据上训练；测试阶段冻结视觉编码器（CLIP ViT-L/14），在线更新可学习 prompt 和原型。

ML-PGM 模块¶

多标签伪标签分配：对每个测试样本的预测 logits 取 Top-K 类别作为伪标签（EgoMe-anti 上 K=3，EgoExoLearn 上 K=5），避免单标签策略导致的过度自信。
熵优先队列策略：为每个类别维护一个容量为 N=500 的记忆库，新样本加入时若记忆库已满，保留熵最低（不确定性最小）的 N 个样本，确保记忆库中样本的可靠性随时间递增。
置信度加权重算原型：用归一化的置信度对记忆库中的表征加权求和得到类别原型 \(p_i^T = \sum_{k=1}^{N'} \eta(l_{i,k}^T) \cdot \bar{f}_{v,k}^T\)，抑制负类噪声干扰。
原型分类：计算测试样本表征与所有类别原型的相似度得到原型 logits \(L_p\)。

DCCM 模块¶

视觉线索：提取观察视频最后一帧作为视觉线索，包含场景中的物体信息（空间维度）。
文本线索：引入轻量级 narrator（基于 GRU + 注意力机制），从帧特征生成描述文本，作为动作进展的时间指示器。narrator 使用开源数据集的视频-文本对训练，测试时冻结。
CLIP 推理：用冻结的 CLIP 视觉/文本编码器分别提取视觉线索和文本线索的特征，与带可学习 prompt 的动作类别特征计算相似度，得到视觉 logits \(L_v\) 和文本 logits \(L_t\)。
双线索一致性损失：对 \(L_v\) 和 \(L_t\) 的 softmax 分布施加对称 KL 散度 \(L_C = KL(P_v \| P_t) + KL(P_t \| P_v)\)，约束跨模态线索的一致性，显式弥合 Ego-Exo 时空差距。

最终预测与损失¶

\[L_{final} = L_p + \alpha \cdot (L_v + L_t), \quad \alpha = 0.5\]

测试阶段用 SGD 在线优化可学习 prompt，无需任何数据增强。

实验关键数据¶

主实验（class-mean Top-5 recall）¶

方法	EgoMe-anti Exo2Ego Noun/Verb	EgoMe-anti Ego2Exo Noun/Verb	EgoExoLearn Exo2Ego Noun/Verb	EgoExoLearn Ego2Exo Noun/Verb
无适应	71.94 / 32.46	64.24 / 30.07	31.91 / 34.36	35.28 / 33.03
ML-TTA	77.11 / 36.92	69.46 / 34.39	36.35 / 37.67	42.96 / 40.43
DCPGN（本文）	79.03 / 43.84	72.01 / 40.10	46.26 / 42.98	48.48 / 46.51

在 EgoExoLearn Exo2Ego 上，DCPGN 比 ML-TTA 在 Noun 上高 9.91%，Verb 上高 5.31%。

消融实验¶

配置	EgoMe-anti E2E Noun	EgoExoLearn E2E Noun
完整 DCPGN	79.03	46.26
去除一致性损失 \(L_C\)	78.67（-0.36）	44.80（-1.46）
去除视觉线索	76.92（-2.11）	41.32（-4.94）
去除文本线索	77.56（-1.47）	41.94（-4.32）
去除整个 DCCM	76.11（-2.92）	38.43（-7.83）
去除置信度加权	74.63（-4.40）	37.76（-8.50）
仅单标签分配	72.74（-6.29）	34.70（-11.56）

关键发现：视觉线索对 Noun 预测更重要，文本线索对 Verb 预测更关键；多标签分配比单标签分配提升巨大。

模型复杂度¶

组件	FLOPs (G)	Params (MB)
Baseline	367.55	251.18
ML-PGM	+0.00	+8.54
Narrator	+0.03	+2.38
文本线索编码	+4.06	+54.04

ML-PGM 几乎零额外计算量，narrator 极其轻量。

亮点¶

首创 TE2A3 任务：首次将 TTA 引入 Ego-Exo 跨视角动作预测，无需目标视角训练数据
多标签原型增长机制：通过 Top-K 伪标签分配 + 熵优先队列 + 置信度加权，有效解决多动作候选的平衡问题
双线索互补设计巧妙：视觉线索捕获空间物体信息，文本线索捕获时间动作进展，通过 KL 散度一致性约束显式弥合 Ego-Exo 时空鸿沟
新基准 EgoMe-anti：基于 EgoMe 数据集构建了适合该任务的新 benchmark
性能提升显著：在 EgoExoLearn 上 Noun 指标超越次优 9.91%，实验充分且分析深入

局限性 / 可改进方向¶

narrator 依赖额外训练数据：narrator 需用开源视频-文本对预训练，增加了方法的前置依赖
K 值需手动调整：不同数据集最优 K 值不同（3 vs. 5），缺乏自适应选择机制
记忆库容量固定：N=500 为人工设定，不同类别数据分布差异大时可能次优
仅评估 Noun/Verb 分类：未涉及更细粒度的时间定位或完整事件预测
实时性讨论缺失：虽声称"在线适应"但未报告推理延迟和实际部署可行性

与相关工作的对比¶

vs. Tent/TPT/TDA 等传统 TTA：这些方法面向单标签任务，在多动作候选场景下过度偏向高置信度类别，DCPGN 的多标签机制解决了这一根本限制
vs. ML-TTA：ML-TTA 虽面向多标签但针对图像级分类，缺乏视频级时空建模和 Ego-Exo 视角差异处理能力
vs. UDA 方法（Sync, GCEAN）：UDA 方法训练时需访问目标视角无标注数据，而 DCPGN 完全在测试阶段在线适应
vs. 预训练-微调方法（AE2, Exo2EgoDVC）：这些方法需目标视角标注数据进行微调，DCPGN 无此需求

评分¶

新颖性: ⭐⭐⭐⭐ — 首创 TE2A3 任务，多标签原型增长 + 双线索一致性的组合设计新颖
实验充分度: ⭐⭐⭐⭐⭐ — 两个 benchmark、四种设置、详尽消融、可视化分析均到位
写作质量: ⭐⭐⭐⭐ — 问题定义清晰，方法描述规范，图表完善
价值: ⭐⭐⭐⭐ — 为人机协作/具身 AI 中的跨视角在线适应提供了实用范式