Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency¶

日期: 2026-03-10
arXiv: 2603.09798
代码: 有
领域: 机器人 / 跨视角适应
关键词: test-time adaptation, ego-exocentric, action anticipation, multi-label, dual-clue consistency

一句话总结¶

首次探索测试时自我-异我视角适应用于动作预测（TE2A3 任务）——提出 DCPGN 框架，通过多标签原型增长模块（ML-PGM，Top-K 伪标签 + 置信度加权 + 熵优先队列更新记忆库）和双线索一致性模块（DCCM，视觉线索→空间对象 + 文本线索→时序动作进展 + KL 散度约束一致性），在 EgoMe-anti 和 EgoExoLearn 基准上大幅超越现有 TTA 方法。

研究背景与动机¶

领域现状: Ego-Exo 跨视角理解对人机协作和具身 AI 至关重要。现有方法要么需要目标视角标注数据微调（pretrain-finetune），要么需要无标注目标视角数据做无监督域适应（UDA），均增加计算和数据采集成本。
现有痛点:
- TTA 方法不适用于多动作候选：Tent/ZERO 等熵优化方法偏好最高置信的单一类别，但现实中每个事件包含多个原子动作需要同时预测
- Ego-Exo 视角差距巨大：空间维度（布局不一致、干扰物体不同）+ 时序维度（动作进度异步），图像级跨域 TTA 方法无法应对
- 缺乏 Ego-Exo TTA 基准：现有基准均假设训练时可访问目标视角数据
核心矛盾: 需要在零目标视角训练数据的条件下，同时解决多标签预测和视角间时空差距问题
切入角度: 多标签伪标签分配 + 视觉/文本双模态线索的互补——视觉线索提供空间对象信息，文本线索（由轻量叙述器生成）提供时序动作进展信息
核心 idea 一句话: 用多标签原型代替单标签熵优化来平衡多动作候选，用视觉+文本双线索的 KL 一致性来弥合 Ego-Exo 时空鸿沟

方法详解¶

整体框架¶

源视角标注数据 → 训练预测模型 \(\mathcal{M}_S\)（冻结 CLIP 视觉编码器 + 可训练预测网络 TA3N）→ 测试时：目标视角视频流 → ML-PGM 累积多标签原型 + DCCM 构建双线索一致性 → 在线适应 → 目标视角动作预测

关键设计¶

多标签原型增长模块（ML-PGM）:
- 做什么：为每个测试样本分配 Top-K 个伪标签（而非单标签），构建类别级记忆库并持续更新
- 核心思路：
- 预测 logits \(L^T\) → 取 Top-K 类别的置信度作为伪标签（公式1）
- 计算预测熵 \(\mathcal{H}^T\)（公式2）衡量可靠性
- 熵优先队列策略更新记忆库：容量 N，满时保留熵最低（最可靠）的 N 条表示（公式3）
- 置信度加权计算原型：\(p_i^T = \sum_{k=1}^{N'} \eta(l_{i,k}^T) \cdot \bar{f}_{v,k}^T\)（公式4），高置信样本贡献更大
设计动机：单标签 TTA 方法（Tent/ZERO）在多动作场景下偏向最高置信类→忽略其他动作。多标签分配+置信度加权同时保留多个动作候选的信息
双线索一致性模块（DCCM）:
- 做什么：提取视觉和文本两种线索，通过 CLIP 空间中的 KL 散度约束二者一致性
- 视觉线索：观测视频最后一帧→包含场景中各种空间对象（空间信息）
- 文本线索：轻量 GRU 叙述器对帧特征序列生成描述→自然指示正在进行的时序活动（时序信息）
- CLIP 视觉/文本编码器分别编码两种线索→与可学习 prompt 增强的动作类别特征计算相似度→得到视觉 logits \(L_v\) 和文本 logits \(L_t\)
- 双线索一致性损失：\(L_C = KL(P_v||P_t) + KL(P_t||P_v)\)（对称 KL 散度）
- 设计动机：视觉线索有空间信息但缺时序上下文（单帧无法反映动作进展），文本线索补充时序信息——两者互补，KL 约束确保空间和时序判断一致
最终预测融合:
- \(L_{final} = L_p + \alpha \cdot (L_v + L_t)\)，α=0.5
- 三路 logits 叠加：原型（累积统计）+ 视觉（空间）+ 文本（时序）

训练策略¶

训练阶段：源视角数据 BCE 损失训练预测网络；叙述器在开源数据集上单独预训练
测试阶段：仅更新可学习 prompt \(p_l\)，SGD 优化，lr=1e-4/5e-4

实验关键数据¶

主实验（Top-5 Recall, %）¶

方法	EgoMe-anti E2E Noun	E2E Verb	EgoExoLearn E2E Noun	E2E Verb
无适应	71.94	32.46	31.91	34.36
Tent	74.14	35.63	34.71	36.22
ML-TTA	77.11	36.92	36.35	37.67
ZERO	75.19	36.03	37.19	36.76
DCPGN	79.03	43.84	46.26	42.98

消融实验（EgoMe-anti Exo2Ego）¶

配置	Noun	Verb	说明
Full DCPGN	79.03	43.84	完整模型
w/o 多标签(单标签)	72.74	35.47	-6.3/-8.4，单标签严重退化
w/o 置信度加权	78.67	42.72	-0.4/-1.1，加权有帮助
w/o 一致性损失	76.92	42.37	-2.1/-1.5，一致性重要
w/o 文本线索	77.56	42.15	-1.5/-1.7，时序信息不可缺
w/o 视觉线索	76.11	40.84	-2.9/-3.0，空间信息更关键
无适应	71.94	32.46	基线

关键发现¶

多标签 vs 单标签是最大差异：切换到单标签后 Verb Recall 从 43.84% 降到 35.47%（-8.37%），证明多动作预测必须用多标签
DCPGN 在 Verb 预测上优势巨大：EgoExoLearn Exo2Ego Verb 42.98% vs ML-TTA 37.67%（+5.31%），说明文本线索对时序动词预测贡献显著
视觉线索对名词更重要，文本线索对动词更重要：去掉视觉线索名词降 2.9%，去掉文本线索动词降 1.7%——符合空间/时序互补的设计预期
在两个基准的所有 4 个设定（Exo2Ego/Ego2Exo × 两数据集）上一致大幅领先所有 TTA 方法

亮点与洞察¶

TE2A3 任务定义本身是重要贡献——首次将 TTA 引入 Ego-Exo 视角适应，零目标视角训练数据的约束更贴近实际部署
多标签原型增长的设计非常针对性——Action anticipation 中一个时刻对应多个原子动作是本质特征，ML-PGM 直接解决了传统 TTA 的单标签假设局限
"视觉=空间, 文本=时序"的双线索互补洞察很有启发——可迁移到其他需要弥合视角差异的跨模态任务
熵优先队列策略确保记忆库中始终保留最可靠的表示，比 FIFO 更合理
EgoMe-anti 基准的构建（从原始描述→标准化名词/动词类别）为社区提供了新的评测资源

局限性 / 可改进方向¶

叙述器依赖开源数据集预训练：新领域需要重新训练，泛化能力有限
CLIP 作为特征骨干的假设：DCCM 严重依赖 CLIP 的跨模态对齐质量，换其他视觉编码器可能需要重新设计
Top-K 中的 K 需要手动设定（EgoMe-anti K=3，EgoExoLearn K=5），自适应 K 选择可能更好
在线适应的计算延迟：虽然叙述器轻量，但每个批次都要做 ML-PGM 更新+DCCM 推理，实时性需评估
未测试更极端的视角差异（如鸟瞰 vs 第一人称）

评分¶

新颖性: ⭐⭐⭐⭐⭐ TE2A3 任务首次提出 + 多标签原型增长 + 双线索一致性三重创新
实验充分度: ⭐⭐⭐⭐⭐ 两个基准 × 4 个设定 × 8 种 TTA 方法对比 + 详细消融
写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰，模块设计动机充分，Algorithm 1 伪代码直观
价值: ⭐⭐⭐⭐⭐ 任务定义 + 基准构建 + 方法创新三位一体，对跨视角具身智能有重要推动