Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency¶
日期: 2026-03-10
arXiv: 2603.09798
代码: 有
领域: 机器人 / 跨视角适应
关键词: test-time adaptation, ego-exocentric, action anticipation, multi-label, dual-clue consistency
一句话总结¶
首次探索测试时自我-异我视角适应用于动作预测(TE2A3 任务)——提出 DCPGN 框架,通过多标签原型增长模块(ML-PGM,Top-K 伪标签 + 置信度加权 + 熵优先队列更新记忆库)和双线索一致性模块(DCCM,视觉线索→空间对象 + 文本线索→时序动作进展 + KL 散度约束一致性),在 EgoMe-anti 和 EgoExoLearn 基准上大幅超越现有 TTA 方法。
研究背景与动机¶
-
领域现状: Ego-Exo 跨视角理解对人机协作和具身 AI 至关重要。现有方法要么需要目标视角标注数据微调(pretrain-finetune),要么需要无标注目标视角数据做无监督域适应(UDA),均增加计算和数据采集成本。
-
现有痛点:
- TTA 方法不适用于多动作候选:Tent/ZERO 等熵优化方法偏好最高置信的单一类别,但现实中每个事件包含多个原子动作需要同时预测
- Ego-Exo 视角差距巨大:空间维度(布局不一致、干扰物体不同)+ 时序维度(动作进度异步),图像级跨域 TTA 方法无法应对
- 缺乏 Ego-Exo TTA 基准:现有基准均假设训练时可访问目标视角数据
-
核心矛盾: 需要在零目标视角训练数据的条件下,同时解决多标签预测和视角间时空差距问题
-
切入角度: 多标签伪标签分配 + 视觉/文本双模态线索的互补——视觉线索提供空间对象信息,文本线索(由轻量叙述器生成)提供时序动作进展信息
-
核心 idea 一句话: 用多标签原型代替单标签熵优化来平衡多动作候选,用视觉+文本双线索的 KL 一致性来弥合 Ego-Exo 时空鸿沟
方法详解¶
整体框架¶
源视角标注数据 → 训练预测模型 \(\mathcal{M}_S\)(冻结 CLIP 视觉编码器 + 可训练预测网络 TA3N)→ 测试时:目标视角视频流 → ML-PGM 累积多标签原型 + DCCM 构建双线索一致性 → 在线适应 → 目标视角动作预测
关键设计¶
- 多标签原型增长模块(ML-PGM):
- 做什么:为每个测试样本分配 Top-K 个伪标签(而非单标签),构建类别级记忆库并持续更新
- 核心思路:
- 预测 logits \(L^T\) → 取 Top-K 类别的置信度作为伪标签(公式1)
- 计算预测熵 \(\mathcal{H}^T\)(公式2)衡量可靠性
- 熵优先队列策略更新记忆库:容量 N,满时保留熵最低(最可靠)的 N 条表示(公式3)
- 置信度加权计算原型:\(p_i^T = \sum_{k=1}^{N'} \eta(l_{i,k}^T) \cdot \bar{f}_{v,k}^T\)(公式4),高置信样本贡献更大
-
设计动机:单标签 TTA 方法(Tent/ZERO)在多动作场景下偏向最高置信类→忽略其他动作。多标签分配+置信度加权同时保留多个动作候选的信息
-
双线索一致性模块(DCCM):
- 做什么:提取视觉和文本两种线索,通过 CLIP 空间中的 KL 散度约束二者一致性
- 视觉线索:观测视频最后一帧→包含场景中各种空间对象(空间信息)
- 文本线索:轻量 GRU 叙述器对帧特征序列生成描述→自然指示正在进行的时序活动(时序信息)
- CLIP 视觉/文本编码器分别编码两种线索→与可学习 prompt 增强的动作类别特征计算相似度→得到视觉 logits \(L_v\) 和文本 logits \(L_t\)
- 双线索一致性损失:\(L_C = KL(P_v||P_t) + KL(P_t||P_v)\)(对称 KL 散度)
- 设计动机:视觉线索有空间信息但缺时序上下文(单帧无法反映动作进展),文本线索补充时序信息——两者互补,KL 约束确保空间和时序判断一致
-
最终预测融合:
- \(L_{final} = L_p + \alpha \cdot (L_v + L_t)\),α=0.5
- 三路 logits 叠加:原型(累积统计)+ 视觉(空间)+ 文本(时序)
训练策略¶
- 训练阶段:源视角数据 BCE 损失训练预测网络;叙述器在开源数据集上单独预训练
- 测试阶段:仅更新可学习 prompt \(p_l\),SGD 优化,lr=1e-4/5e-4
实验关键数据¶
主实验(Top-5 Recall, %)¶
| 方法 | EgoMe-anti E2E Noun | E2E Verb | EgoExoLearn E2E Noun | E2E Verb |
|---|---|---|---|---|
| 无适应 | 71.94 | 32.46 | 31.91 | 34.36 |
| Tent | 74.14 | 35.63 | 34.71 | 36.22 |
| ML-TTA | 77.11 | 36.92 | 36.35 | 37.67 |
| ZERO | 75.19 | 36.03 | 37.19 | 36.76 |
| DCPGN | 79.03 | 43.84 | 46.26 | 42.98 |
消融实验(EgoMe-anti Exo2Ego)¶
| 配置 | Noun | Verb | 说明 |
|---|---|---|---|
| Full DCPGN | 79.03 | 43.84 | 完整模型 |
| w/o 多标签(单标签) | 72.74 | 35.47 | -6.3/-8.4,单标签严重退化 |
| w/o 置信度加权 | 78.67 | 42.72 | -0.4/-1.1,加权有帮助 |
| w/o 一致性损失 | 76.92 | 42.37 | -2.1/-1.5,一致性重要 |
| w/o 文本线索 | 77.56 | 42.15 | -1.5/-1.7,时序信息不可缺 |
| w/o 视觉线索 | 76.11 | 40.84 | -2.9/-3.0,空间信息更关键 |
| 无适应 | 71.94 | 32.46 | 基线 |
关键发现¶
- 多标签 vs 单标签是最大差异:切换到单标签后 Verb Recall 从 43.84% 降到 35.47%(-8.37%),证明多动作预测必须用多标签
- DCPGN 在 Verb 预测上优势巨大:EgoExoLearn Exo2Ego Verb 42.98% vs ML-TTA 37.67%(+5.31%),说明文本线索对时序动词预测贡献显著
- 视觉线索对名词更重要,文本线索对动词更重要:去掉视觉线索名词降 2.9%,去掉文本线索动词降 1.7%——符合空间/时序互补的设计预期
- 在两个基准的所有 4 个设定(Exo2Ego/Ego2Exo × 两数据集)上一致大幅领先所有 TTA 方法
亮点与洞察¶
- TE2A3 任务定义本身是重要贡献——首次将 TTA 引入 Ego-Exo 视角适应,零目标视角训练数据的约束更贴近实际部署
- 多标签原型增长的设计非常针对性——Action anticipation 中一个时刻对应多个原子动作是本质特征,ML-PGM 直接解决了传统 TTA 的单标签假设局限
- "视觉=空间, 文本=时序"的双线索互补洞察很有启发——可迁移到其他需要弥合视角差异的跨模态任务
- 熵优先队列策略确保记忆库中始终保留最可靠的表示,比 FIFO 更合理
- EgoMe-anti 基准的构建(从原始描述→标准化名词/动词类别)为社区提供了新的评测资源
局限性 / 可改进方向¶
- 叙述器依赖开源数据集预训练:新领域需要重新训练,泛化能力有限
- CLIP 作为特征骨干的假设:DCCM 严重依赖 CLIP 的跨模态对齐质量,换其他视觉编码器可能需要重新设计
- Top-K 中的 K 需要手动设定(EgoMe-anti K=3,EgoExoLearn K=5),自适应 K 选择可能更好
- 在线适应的计算延迟:虽然叙述器轻量,但每个批次都要做 ML-PGM 更新+DCCM 推理,实时性需评估
- 未测试更极端的视角差异(如鸟瞰 vs 第一人称)
相关工作与启发¶
- vs ML-TTA: 也做多标签 TTA 但针对图像分类;DCPGN 面向视频级动作预测,增加了原型增长和双线索一致性来处理 Ego-Exo 特有的时空差距
- vs TDA/ZERO: 单标签 cache/entropy 方法在多动作场景下严重退化;DCPGN 的多标签设计是根本性改进
- vs Sync/GCEAN: 训练时需要目标视角数据;DCPGN 完全不需要,更实用
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ TE2A3 任务首次提出 + 多标签原型增长 + 双线索一致性三重创新
- 实验充分度: ⭐⭐⭐⭐⭐ 两个基准 × 4 个设定 × 8 种 TTA 方法对比 + 详细消融
- 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,模块设计动机充分,Algorithm 1 伪代码直观
- 价值: ⭐⭐⭐⭐⭐ 任务定义 + 基准构建 + 方法创新三位一体,对跨视角具身智能有重要推动