跳转至

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

日期: 2026-03-10
arXiv: 2603.09798
代码:
领域: 机器人 / 跨视角适应
关键词: test-time adaptation, ego-exocentric, action anticipation, multi-label, dual-clue consistency

一句话总结

首次探索测试时自我-异我视角适应用于动作预测(TE2A3 任务)——提出 DCPGN 框架,通过多标签原型增长模块(ML-PGM,Top-K 伪标签 + 置信度加权 + 熵优先队列更新记忆库)和双线索一致性模块(DCCM,视觉线索→空间对象 + 文本线索→时序动作进展 + KL 散度约束一致性),在 EgoMe-anti 和 EgoExoLearn 基准上大幅超越现有 TTA 方法。

研究背景与动机

  1. 领域现状: Ego-Exo 跨视角理解对人机协作和具身 AI 至关重要。现有方法要么需要目标视角标注数据微调(pretrain-finetune),要么需要无标注目标视角数据做无监督域适应(UDA),均增加计算和数据采集成本。

  2. 现有痛点:

    • TTA 方法不适用于多动作候选:Tent/ZERO 等熵优化方法偏好最高置信的单一类别,但现实中每个事件包含多个原子动作需要同时预测
    • Ego-Exo 视角差距巨大:空间维度(布局不一致、干扰物体不同)+ 时序维度(动作进度异步),图像级跨域 TTA 方法无法应对
    • 缺乏 Ego-Exo TTA 基准:现有基准均假设训练时可访问目标视角数据
  3. 核心矛盾: 需要在零目标视角训练数据的条件下,同时解决多标签预测和视角间时空差距问题

  4. 切入角度: 多标签伪标签分配 + 视觉/文本双模态线索的互补——视觉线索提供空间对象信息,文本线索(由轻量叙述器生成)提供时序动作进展信息

  5. 核心 idea 一句话: 用多标签原型代替单标签熵优化来平衡多动作候选,用视觉+文本双线索的 KL 一致性来弥合 Ego-Exo 时空鸿沟

方法详解

整体框架

源视角标注数据 → 训练预测模型 \(\mathcal{M}_S\)(冻结 CLIP 视觉编码器 + 可训练预测网络 TA3N)→ 测试时:目标视角视频流 → ML-PGM 累积多标签原型 + DCCM 构建双线索一致性 → 在线适应 → 目标视角动作预测

关键设计

  1. 多标签原型增长模块(ML-PGM):
    • 做什么:为每个测试样本分配 Top-K 个伪标签(而非单标签),构建类别级记忆库并持续更新
    • 核心思路:
    • 预测 logits \(L^T\) → 取 Top-K 类别的置信度作为伪标签(公式1)
    • 计算预测熵 \(\mathcal{H}^T\)(公式2)衡量可靠性
    • 熵优先队列策略更新记忆库:容量 N,满时保留熵最低(最可靠)的 N 条表示(公式3)
    • 置信度加权计算原型\(p_i^T = \sum_{k=1}^{N'} \eta(l_{i,k}^T) \cdot \bar{f}_{v,k}^T\)(公式4),高置信样本贡献更大
  2. 设计动机:单标签 TTA 方法(Tent/ZERO)在多动作场景下偏向最高置信类→忽略其他动作。多标签分配+置信度加权同时保留多个动作候选的信息

  3. 双线索一致性模块(DCCM):

    • 做什么:提取视觉和文本两种线索,通过 CLIP 空间中的 KL 散度约束二者一致性
    • 视觉线索:观测视频最后一帧→包含场景中各种空间对象(空间信息)
    • 文本线索:轻量 GRU 叙述器对帧特征序列生成描述→自然指示正在进行的时序活动(时序信息)
    • CLIP 视觉/文本编码器分别编码两种线索→与可学习 prompt 增强的动作类别特征计算相似度→得到视觉 logits \(L_v\) 和文本 logits \(L_t\)
    • 双线索一致性损失\(L_C = KL(P_v||P_t) + KL(P_t||P_v)\)(对称 KL 散度)
    • 设计动机:视觉线索有空间信息但缺时序上下文(单帧无法反映动作进展),文本线索补充时序信息——两者互补,KL 约束确保空间和时序判断一致
  4. 最终预测融合:

    • \(L_{final} = L_p + \alpha \cdot (L_v + L_t)\),α=0.5
    • 三路 logits 叠加:原型(累积统计)+ 视觉(空间)+ 文本(时序)

训练策略

  • 训练阶段:源视角数据 BCE 损失训练预测网络;叙述器在开源数据集上单独预训练
  • 测试阶段:仅更新可学习 prompt \(p_l\),SGD 优化,lr=1e-4/5e-4

实验关键数据

主实验(Top-5 Recall, %)

方法 EgoMe-anti E2E Noun E2E Verb EgoExoLearn E2E Noun E2E Verb
无适应 71.94 32.46 31.91 34.36
Tent 74.14 35.63 34.71 36.22
ML-TTA 77.11 36.92 36.35 37.67
ZERO 75.19 36.03 37.19 36.76
DCPGN 79.03 43.84 46.26 42.98

消融实验(EgoMe-anti Exo2Ego)

配置 Noun Verb 说明
Full DCPGN 79.03 43.84 完整模型
w/o 多标签(单标签) 72.74 35.47 -6.3/-8.4,单标签严重退化
w/o 置信度加权 78.67 42.72 -0.4/-1.1,加权有帮助
w/o 一致性损失 76.92 42.37 -2.1/-1.5,一致性重要
w/o 文本线索 77.56 42.15 -1.5/-1.7,时序信息不可缺
w/o 视觉线索 76.11 40.84 -2.9/-3.0,空间信息更关键
无适应 71.94 32.46 基线

关键发现

  • 多标签 vs 单标签是最大差异:切换到单标签后 Verb Recall 从 43.84% 降到 35.47%(-8.37%),证明多动作预测必须用多标签
  • DCPGN 在 Verb 预测上优势巨大:EgoExoLearn Exo2Ego Verb 42.98% vs ML-TTA 37.67%(+5.31%),说明文本线索对时序动词预测贡献显著
  • 视觉线索对名词更重要,文本线索对动词更重要:去掉视觉线索名词降 2.9%,去掉文本线索动词降 1.7%——符合空间/时序互补的设计预期
  • 在两个基准的所有 4 个设定(Exo2Ego/Ego2Exo × 两数据集)上一致大幅领先所有 TTA 方法

亮点与洞察

  • TE2A3 任务定义本身是重要贡献——首次将 TTA 引入 Ego-Exo 视角适应,零目标视角训练数据的约束更贴近实际部署
  • 多标签原型增长的设计非常针对性——Action anticipation 中一个时刻对应多个原子动作是本质特征,ML-PGM 直接解决了传统 TTA 的单标签假设局限
  • "视觉=空间, 文本=时序"的双线索互补洞察很有启发——可迁移到其他需要弥合视角差异的跨模态任务
  • 熵优先队列策略确保记忆库中始终保留最可靠的表示,比 FIFO 更合理
  • EgoMe-anti 基准的构建(从原始描述→标准化名词/动词类别)为社区提供了新的评测资源

局限性 / 可改进方向

  • 叙述器依赖开源数据集预训练:新领域需要重新训练,泛化能力有限
  • CLIP 作为特征骨干的假设:DCCM 严重依赖 CLIP 的跨模态对齐质量,换其他视觉编码器可能需要重新设计
  • Top-K 中的 K 需要手动设定(EgoMe-anti K=3,EgoExoLearn K=5),自适应 K 选择可能更好
  • 在线适应的计算延迟:虽然叙述器轻量,但每个批次都要做 ML-PGM 更新+DCCM 推理,实时性需评估
  • 未测试更极端的视角差异(如鸟瞰 vs 第一人称)

相关工作与启发

  • vs ML-TTA: 也做多标签 TTA 但针对图像分类;DCPGN 面向视频级动作预测,增加了原型增长和双线索一致性来处理 Ego-Exo 特有的时空差距
  • vs TDA/ZERO: 单标签 cache/entropy 方法在多动作场景下严重退化;DCPGN 的多标签设计是根本性改进
  • vs Sync/GCEAN: 训练时需要目标视角数据;DCPGN 完全不需要,更实用

评分

  • 新颖性: ⭐⭐⭐⭐⭐ TE2A3 任务首次提出 + 多标签原型增长 + 双线索一致性三重创新
  • 实验充分度: ⭐⭐⭐⭐⭐ 两个基准 × 4 个设定 × 8 种 TTA 方法对比 + 详细消融
  • 写作质量: ⭐⭐⭐⭐⭐ 问题定义清晰,模块设计动机充分,Algorithm 1 伪代码直观
  • 价值: ⭐⭐⭐⭐⭐ 任务定义 + 基准构建 + 方法创新三位一体,对跨视角具身智能有重要推动