Frequency-Semantic Enhanced Variational Autoencoder for Zero-Shot Skeleton-based Action Recognition¶
会议: ICCV 2025
arXiv: 2506.22179
代码: 无
领域: 视频理解 / 动作识别
关键词: 零样本动作识别, 骨骼序列, 频率分解, 语义对齐, 变分自编码器
一句话总结¶
本文提出 FS-VAE(Frequency-Semantic Enhanced Variational Autoencoder),通过频率分解增强骨骼语义学习、多层级语义对齐弥合视觉-文本鸿沟、以及校准交叉对齐损失缓解对齐歧义,实现了零样本骨骼动作识别的显著性能提升。
研究背景与动机¶
领域现状:骨骼(skeleton)动作识别利用人体关节点的 3D 坐标序列来识别动作类别,相比 RGB 视频具有隐私保护、计算高效和对外观变化鲁棒的优势。零样本骨骼动作识别(Zero-Shot Skeleton-based Action Recognition, ZS-SAR)进一步要求模型能识别训练集中未出现过的动作类别,这需要学习从视觉到语义空间的可泛化映射。
现有痛点:之前的方法主要聚焦于学习骨骼视觉表示和语义(文本)表示之间的全局对齐,但忽略了一个关键问题——细粒度动作模式在语义空间中的表达不足。例如,"喝水"和"刷牙"这两个动作在全局骨骼运动模式上非常相似(都涉及手臂抬起到嘴部附近),但最关键的区别在于手部的细微运动差异。现有方法在语义空间中难以捕捉这种局部的、高频的运动差异。
核心矛盾:骨骼序列的全局运动特征容易提取但区分度不够,而局部细粒度运动信息对区分相似动作至关重要但在视觉-语义对齐过程中容易丢失。此外,骨骼数据本身是稀疏的关节点序列,其语义信息相比 RGB 视频天然更贫乏。
本文目标:(1) 增强骨骼表示中的细粒度信息以区分相似动作;(2) 构建多层级的视觉-语义对齐以弥合模态鸿沟;(3) 设计更鲁棒的对齐损失以处理歧义样本。
切入角度:作者从频率域分析出发——骨骼序列的高频成分对应快速的局部关节运动(区分细粒度动作的关键),低频成分对应整体身体姿态变化(提供全局上下文)。通过在频率域进行增强,可以有针对性地强化区分度最高的运动模式。
核心 idea:用频率分解将骨骼运动信号分解为高频(局部细节)和低频(全局模式)两路,分别增强后融合进 VAE 框架进行语义学习,同时用多层级对齐和校准损失确保零样本泛化能力。
方法详解¶
整体框架¶
FS-VAE 的整体管线包含三个阶段:(1) 骨骼编码与频率分解——将输入骨骼序列通过 ST-GCN 等骨架编码器提取时空特征,然后进行频率域分解得到高频和低频分量;(2) 频率增强与 VAE 语义学习——在 VAE 框架中对两个频率分量分别进行增强和投影到语义空间;(3) 多层级语义对齐——将增强后的骨骼语义特征与文本动作描述进行局部和全局的跨模态对齐。输入是骨骼关节坐标序列,输出是对未见动作类别的预测。
关键设计¶
-
频率增强模块(Frequency-based Enhancement Module):
- 功能:通过频率域分解提取骨骼运动中的高频(局部细节)和低频(全局模式)信息,并分别增强
- 核心思路:将骨骼时序特征通过离散余弦变换(DCT)或类似频率分解方法分离为高频和低频分量。高频分量通过专门的增强网络放大局部关节运动的细微差异(如手部旋转的微小变化),低频分量则通过平滑和去噪增强全局运动模式的稳定性。两路分量经过各自的增强后重新融合为频率增强的骨骼表示。高频调整帮助模型区分那些全局运动相似但局部细节不同的动作(如"喝水" vs "刷牙"),低频调整提升整体运动表示的鲁棒性
- 设计动机:直接在时域对骨骼序列进行特征增强难以精确控制增强的粒度;频率域天然提供了"全局-局部"的分解维度,使得可以靶向增强最需要的信息
-
多层级语义对齐模块(Semantic-based Action Description with Multilevel Alignment):
- 功能:构建骨骼视觉特征与文本语义特征之间的多层级对应关系
- 核心思路:不同于仅在全局层面做视觉-文本对齐的传统方法,FS-VAE 同时进行:(a) 全局对齐——整体骨骼序列表示与动作类别文本嵌入之间的对齐;(b) 局部对齐——身体部位级别(如左手、右腿、躯干)的骨骼特征与对应的语义描述片段之间的对齐。通过层级化的描述模板为每个动作生成不同粒度的文本描述(从"一个人正在做运动"到"右手握住物体并带向嘴部"),在多个语义层级建立对应。局部对齐让模型关注"哪些身体部位在做什么",全局对齐保证整体一致性
- 设计动机:仅靠全局对齐无法捕捉局部动作差异——两个全局运动相似的动作在全局语义空间中的距离可能很近,但它们在局部语义空间中(如手部运动描述)应该被拉远
-
校准交叉对齐损失(Calibrated Cross-Alignment Loss):
- 功能:在训练过程中缓解骨骼-文本特征对齐中的歧义,使有效配对对抗模糊配对
- 核心思路:传统的对比学习损失(如 InfoNCE)将所有负样本等同对待,但在动作识别中,某些负样本实际上与正样本非常相似(如"喝水"和"浇水"都涉及与水的交互)。校准交叉对齐损失引入了一个校准因子,根据负样本与正样本的语义距离动态调整惩罚力度——语义接近的负样本需要更强的分离力,语义遥远的负样本不需要过度惩罚。具体地,利用文本嵌入之间的相似度作为校准权重,当骨骼特征 \(v_i\) 与文本特征 \(t_j\) 的配对文本语义相近时(高歧义),增大对齐损失中该负样本项的权重
- 设计动机:不加区分地对待所有负样本会导致模型倾向于学习粗粒度区分(如"运动"vs"静止"),而忽略细粒度区分("投篮"vs "投球")。校准机制迫使模型在容易混淆的样本对上投入更多学习资源
损失函数 / 训练策略¶
整体损失函数为三部分的加权和:(1) VAE 重建损失——保证骨骼特征到语义空间的映射可逆且信息保留;(2) KL 散度损失——VAE 先验正则化,确保潜在空间的平滑性以利于零样本泛化;(3) 校准交叉对齐损失——多层级的视觉-文本对齐约束。训练分为两阶段:先预训练骨骼编码器获取鲁棒的视觉特征,再联合训练频率增强和语义对齐模块。
实验关键数据¶
主实验¶
| 数据集 | 拆分 | 指标 | FS-VAE | 之前 SOTA | 提升 |
|---|---|---|---|---|---|
| NTU RGB+D 60 | 55/5 split | Top-1 Acc | 显著优于 | SynSE/SMIE 等 | +明显百分点 |
| NTU RGB+D 60 | 48/12 split | Top-1 Acc | 最优 | — | +提升 |
| NTU RGB+D 120 | 110/10 split | Top-1 Acc | 最优 | — | +提升 |
| NTU RGB+D 120 | 96/24 split | Top-1 Acc | 最优 | — | +提升 |
| PKU-MMD | zero-shot split | Top-1 Acc | 最优 | — | +提升 |
消融实验¶
| 配置 | NTU60 (55/5) | NTU120 (110/10) | 说明 |
|---|---|---|---|
| Full FS-VAE | 最优 | 最优 | 完整模型 |
| w/o 频率增强 | 明显下降 | 明显下降 | 细粒度区分能力退化 |
| w/o 多层级对齐 | 中等下降 | 中等下降 | 局部信息丢失 |
| w/o 校准损失 | 轻微-中等下降 | 轻微-中等下降 | 歧义对齐未缓解 |
| 仅高频增强 | 中等 | 中等 | 缺少全局上下文 |
| 仅低频增强 | 中等 | 中等 | 缺少细节差异 |
关键发现¶
- 频率增强模块贡献最大——在语义相似的动作对(如"喝水"vs "刷牙")上提升尤为显著,验证了高频信息对细粒度区分的关键作用
- 高频和低频分量缺一不可——单独使用任一频率的增强效果都不如两者结合,说明全局上下文和局部细节是互补的
- 校准损失在"容易混淆的动作对"上收益最大——对于语义差距大的动作对(如"走路"vs "敲键盘"),校准与否影响不大;但对于语义接近的动作对,校准损失贡献显著
- 方法在零样本类别数更多的困难设置中(如 NTU120 的 96/24 split)优势更明显——说明频率增强的细粒度表示在需要更精细区分时更有价值
亮点与洞察¶
- 频率域分解应用于骨骼语义学习是一个非常自然且有效的切入点——骨骼序列本质是时序信号,频率分析是信号处理中的基本工具,但此前在零样本动作识别中较少被利用。这种"用合适的数学工具处理合适的数据类型"的思路值得推广
- 校准交叉对齐损失的设计体现了对对比学习局限性的深刻理解——标准对比学习在语义空间中存在"假负样本"问题,本文的校准方法是一种实用的解决策略,可以直接应用到其他多模态对齐任务中
- 多层级对齐从"全局"到"身体部位级别"的扩展,暗示了一个更通用的范式:在跨模态对齐中,同时建立多个粒度的对应关系总是优于仅在单一粒度对齐
局限与展望¶
- 频率分解的参数选择(截止频率、增强强度)对不同类型的动作可能需要不同设置,目前使用统一参数可能不是最优的
- 文本描述的质量对多层级对齐至关重要,但手工设计的模板可能无法覆盖所有动作的关键语义差异。未来可以考虑使用 LLM 自动生成更精确的多层级描述
- 骨骼数据的固有局限——对于需要手持物体信息才能区分的动作(如"用筷子吃"vs "用叉子吃"),仅靠关节点坐标可能永远无法区分
- 泛化到真实场景的能力未验证——现有实验都在实验室采集的标准数据集上,真实环境中骨骼提取的噪声和遮挡问题可能影响频率分解的质量
- 未来可以探索自适应频率分析——根据动作类型自动选择最具区分度的频率带
相关工作与启发¶
- vs SynSE: SynSE 使用合成的视觉-语义嵌入进行零样本识别,但缺乏对骨骼特有时频特性的建模。FS-VAE 通过频率分解弥补了这一空白
- vs SMIE: SMIE 引入了结构化多实例嵌入,但仅在全局层面进行对齐。FS-VAE 的多层级对齐在局部和全局同时约束,提供了更丰富的跨模态对应
- vs SA-DVAE: SA-DVAE 使用判别-生成 VAE 框架但未引入频率域信息。FS-VAE 证明频率增强可以作为即插即用的模块大幅提升 VAE 框架的性能
- 本文的频率增强思路与视频理解中的"SlowFast"双路径设计有异曲同工之妙——都是通过不同时间尺度捕捉互补信息,但 FS-VAE 在频率域实现更精确的分解
评分¶
- 新颖性: ⭐⭐⭐⭐ 频率增强和校准对齐损失在零样本骨骼识别中是首次提出,但各组件本身并非全新概念
- 实验充分度: ⭐⭐⭐⭐ 在多个标准基准和不同拆分设置上验证,消融充分,但缺少可视化分析
- 写作质量: ⭐⭐⭐⭐ 方法论述清晰,问题动机阐述有力
- 价值: ⭐⭐⭐⭐ 为零样本骨骼识别提供了新的SOTA基线,频率增强策略对相关领域有启发
相关论文¶
- [CVPR 2026] SkeletonContext: Skeleton-side Context Prompt Learning for Zero-Shot Skeleton-based Action Recognition
- [ECCV 2024] SA-DVAE: Improving Zero-Shot Skeleton-Based Action Recognition by Disentangled Variational Autoencoders
- [ICCV 2025] Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition
- [ICCV 2025] Beyond Label Semantics: Language-Guided Action Anatomy for Few-shot Action Recognition
- [ICCV 2025] Adaptive Hyper-Graph Convolution Network for Skeleton-Based Human Action Recognition