Temporal Rate Reduction Clustering for Human Motion Segmentation¶

会议: ICCV 2025
arXiv: 2506.21249
代码: GitHub
领域: 图像分割
关键词: 人体运动分割, 子空间聚类, 最大编码率约简, 时序一致性, 无监督时序聚类

一句话总结¶

提出 Temporal Rate Reduction Clustering (TR²C) 方法，将最大编码率约简（MCR²）原理与时序连续性正则化相结合，联合学习符合子空间联合（UoS）分布的时序一致表示与亲和度矩阵，在五个基准上大幅刷新人体运动分割 SOTA。

研究背景与动机¶

人体运动分割（HMS）旨在将视频帧序列划分为不同的非重叠运动段。由于标注成本高昂，HMS 通常被视为无监督时序聚类任务。现有方法主要基于子空间聚类假设，即视频帧特征近似分布在低维子空间的联合（Union of Subspaces, UoS）上。

然而，本文指出了现有方法的核心瓶颈：

数据-假设不匹配：包含复杂人体运动和杂乱背景的视频帧特征很难良好地符合 UoS 分布假设。已有表示学习方法（auto-encoder、图一致性等）虽然尝试学习更好的特征，但没有证据表明学到的表示真正对齐了 UoS 结构。

时序先验利用不足：视频中相邻帧大概率属于同一运动，这一先验虽被 OSC、TSC 等方法利用，但它们在特征空间不对齐的情况下效果有限。

迁移学习方法的局限：虽然引入了跨域对齐策略，但性能瓶颈依然存在，根本原因在于没有从表示层面解决分布对齐问题。

本文的关键洞察是：应该联合学习符合 UoS 结构的表示和用于分割的亲和度矩阵，同时融入时序一致性约束，让学到的特征在优化过程中自然地对齐到理想的几何结构上。

方法详解¶

整体框架¶

TR²C 的框架包含三个网络组件：编码器 \(f(\cdot)\)、特征头 \(g(\cdot)\) 和聚类头 \(h(\cdot)\)。输入特征经过编码器提取共享表示，然后分别通过特征头和聚类头产生结构化表示 \(\boldsymbol{Z}\) 和亲和度矩阵 \(\boldsymbol{\Gamma}\)，最终对 \(\boldsymbol{\Gamma}\) 做谱聚类得到分割结果。

关键设计¶

MCR² 原理用于联合学习表示和分割：基于最大编码率约简原理，核心优化目标由三部分组成。\(\rho(\boldsymbol{Z}, \epsilon)\) 为总编码率，衡量表示的整体体积（基于 \(\log\det\) 函数）；\(\rho^c(\boldsymbol{Z}, \epsilon | \boldsymbol{\Pi})\) 为类内编码率之和。最大化总体积、最小化类内体积，使表示自然趋向于彼此正交的子空间联合分布。这是首次将 MCR² 原理用于时序序列聚类任务，其几何直觉是：\(\log\det(\cdot)\) 作为 \(\text{rank}(\cdot)\) 的凹松弛，能有效衡量表示空间的体积。
时序 Laplacian 正则化：引入时序图 Laplacian 正则化 \(r(\boldsymbol{Z}) = \text{tr}(\boldsymbol{Z}\boldsymbol{L}\boldsymbol{Z}^\top)\)，其中 \(\boldsymbol{L}\) 是基于滑动窗口（窗口大小 \(s\)）构建的图 Laplacian 矩阵。该正则化鼓励相邻帧的表示保持相似，实现时序一致性。设计动机是：单纯做 MCR² 优化会忽视视频帧的时序连续性，可能导致相邻但属于同一运动的帧被分到不同子空间。
防止坍缩的总编码率最大化：直接最小化 \(\rho^c + \lambda r(\boldsymbol{Z})\) 存在平凡解（所有嵌入坍缩），类似于图神经网络中的过平滑问题。因此引入 \(-\rho(\boldsymbol{Z}, \epsilon)\) 项作为正则化，通过最大化总编码率来防止表示压缩过度。最终优化目标：

\[\min_{\boldsymbol{Z}, \boldsymbol{\Pi}} -\rho(\boldsymbol{Z}, \epsilon) + \lambda_1 \rho^c(\boldsymbol{Z}, \epsilon | \boldsymbol{\Pi}) + \lambda_2 r(\boldsymbol{Z})\]

约束 \(\|\boldsymbol{z}_i\|_2^2 = 1\)。

可微优化框架：将离散分配矩阵 \(\boldsymbol{\Pi}\) 松弛为双随机亲和矩阵 \(\boldsymbol{\Gamma}\)，通过 Sinkhorn 投影保证约束满足。网络参数化 \(\boldsymbol{Z}\) 和 \(\boldsymbol{\Gamma}\) 并使用反向传播更新，实现端到端可微训练。

损失函数 / 训练策略¶

最终损失函数为三项之和：

\[\mathcal{L} = -\mathcal{L}_\rho + \lambda_1 \mathcal{L}_{\bar{\rho}^c} + \lambda_2 \mathcal{L}_r\]

\(\mathcal{L}_\rho\)：最大化总编码率，防止表示坍缩
\(\mathcal{L}_{\bar{\rho}^c}\)：最小化类内编码率，促进子空间分离
\(\mathcal{L}_r\)：时序 Laplacian 正则化，保持时序一致性

网络架构轻量（两层 MLP 编码器 + FC 头），\(\lambda_1, \lambda_2\) 按数据集独立调参，滑动窗口固定 \(s=2\)，训练 500 iterations。

实验关键数据¶

主实验¶

在五个 HMS 基准上基于 HoG 特征的对比（ACC / NMI）：

方法	Weiz ACC	Keck ACC	UT ACC	MAD ACC	YouTube ACC
TSC	61.11	47.81	53.40	55.56	90.40
CDMS (迁移学习)	65.05	62.07	66.43	65.36	67.98
GCTSC (SOTA)	85.01	78.64	87.00	82.97	95.79
TR²C (本文)	94.12	83.50	93.54	83.08	97.96

TR²C 在未使用迁移学习的前提下，聚类精度比迁移学习方法高约 20%，比前 SOTA GCTSC 高 5~9 个点。

消融实验¶

损失组合	\(\mathcal{L}_\rho\)	\(\mathcal{L}_{\bar{\rho}^c}\)	\(\mathcal{L}_r\)	Weiz ACC	Keck ACC	UT ACC
仅 MCR²（无时序）	✓	✓	×	37.30	47.29	45.79
无总编码率项	×	✓	✓	53.14	47.91	63.13
无类内编码率项	✓	×	✓	64.68	58.60	65.67
完整 TR²C	✓	✓	✓	94.07	86.78	94.05

三个损失项缺一不可，其中缺少 \(\mathcal{L}_\rho\) 导致表示过度压缩，缺少 \(\mathcal{L}_{\bar{\rho}^c}\) 导致过度分割，缺少 \(\mathcal{L}_r\) 丧失时序一致性。

关键发现¶

表示质量：PCA 可视化显示，原始 HoG 特征呈一维流形结构，无法清晰分割；TR²C 学到的表示呈现出明确的正交子空间联合结构
鲁棒性：在高斯噪声扰动下，TR²C 表示的聚类精度下降至多 15%，而 GCTSC 下降 45%，证明 UoS 对齐带来了显著的噪声鲁棒性
CLIP 特征加持：使用 CLIP 预训练特征替代 HoG 后，TR²C+CLIP 在 Weiz 上达 96.32，Keck 上达 90.86
计算效率：结合 GPU 加速，TR²C 比 GCTSC 快 100 倍以上（YouTube 数据集：41s vs 8475s）

亮点与洞察¶

理论贡献：首次将 MCR² 原理推广到时序聚类问题，并通过时序正则化和防坍缩机制使之适用于 HMS
几何解释清晰：通过 \(\log\det\) 函数衡量子空间体积，优化目标具有明确的几何意义——最大化总体积、最小化类内体积
简洁有效：网络架构仅为两层 MLP + FC 层，训练速度快，且效果大幅领先

局限与展望¶

仅在 HoG 和 CLIP 特征上验证，未探索端到端从视频帧直接学习的方案
数据集规模较小（百~千帧），在长视频或大规模数据上的可扩展性待验证
超参数 \(\lambda_1, \lambda_2\) 需要按数据集调整，自适应策略值得探索
仅验证了人体运动分割，可推广到更通用的时序分割任务（如动作识别、活动检测等）

评分¶

新颖性: ⭐⭐⭐⭐ 将 MCR² 原理与时序聚类首次结合，理论与方法创新并重
实验充分度: ⭐⭐⭐⭐ 五个基准全面对比，含消融、可视化、鲁棒性、不同特征评估
写作质量: ⭐⭐⭐⭐ 数学推导严谨，动机清晰，但公式较密集
价值: ⭐⭐⭐⭐ 为时序聚类提供了新的理论框架，大幅突破 HMS 性能瓶颈