Long-Tail Temporal Action Segmentation with Group-wise Temporal Logit Adjustment¶

会议: ECCV 2024
arXiv: 2408.09919
代码: pangzhan27/GTLA
领域: 时序动作分割
关键词: 时序动作分割, 长尾分布, Logit 调整, 程序化活动视频, 过分割

一句话总结¶

首次系统性地解决时序动作分割中的长尾问题，提出 Group-wise Temporal Logit Adjustment (G-TLA) 框架，利用活动标签进行分组分类并结合动作时序先验进行 logit 调整，在大幅提升尾部类别性能的同时不损失头部类别。

研究背景与动机¶

时序动作分割将程序化活动视频逐帧分类为不同动作。该任务存在严重的长尾分布问题，且有双重来源：

段级不均衡：某些动作是可选的（如泡茶时加糖是可选的），出现频率差异悬殊（Breakfast 数据集不均衡比高达 639:1）

帧级不均衡：不同动作持续时间差异大，如"倒水"远比"加茶包"占更多帧

现有 SOTA（ASFormer、DiffAct）完全忽略长尾问题，在部分尾部类别上准确率为零。而将图像分类的长尾方法直接搬用又面临独特挑战： - 动作间存在时序依赖，违反了传统方法的类别独立假设 - 简单 Logit Adjustment (LA) 会引入活动无关的假阳性（如泡茶时预测出"搅拌咖啡"）和违反时序逻辑的假阳性（如"搅茶"之后出现"加茶包"） - 需要同时平衡帧级和段级指标，简单方法往往顾此失彼导致过分割

方法详解¶

整体框架¶

G-TLA 框架包含两个核心组件，均作用于基础分割模型（如 MSTCN、ASFormer）的分类层： 1. 分组分类 (Group-wise Classification)：根据活动标签将序列分组，每组使用独立分类器 2. 时序 Logit 调整 (Temporal Logit Adjustment)：在组内利用动作顺序先验约束 logit 调整的时间范围

关键设计¶

分组分类策略：
- 根据活动标签将视频序列划分为互斥组 \(\mathbf{G}\)，如"泡茶"为 \(G_1\)、"泡咖啡"为 \(G_2\)
- 每组引入辅助类"others"表示不属于该组的动作
- 共享动作（如"加糖"同时出现在泡茶和泡咖啡中）在不同组中视为不同类别
- 最后特征层 \(z_t\) 同时送入 \(n\) 个组分类器：\(s_{c,t}^{(i)}(X) = \sum_j z_t[j] \cdot W_{j,c}^{(i)} + b^{(i)}\)
- 损失函数分为目标组动作分类和非目标组"others"分类两项
- 设计动机：消除活动不兼容类别的干扰（\(p(c|a)=0\) 的类不会被 LA 错误提升），减少语义相似动作的混淆
时序 Logit 调整：
- 标准 LA 对所有帧统一调整：\(s_{c,t}^{(k)}(X) + \tau \log p(c|G_k)\)
- G-TLA 引入时序因子 \(\mathcal{T}_{c,t}^{(k)}(X)\)：\(s_{c,t}^{(k)}(X) + \tau \mathcal{T}_{c,t}^{(k)}(X) \log p(c|G_k)\)
- 时序界限：对每个动作 \(c\) 计算其前驱集 \(S_{bf}[c]\) 和后继集 \(S_{af}[c]\)，确定可出现的时间窗口 \([t_1(c,X), t_2(c,X)]\)
- 窗口内正常调整（\(\mathcal{T}=1\)），窗口外保持一致调整防止违反时序先验
- 窗口外的调整因子：\(\mathcal{T}_{c,t}^{(k)} = \frac{\log p(y_t|G_k)}{\log p(c|G_k)}\)，确保不破坏真实标签与候选类之间的决策边界
- 设计动机：防止 LA 在时序不合理的位置引入假阳性（如搅茶应在倒水之后，不应出现在之前）
推理策略：
- 活动标签未知时，选择"others"预测概率最低的组作为活动预测：\(\hat{k} = \arg\min_i \frac{1}{T}\sum_t \hat{p}(o_t^{(i)})\)
- 推理时不使用时序 logit 调整，直接 argmax 预测概率
- 无活动标签时可通过 KL 散度聚类替代

损失函数 / 训练策略¶

总损失：\(\mathcal{L} = \mathcal{L}_{GTLA} + \lambda \mathcal{L}_{sm}\)
分组损失：\(\mathcal{L}_{GTLA} = \alpha_k \frac{1}{T}\sum_t -\log \tilde{p}(y_t^{(k)}) + \eta \sum_{i \neq k}^n \frac{1}{T}\sum_t -\log \hat{p}(o_t^{(i)})\)
\(\eta\) 控制目标组与非目标组损失平衡，\(\alpha_k\) 用于组间样本数均衡
\(\tau\) 控制均衡误差与偏斜误差的权衡
平滑损失 \(\mathcal{L}_{sm}\) 鼓励帧间预测平滑过渡，阈值 \(\delta=4\)
使用预提取的 I3D 特征，与原始 backbone 训练协议一致

实验关键数据¶

主实验¶

YouTube Instructional Videos（ASFormer backbone，增量报告）：

方法	类型	Frame Acc Hmean	Seg F1@25 Hmean	全局 Acc
ASFormer 基线	—	26.0	28.4	69.8
+ CB (重加权)	reweight	+2.8	+0.8	-0.2
+ LA (logit adj.)	logit adj.	+5.3	+2.1	-1.9
+ BAGS (集成)	ensemble	+3.3	+1.6	-0.5
+ G-TLA (ours)	logit adj.	+7.5	+4.6	+0.1

Breakfast（MSTCN backbone）：

方法	Frame Acc Hmean	Seg F1@25 Hmean	全局 Acc
MSTCN 基线	47.7	44.8	67.7
+ LA	+2.1	+0.9	-0.1
+ Seesaw	+2.4	+0.5	+0.9
+ G-TLA (ours)	+5.0	+6.7	+2.6

MSTCN 上 G-TLA 在 Breakfast 的 Seg F1 提升 6.7 点，全局 Acc 也提升 2.6 点，多数竞争方法牺牲全局指标。

消融实验¶

Breakfast 上逐步添加组件（MSTCN backbone）：

GP	LA	TF	Frame Hmean	Seg F1 Hmean	说明
✗	✗	✗	47.7	44.8	基线
✗	✓	✗	49.8	45.7	朴素 LA，头部下降
✓	✗	✗	50.9	51.3	分组分类显著减少过分割 (+5.5% F1)
✓	✓	✗	51.3	51.2	组内 LA
✓	✓	✓	52.7	51.5	时序因子进一步减少假阳性

超参数敏感性：\(\eta=0.5\) 和 \(\tau=0.5\) 时最优，变化范围 0.1-0.7 内性能较稳定。

关键发现¶

分组分类是最关键的组件：MSTCN 上单独 GP 即带来 F1 +5.5 提升
传统长尾方法（CB、Focal、LA 等）在时序分割上表现不佳，原因是忽略了动作间的依赖关系
许多方法提升帧准确率但牺牲段级 F1（过分割问题），G-TLA 能同时改善两者
ASFormer/DiffAct 等 SOTA 在近 10% 的类别上准确率为零，G-TLA 有效缓解
在平衡数据集（50Salads、GTEA）上也有稳定提升，适用范围广

亮点与洞察¶

问题定义贡献大于方法贡献：首次系统揭示时序分割的长尾问题，并提出对应的评估指标（per-class harmonic mean）
分组分类巧妙规避了条件概率 \(p(c|a)=0\) 带来的数值问题（\(\log 0\) 问题）
时序因子的设计非常精巧：在时间窗口内正常调整，窗口外通过比值保持一致性，既不过度抑制也不引入假阳性
即插即用：G-TLA 只修改分类层，可直接搭载到 MSTCN、ASFormer、DiffAct 等任意 backbone

局限与展望¶

需要活动标签（或聚类结果）来确定分组，增加了先验信息需求
时序约束 \(S_{bf}[c]\) 和 \(S_{af}[c]\) 从训练数据统计得到，对于训练集中未出现的新顺序可能失效
Assembly101 等超大规模数据集上尾部提升仍然有限（4.7→9.2 Frame Acc，绝对值仍低）
未探索将分组信息编码到特征学习中（目前仅作用于分类层）

评分¶

新颖性: ⭐⭐⭐⭐ — 首次解决时序分割长尾问题，分组+时序 logit 调整的组合设计合理且新颖
实验充分度: ⭐⭐⭐⭐⭐ — 5 个数据集，3 种 backbone，7 种长尾基线对比，详细消融和超参分析
写作质量: ⭐⭐⭐⭐ — 动机清晰，泡茶的 running example 贯穿全文非常直观
价值: ⭐⭐⭐⭐ — 填补重要研究空白，方法即插即用实用性强，新评估指标有推广价值