跳转至

Combining Boundary Supervision and Segment-Level Regularization for Fine-Grained Action Segmentation

会议: CVPR 2026
arXiv: 2604.01859
代码: 无
领域: 视频理解
关键词: 时序动作分割, 边界监督, 段级正则化, CDF损失, 即插即用

一句话总结

提出一种轻量级双损失训练框架用于时序动作分割(TAS),仅增加一个边界输出通道和两个辅助损失(边界回归损失 + CDF 段形状正则化损失),在 MS-TCN、C2F-TCN、FACT 三种架构上一致提升 F1 和 Edit 分数,证明精确分割可以通过简单的损失设计而非更重的架构实现。

研究背景与动机

领域现状:时序动作分割(TAS)从 MS-TCN 等单路径模型逐步演进到 ASRF 和 FACT 等多路径框架,后者使用辅助模块进行边界精炼。虽然效果提升但增加了计算复杂度和参数量。帧级交叉熵损失仍是核心,但常导致过分割和边界错位。

现有痛点:(1) 帧级分类损失缺乏段级结构约束,在动作转换处预测不稳定导致过分割;(2) 现有边界建模方法(如 ASRF 的双分支设计、BCN 的级联框架)需要专门的辅助分支,增加了架构复杂度和推理成本;(3) 后处理精炼方法(如 ASOT)在训练目标之外操作,不直接影响模型的表示学习。

核心矛盾:如何在不增加显著架构复杂度的前提下,为 TAS 模型注入边界感知和段级结构约束?

本文目标:设计一种架构无关的训练时增强方案,用最小的修改(1 个额外输出通道 + 2 个辅助损失)在多种 TAS 架构上提升分割质量。

切入角度:边界监督和段级正则化可以作为纯粹的训练目标注入,不需要专门的架构分支。关键洞察是将边界和非边界区域的损失解耦分配,减少优化冲突。

核心 idea:(1) 用单通道边界回归直接从模型输出预测动作边界位置;(2) 用 CDF 段形状正则化在段级别约束预测的累积分布与 GT 一致,而非仅在帧级别对齐。

方法详解

整体框架

在现有 TAS 模型(如 MS-TCN)基础上,仅增加一个边界输出通道。训练时在模型原有损失之外添加两个辅助损失:边界回归损失 \(\mathcal{L}_B\) 应用于边界附近区域,CDF 段正则化损失 \(\mathcal{L}_{CDF}\) 应用于非边界区域。两者的空间解耦避免了优化冲突。推理时仅使用原始分类输出,不需要额外计算。

关键设计

  1. 边界回归损失 \(\mathcal{L}_B\):

    • 功能:促进对动作转换边界的精确时序定位
    • 核心思路:额外的单通道输出预测一个类别无关的边界概率曲线。监督信号是二值边界 mask(在 GT 的类别转换位置为 1,其他为 0)。损失仅在边界附近的时序窗口内计算
    • 设计动机:与 ASRF 的双分支设计不同,本方法只需一个额外通道,不引入辅助分支或后处理。边界感知表示在训练时学习,推理时无额外开销
  2. CDF 段形状正则化损失 \(\mathcal{L}_{CDF}\):

    • 功能:在段级别约束预测的时序结构,减少过分割
    • 核心思路:对于每个 GT 段,计算预测概率在该段内的累积分布函数(CDF),并与 GT 的均匀 CDF 对齐。惩罚两个 CDF 之间的差异,灵感来自 1D Wasserstein 距离与 CDF 的关系,但作为简单的监督段级形状约束使用
    • 设计动机:帧级交叉熵只要求每帧预测正确,不关心段内预测的时序连贯性。CDF 正则化迫使预测在每个段内呈现均匀递增的累积分布,鼓励段内的连贯性而非碎片化
  3. 解耦损失分配策略:

    • 功能:将边界损失和段正则化损失分配到不同时序区域
    • 核心思路:将时间轴分为边界区域和非边界区域。\(\mathcal{L}_B\) 只在边界区域计算,\(\mathcal{L}_{CDF}\) 只在非边界区域计算
    • 设计动机:边界处和段内部的优化目标天然存在冲突——边界处需要快速切换预测类别,段内部需要保持稳定。解耦分配让两个目标各司其职,避免互相干扰

损失函数 / 训练策略

总损失 = 模型原有损失 + \(\lambda_B \cdot \mathcal{L}_B\) + \(\lambda_{CDF} \cdot \mathcal{L}_{CDF}\)。方法是纯训练时增强,推理时不需要任何额外计算或后处理。

实验关键数据

主实验

模型 数据集 F1@10 提升 Edit 提升 Acc 变化
MS-TCN GTEA +5.4% +4.6% 基本不变
MS-TCN 50Salads 提升 提升 基本不变
MS-TCN Breakfast 提升 提升 基本不变
C2F-TCN 全部数据集 一致提升 一致提升 基本不变
FACT 全部数据集 一致提升 一致提升 基本不变

消融实验

配置 F1 Edit 说明
基线 (无辅助损失) 基线 基线 原始模型
+ \(\mathcal{L}_B\) only 提升 提升 边界感知有帮助
+ \(\mathcal{L}_{CDF}\) only 提升 提升 段结构约束有帮助
+ 两者(解耦分配) 最优 最优 解耦组合效果最佳
+ 两者(不解耦) 低于解耦版 低于解耦版 验证解耦的必要性

关键发现

  • 帧级精度(Acc)基本不变但 F1 和 Edit 显著提升,说明改善来自段级连贯性和边界精度而非帧分类能力
  • 在 MS-TCN 这种相对简单的架构上改善最大(+5.4% F1@10),说明简单模型从结构约束中受益最多
  • 方法与后处理精炼(如 ASOT)互补——训练时优化表示,推理时可选择性叠加后处理
  • 解耦损失分配是关键——不解耦时两个损失会互相冲突降低效果

亮点与洞察

  • "用损失设计替代架构设计"的思路非常务实。一个额外通道 + 两个辅助损失就能在三种不同架构上一致提升,体现了良好的通用性
  • CDF 段形状正则化是有趣的设计——将段级结构约束表达为 CDF 匹配问题,既简洁又有效。与 Wasserstein 距离的联系提供了理论支撑
  • 解耦损失分配的设计虽然简单但关键——边界和段内是两种性质不同的优化目标,分区域处理避免了方向相反的梯度信号

局限与展望

  • 实验仅在三个标准 TAS 数据集上验证,对更大规模或更复杂的数据集(如 Assembly101)的效果未知
  • 边界窗口的大小是手工设定的超参数,对结果有一定影响
  • 方法对帧级精度几乎无贡献,如果任务更关注帧级指标则价值有限
  • 改进方向:可探索自适应的边界/非边界区域划分,或将 CDF 约束扩展到多粒度时序窗口

相关工作与启发

  • vs ASRF: 同样引入边界监督但需要双分支架构和后处理,本文仅用单通道 + 损失函数
  • vs BCN: 需要级联框架和 Barrier Generation Module,复杂度高得多
  • vs ASOT: 后处理方法,与本文互补——本文优化训练目标,ASOT 优化推理输出

评分

  • 新颖性: ⭐⭐⭐ CDF 正则化有新意,但整体是已有思路的组合
  • 实验充分度: ⭐⭐⭐⭐ 三种架构、三个数据集、消融完整
  • 写作质量: ⭐⭐⭐⭐ 动机清晰,方法简洁,图表直观
  • 价值: ⭐⭐⭐⭐ 轻量即插即用方案对 TAS 社区有实用价值

相关论文