跳转至

FSENet: Face-Guided Sentiment Boundary Enhancement for Weakly-Supervised Temporal Sentiment Localization

日期: 2026-03-16
arXiv: 2603.14750
代码: GitHub
领域: 多模态/VLM / 视频理解
关键词: 时序情感定位, 弱监督, 面部特征引导, 伪标签, 对比学习

一句话总结

提出 FSENet 框架利用面部特征引导时序情感定位——FSD 模块通过双分支建模(面部中心交互 + 全局情感感知)发现情感线索,PSSC 对比策略增强边界附近帧的情感语义区分,BSPG 将稀疏点标注平滑扩展为时序连续伪标签,在 TSL300 上 point-level 弱监督 mAP 达 21.45%,超越前 SOTA 5%+。

研究背景与动机

  1. 领域现状: 时序情感定位(TSL)旨在未裁剪视频中检测情感相关片段,密集帧级标注成本高,因此弱监督方法受到关注。

  2. 现有痛点: (a) 视频中冗余信息(背景、颜色)掩盖关键情感信号;(b) 点级标注仅提供稀疏锚点,边界不确定;(c) 基于阈值的伪标签方法存在边界不连续和抖动问题。

  3. 核心 idea: 面部表情直接反映情感刺激,且比全局视觉内容更容易捕捉细微变化——用面部特征引导多模态交互来发现情感线索。

方法详解

FSD: Face-guided Sentiment Discovery

双分支并行设计: 1. FCI (Face-Centric Interaction): 两阶段面部引导交互 - Stage-I: 面部特征分别与音频、视觉做多头注意力交互 → \(F_v^{(f)}, F_a^{(f)}\) - Stage-II: 融合后的面部-音频/视觉特征再次交互 → \(F_v^{(af)}, F_a^{(vf)}\),拼接得 \(F_{mix}\)

  1. GSP (Global Sentiment Perception): 全局情感权重
    • 拼接三种模态特征 → 卷积 → 回归头 + sigmoid → \(W_{sent} \in [0,1]^T\)

PSSC: Point-aware Sentiment Semantics Contrast

  • 为每个情感类别构建原型 \(\bar{p}_{c_i}\)(该类标注点特征的均值)
  • 按 GSP 加权的相似度选 Top-K 帧作为正样本 \(\mathcal{U}^+\),其他类附近帧为负样本 \(\mathcal{U}^-\)
  • 对比损失拉近正样本、推远负样本,增强帧级情感区分

BSPG: Boundary-aware Sentiment Pseudo-label Generation

  • 从标注点出发,使用衰减函数 \(s_t = \beta + (1-\beta)(1-\frac{|t-t_p|}{w})\) 生成平滑伪标签
  • \(\beta=0.6\) 控制边界最小值,\(w=7\) 控制扩展窗口
  • 消除传统阈值方法的边界不连续和抖动

总损失

\(\mathcal{L}_{total} = \mathcal{L}_{base} + \lambda_1(\mathcal{L}_{frame} + \mathcal{L}_{frame}^{glo}) + \lambda_2 \mathcal{L}_{sc}\)

实验关键数据

TSL300 (Point-level 弱监督)

方法 mAP@0.1 mAP@0.2 mAP@0.3 平均 mAP Recall
TSL 28.72 20.46 11.83 20.40 71.14
HR-pro 27.24 19.85 11.83 19.60 73.60
FSENet 29.31 22.49 13.24 21.45 75.02

与 LLM 对比

方法 平均 mAP
Qwen3-Omni (zero-shot) 5.07
LLaMA-2-7B (LoRA) 9.97
FSENet (small model) 21.45

消融

  • FCI 两阶段完整 + GSP: 21.45%(去 GSP → 20.22%,-1.2%)
  • BSPG 完整: 21.45%(无伪标签 → 16.92%,-4.5%)
  • 三模态融合(A+V+F): 21.45%(双模态最高 A+V: 19.41%)

亮点与洞察

  • 面部特征的情感感知价值: 单模态面部(12.88%)已略超音频(12.85%)和视觉(12.61%),作为引导信号比作为主特征更有效
  • 专用小模型 >> LLM 零样本: 21.45% vs Qwen3-Omni 30B 的 5.07%,说明时序情感定位需要领域专用设计
  • BSPG 平滑策略简单有效: +4.5% 绝对提升,仅通过线性衰减平滑
  • 跨监督设置泛化: 同一框架在全监督/视频级/点级三种设置下都达到 SOTA

局限性 / 可改进方向

  • 面部检测依赖 DeepFace,在遮挡/侧脸场景可能失效
  • TSL300 仅 300 视频,数据规模有限
  • 固定窗口宽度 \(w=7\) 对不同时长视频可能不最优
  • 仅处理正/负两类情感,更细粒度情感分类待探索

评分

  • 新颖性: ⭐⭐⭐⭐ 面部引导情感定位视角新颖,双分支 FSD 设计合理
  • 实验充分度: ⭐⭐⭐⭐⭐ 三种监督设置、LLM 对比、详尽消融、t-SNE 可视化
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,实验组织有条理
  • 价值: ⭐⭐⭐ 应用场景相对小众,但对视频情感分析领域有价值