FSENet: Face-Guided Sentiment Boundary Enhancement for Weakly-Supervised Temporal Sentiment Localization¶

日期: 2026-03-16
arXiv: 2603.14750
代码: GitHub
领域: 多模态/VLM / 视频理解
关键词: 时序情感定位, 弱监督, 面部特征引导, 伪标签, 对比学习

一句话总结¶

提出 FSENet 框架利用面部特征引导时序情感定位——FSD 模块通过双分支建模（面部中心交互 + 全局情感感知）发现情感线索，PSSC 对比策略增强边界附近帧的情感语义区分，BSPG 将稀疏点标注平滑扩展为时序连续伪标签，在 TSL300 上 point-level 弱监督 mAP 达 21.45%，超越前 SOTA 5%+。

研究背景与动机¶

领域现状: 时序情感定位(TSL)旨在未裁剪视频中检测情感相关片段，密集帧级标注成本高，因此弱监督方法受到关注。
现有痛点: (a) 视频中冗余信息（背景、颜色）掩盖关键情感信号；(b) 点级标注仅提供稀疏锚点，边界不确定；(c) 基于阈值的伪标签方法存在边界不连续和抖动问题。
核心 idea: 面部表情直接反映情感刺激，且比全局视觉内容更容易捕捉细微变化——用面部特征引导多模态交互来发现情感线索。

方法详解¶

FSD: Face-guided Sentiment Discovery¶

双分支并行设计： 1. FCI (Face-Centric Interaction): 两阶段面部引导交互 - Stage-I: 面部特征分别与音频、视觉做多头注意力交互 → \(F_v^{(f)}, F_a^{(f)}\) - Stage-II: 融合后的面部-音频/视觉特征再次交互 → \(F_v^{(af)}, F_a^{(vf)}\)，拼接得 \(F_{mix}\)

GSP (Global Sentiment Perception): 全局情感权重
- 拼接三种模态特征 → 卷积 → 回归头 + sigmoid → \(W_{sent} \in [0,1]^T\)

PSSC: Point-aware Sentiment Semantics Contrast¶

为每个情感类别构建原型 \(\bar{p}_{c_i}\)（该类标注点特征的均值）
按 GSP 加权的相似度选 Top-K 帧作为正样本 \(\mathcal{U}^+\)，其他类附近帧为负样本 \(\mathcal{U}^-\)
对比损失拉近正样本、推远负样本，增强帧级情感区分

BSPG: Boundary-aware Sentiment Pseudo-label Generation¶

从标注点出发，使用衰减函数 \(s_t = \beta + (1-\beta)(1-\frac{|t-t_p|}{w})\) 生成平滑伪标签
\(\beta=0.6\) 控制边界最小值，\(w=7\) 控制扩展窗口
消除传统阈值方法的边界不连续和抖动

总损失¶

\(\mathcal{L}_{total} = \mathcal{L}_{base} + \lambda_1(\mathcal{L}_{frame} + \mathcal{L}_{frame}^{glo}) + \lambda_2 \mathcal{L}_{sc}\)

实验关键数据¶

TSL300 (Point-level 弱监督)¶

方法	mAP@0.1	mAP@0.2	mAP@0.3	平均 mAP	Recall
TSL	28.72	20.46	11.83	20.40	71.14
HR-pro	27.24	19.85	11.83	19.60	73.60
FSENet	29.31	22.49	13.24	21.45	75.02

与 LLM 对比¶

方法	平均 mAP
Qwen3-Omni (zero-shot)	5.07
LLaMA-2-7B (LoRA)	9.97
FSENet (small model)	21.45

消融¶

FCI 两阶段完整 + GSP: 21.45%（去 GSP → 20.22%，-1.2%）
BSPG 完整: 21.45%（无伪标签 → 16.92%，-4.5%）
三模态融合(A+V+F): 21.45%（双模态最高 A+V: 19.41%）

亮点与洞察¶

面部特征的情感感知价值: 单模态面部(12.88%)已略超音频(12.85%)和视觉(12.61%)，作为引导信号比作为主特征更有效
专用小模型 >> LLM 零样本: 21.45% vs Qwen3-Omni 30B 的 5.07%，说明时序情感定位需要领域专用设计
BSPG 平滑策略简单有效: +4.5% 绝对提升，仅通过线性衰减平滑
跨监督设置泛化: 同一框架在全监督/视频级/点级三种设置下都达到 SOTA

局限性 / 可改进方向¶

面部检测依赖 DeepFace，在遮挡/侧脸场景可能失效
TSL300 仅 300 视频，数据规模有限
固定窗口宽度 \(w=7\) 对不同时长视频可能不最优
仅处理正/负两类情感，更细粒度情感分类待探索

评分¶

新颖性: ⭐⭐⭐⭐ 面部引导情感定位视角新颖，双分支 FSD 设计合理
实验充分度: ⭐⭐⭐⭐⭐ 三种监督设置、LLM 对比、详尽消融、t-SNE 可视化
写作质量: ⭐⭐⭐⭐ 方法描述清晰，实验组织有条理
价值: ⭐⭐⭐ 应用场景相对小众，但对视频情感分析领域有价值