跳转至

ImpliHateVid: Implicit Hate Speech Detection in Videos

会议: ACL 2025
arXiv: 2508.06570
代码: GitHub
领域: NLP理解
关键词: 隐性仇恨言论, 视频内容审核, 多模态, 对比学习, 数据集

一句话总结

首次提出视频中隐性仇恨言论检测任务,构建2009个视频的ImpliHateVid数据集,并设计两阶段对比学习框架融合文本、图像、音频三模态特征。

研究背景与动机

  1. 领域现状: 仇恨言论检测研究主要聚焦文本(推文、评论)和图像(meme),视频仇恨检测刚起步(如HateMM),但仅关注显性仇恨。
  2. 现有痛点: 隐性仇恨言论通过编码语言、暗示含义、上下文线索间接传达偏见,表面无害却传播伤害,现有方法难以捕捉。
  3. 核心矛盾: 视频占数字通信主导地位,但缺乏专门针对视频中隐性仇恨的数据集和检测方法。
  4. 本文要解决什么: 构建首个视频隐性仇恨检测数据集,并提出有效的多模态检测方法。
  5. 切入角度: 从BitChute和Odysee等低审核平台收集仇恨视频,通过两阶段对比学习融合多模态信息。
  6. 核心idea一句话: 通过两阶段对比学习(模态内→跨模态)加上情感和字幕特征,全面捕捉视频中隐性仇恨的多模态线索。

方法详解

整体框架

预处理(提取音频/文本/视觉帧)→ImageBind特征提取(1024维)→Stage 1模态内对比学习→Stage 2跨模态对比学习→融合分类。

关键设计

  1. 两阶段对比学习: Stage 1:训练三个模态特征编码器(音频/文本/图像),将三模态特征concat后通过投影头映射到共享空间,用监督对比损失优化。Stage 2:训练跨模态编码器(IT/IA/TA),进一步对齐跨模态表示。
  2. 辅助特征: 情感特征(NRCLex情感词典+VADER情感分数)和字幕特征(OFA生成图像字幕→BERT编码),补充主模态表示。
  3. 数据标注流程: 1名教授+1名博士监督,4名本科生标注。每周50个视频批次,每天不超过20个视频,10-15分钟间隔休息以保护标注者心理健康。

训练策略

总损失 = Stage 1损失 + Stage 2损失 + 情感/字幕的监督对比损失。监督对比损失强制同类样本靠近、异类样本远离。

实验关键数据

主实验(二分类:仇恨/非仇恨)

方法 ImpliHateVid Acc ImpliHateVid F1 HateMM Acc HateMM F1
BERT(文本) 0.691 0.688 0.735 0.664
ViT(图像) 0.766 0.768 0.748 0.672
GPT-4(视频) 0.499 0.666 0.401 0.572
MulT 0.835 0.835 0.657 0.521
CSID 0.815 0.815 0.732 0.714
本文方法 0.875 0.877 0.976 0.976

消融实验(三分类:非仇恨/隐性/显性的Macro-F1)

方法 Macro-F1
BERT 0.591
ViT 0.588
GPT-4o(文本) 0.308
CSID 最佳多模态基线
本文方法 最优

关键发现

  • GPT-4和LLaVA等大型多模态模型在视频仇恨检测上反而表现最差(接近随机)
  • 多模态方法显著优于单模态,尤其在隐性仇恨检测上
  • 在HateMM上性能提升更为显著(Acc 0.976),说明方法泛化性强
  • 隐性仇恨检测比显性仇恨更具挑战性

亮点与洞察

  • 首次将仇恨言论检测从显性扩展到视频中的隐性仇恨
  • 两阶段对比学习的设计合理:先学好各模态表示,再学跨模态对齐
  • 标注过程中对标注者心理健康的关注值得其他类似工作参考
  • 大型多模态LLM在这类任务上的失败值得深思

局限性 / 可改进方向

  • 数据集仅2009个视频,规模有限
  • 仅覆盖英语内容
  • 二分类和三分类设置较粗,可扩展到更细粒度的仇恨类型
  • 标注来源(BitChute/Odysee)可能存在内容偏向

相关工作与启发

  • 与HateMM、MultiHateClip等视频仇恨检测工作互补
  • 对比学习在多模态仇恨检测中的有效性可推广到其他有害内容检测
  • 为社交媒体内容审核提供了新的技术方向

技术细节补充

  • ImageBind提取1024维特征,投影头映射到共享嵌入空间
  • 情感特征维度:NRCLex \(d_e\) 维 + VADER 1维 → 拼接为 \(f_{ES} \in \mathbb{R}^{d_e+1}\)
  • 字幕生成:OFA模型 → BERT编码为 \(f_C \in \mathbb{R}^{d_c}\)
  • 视频均匀采样100帧,不足则padding
  • 数据集平衡性:仇恨/非仇恨各约50%,隐性/显性仇恨各约25%
  • 非仇恨视频平均转录词数(175)约为仇恨视频(80-85)的两倍
  • 标注者保护措施:每天≤20视频,每视频后休息10-15分钟,定期心理健康检查

评分

  • 新颖性: ⭐⭐⭐⭐ 首个视频隐性仇恨检测数据集,任务定义有意义
  • 实验充分度: ⭐⭐⭐⭐ 多基线对比,跨数据集验证
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
  • 价值: ⭐⭐⭐⭐ 填补视频隐性仇恨检测空白,实际应用价值高