ImpliHateVid: Implicit Hate Speech Detection in Videos¶
会议: ACL 2025
arXiv: 2508.06570
代码: GitHub
领域: NLP理解
关键词: 隐性仇恨言论, 视频内容审核, 多模态, 对比学习, 数据集
一句话总结¶
首次提出视频中隐性仇恨言论检测任务,构建2009个视频的ImpliHateVid数据集,并设计两阶段对比学习框架融合文本、图像、音频三模态特征。
研究背景与动机¶
- 领域现状: 仇恨言论检测研究主要聚焦文本(推文、评论)和图像(meme),视频仇恨检测刚起步(如HateMM),但仅关注显性仇恨。
- 现有痛点: 隐性仇恨言论通过编码语言、暗示含义、上下文线索间接传达偏见,表面无害却传播伤害,现有方法难以捕捉。
- 核心矛盾: 视频占数字通信主导地位,但缺乏专门针对视频中隐性仇恨的数据集和检测方法。
- 本文要解决什么: 构建首个视频隐性仇恨检测数据集,并提出有效的多模态检测方法。
- 切入角度: 从BitChute和Odysee等低审核平台收集仇恨视频,通过两阶段对比学习融合多模态信息。
- 核心idea一句话: 通过两阶段对比学习(模态内→跨模态)加上情感和字幕特征,全面捕捉视频中隐性仇恨的多模态线索。
方法详解¶
整体框架¶
预处理(提取音频/文本/视觉帧)→ImageBind特征提取(1024维)→Stage 1模态内对比学习→Stage 2跨模态对比学习→融合分类。
关键设计¶
- 两阶段对比学习: Stage 1:训练三个模态特征编码器(音频/文本/图像),将三模态特征concat后通过投影头映射到共享空间,用监督对比损失优化。Stage 2:训练跨模态编码器(IT/IA/TA),进一步对齐跨模态表示。
- 辅助特征: 情感特征(NRCLex情感词典+VADER情感分数)和字幕特征(OFA生成图像字幕→BERT编码),补充主模态表示。
- 数据标注流程: 1名教授+1名博士监督,4名本科生标注。每周50个视频批次,每天不超过20个视频,10-15分钟间隔休息以保护标注者心理健康。
训练策略¶
总损失 = Stage 1损失 + Stage 2损失 + 情感/字幕的监督对比损失。监督对比损失强制同类样本靠近、异类样本远离。
实验关键数据¶
主实验(二分类:仇恨/非仇恨)¶
| 方法 | ImpliHateVid Acc | ImpliHateVid F1 | HateMM Acc | HateMM F1 |
|---|---|---|---|---|
| BERT(文本) | 0.691 | 0.688 | 0.735 | 0.664 |
| ViT(图像) | 0.766 | 0.768 | 0.748 | 0.672 |
| GPT-4(视频) | 0.499 | 0.666 | 0.401 | 0.572 |
| MulT | 0.835 | 0.835 | 0.657 | 0.521 |
| CSID | 0.815 | 0.815 | 0.732 | 0.714 |
| 本文方法 | 0.875 | 0.877 | 0.976 | 0.976 |
消融实验(三分类:非仇恨/隐性/显性的Macro-F1)¶
| 方法 | Macro-F1 |
|---|---|
| BERT | 0.591 |
| ViT | 0.588 |
| GPT-4o(文本) | 0.308 |
| CSID | 最佳多模态基线 |
| 本文方法 | 最优 |
关键发现¶
- GPT-4和LLaVA等大型多模态模型在视频仇恨检测上反而表现最差(接近随机)
- 多模态方法显著优于单模态,尤其在隐性仇恨检测上
- 在HateMM上性能提升更为显著(Acc 0.976),说明方法泛化性强
- 隐性仇恨检测比显性仇恨更具挑战性
亮点与洞察¶
- 首次将仇恨言论检测从显性扩展到视频中的隐性仇恨
- 两阶段对比学习的设计合理:先学好各模态表示,再学跨模态对齐
- 标注过程中对标注者心理健康的关注值得其他类似工作参考
- 大型多模态LLM在这类任务上的失败值得深思
局限性 / 可改进方向¶
- 数据集仅2009个视频,规模有限
- 仅覆盖英语内容
- 二分类和三分类设置较粗,可扩展到更细粒度的仇恨类型
- 标注来源(BitChute/Odysee)可能存在内容偏向
相关工作与启发¶
- 与HateMM、MultiHateClip等视频仇恨检测工作互补
- 对比学习在多模态仇恨检测中的有效性可推广到其他有害内容检测
- 为社交媒体内容审核提供了新的技术方向
技术细节补充¶
- ImageBind提取1024维特征,投影头映射到共享嵌入空间
- 情感特征维度:NRCLex \(d_e\) 维 + VADER 1维 → 拼接为 \(f_{ES} \in \mathbb{R}^{d_e+1}\)
- 字幕生成:OFA模型 → BERT编码为 \(f_C \in \mathbb{R}^{d_c}\)
- 视频均匀采样100帧,不足则padding
- 数据集平衡性:仇恨/非仇恨各约50%,隐性/显性仇恨各约25%
- 非仇恨视频平均转录词数(175)约为仇恨视频(80-85)的两倍
- 标注者保护措施:每天≤20视频,每视频后休息10-15分钟,定期心理健康检查
评分¶
- 新颖性: ⭐⭐⭐⭐ 首个视频隐性仇恨检测数据集,任务定义有意义
- 实验充分度: ⭐⭐⭐⭐ 多基线对比,跨数据集验证
- 写作质量: ⭐⭐⭐⭐ 结构清晰,方法描述详细
- 价值: ⭐⭐⭐⭐ 填补视频隐性仇恨检测空白,实际应用价值高