跳转至

More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection

日期: 2026-03-22
arXiv: 2603.21298
代码: GitHub
领域: 多模态/VLM
关键词: multimodal hate speech, multi-agent debate, intent shift, benchmark, MLLM

一句话总结

提出 H-VLI benchmark 和 ARCADE 框架——用"法庭辩论"式多代理对抗推理来检测隐式多模态仇恨言论,其中文本和图像单独看无害但组合后产生仇恨语义,在隐式案例上显著超越现有方法。

研究背景与动机

  1. 领域现状: 随着社交媒体内容多模态化,仇恨言论从纯文本转向图文结合的 meme 形式。现有检测系统在显式仇恨(含脏话/暴力图像)上表现尚可。

  2. 现有痛点: 隐式多模态仇恨言论极难检测——文本和图像各自无害,但组合后通过隐喻、反讽、文化暗示等构建仇恨语义。例如"race"的双关语只有在特定人群图片的视觉语境下才显现种族歧视含义。现有模型简单融合模态特征,无法捕捉这种涌现语义。

  3. 核心矛盾: 现有 benchmark 用二分类标注,缺乏对模态交互模式的细粒度刻画;现有方法用直接融合,缺乏显式的深度推理机制来解读"意图偏移"(intent shift)。

  4. 切入角度: 引入 Stratified Multimodal Interaction (SMI) 分类体系,将模态交互分为 Easy/Normal/Hard 三个难度级别(8 种交互模式),并设计对抗式辩论框架强制模型做深度推理。

方法详解

整体框架

输入图文对 → Prosecutor 代理快速扫描判断显式/隐式 → 显式走 Fast-Track(单轮辩论)、隐式走 Deep-Dive(多轮对抗辩论)→ Judge 代理综合辩论历史做最终判决(6 类分类 + 自然语言解释)。

关键设计

  1. Stratified Multimodal Interaction (SMI) 分类体系:

    • 将多模态仇恨言论按 \((y^{text}, y^{image}, y^{combined}) \in \{0,1\}^3\) 分为 8 种交互模式
    • Easy(显式一致):至少一个模态本身有害,组合结果一致
    • Normal(语境中和):单模态有害但被另一模态中和(如反讽/教育语境)
    • Hard(隐式涌现/反转):两个模态均无害但组合产生仇恨,或两个有害但组合无害
    • 这个分类体系为模型评估提供了清晰的难度梯度
  2. H-VLI Benchmark 构建:

    • Hybrid pipeline: 从 MMHS150K 共识过滤 + 生成式注入(用 Qwen3-VL-Plus 和 Gemini-2.5-Pro 合成隐式样本)
    • Human-in-the-loop 标注:心理学/社会学背景的专家在定制平台上审核
    • 最终 5,569 样本,inter-annotator agreement \(\kappa = 0.94\)(远超 MMHS150K 的 0.15)
  3. ARCADE 对抗辩论框架:

    • Prosecutor(控方): 持"有罪推定",主动假设恶意,挖掘视觉符号与文本隐喻的映射关系
    • Defender(辩方): 持"无罪推定",寻找良性解释(讽刺、自嘲、教育目的),反驳控方论点
    • Judge(法官): 综合辩论历史做最终裁决,不参与论证过程
    • 这种不对称设计迫使模型从两个极端方向深度审视跨模态语义
  4. Gated Dual-Track 分流机制:

    • Prosecutor 先做快速扫描,门控函数 \(\Phi(S_i)\) 判断是否有显式仇恨线索
    • 显式 → Fast-Track:单轮控辩(效率优先)
    • 隐式 → Deep-Dive:多轮迭代辩论 \(u_k^{pros}, u_k^{def}\),逐步深化推理
    • 无证据 → Summary Dismissal 直接驳回

实验关键数据

H-VLI 二分类检测(Accuracy)

方法 Easy Normal Hard Overall F1
BERT+ViT 75.83 84.78 38.46 67.08
Qwen-VL-Max ~70
GPT-4o ~72
ARCADE (Qwen-VL-Max) ~77

消融实验

配置 Hard Acc Overall F1
Full ARCADE 最优 最优
w/o Defender(仅控方) 下降(过度分类为仇恨) 下降
w/o Gated Dual-Track 下降(简单样本过度推理) 下降
Symmetric debate(对称辩论) 下降 下降

关键发现

  • Hard 子集(隐式涌现/反转)是区分模型能力的关键——传统方法在此准确率仅 30-40%
  • 对抗辩论比单代理推理有效,不对称设计比对称辩论更优
  • Gated Dual-Track 平衡效率与效果——显式样本无需多轮辩论

亮点与洞察

  • SMI 分类体系 是个好贡献:通过 \((y^{text}, y^{image}) \to y^{combined}\) 的 8 种组合系统化定义了模态交互复杂度,为后续研究提供了清晰的评测框架
  • 法庭辩论比喻精准: Prosecutor/Defender 的不对称角色设计天然适配"是否有害"的二元判断场景,比通用 multi-agent debate 更有针对性
  • Benchmark 质量极高: \(\kappa = 0.94\) 的标注一致性远超现有数据集,这本身就是重要贡献

局限性 / 可改进方向

  • ARCADE 需要多次 MLLM 调用(控辩多轮),推理成本较高,实际部署可能需要蒸馏
  • 数据集部分来自生成式注入,可能存在分布偏差
  • 仅涵盖英语文化语境,多语言/跨文化仇恨言论的适用性未验证
  • Judge 的判决质量受限于底层 MLLM 能力

评分

  • 新颖性: ⭐⭐⭐⭐ 法庭辩论框架 + SMI 分类体系设计新颖
  • 实验充分度: ⭐⭐⭐⭐ 多个 baseline、消融、难度分层评估
  • 价值: ⭐⭐⭐⭐ H-VLI benchmark 对社区有长期价值