More Than Sum of Its Parts: Deciphering Intent Shifts in Multimodal Hate Speech Detection¶

日期: 2026-03-22
arXiv: 2603.21298
代码: GitHub
领域: 多模态/VLM
关键词: multimodal hate speech, multi-agent debate, intent shift, benchmark, MLLM

一句话总结¶

提出 H-VLI benchmark 和 ARCADE 框架——用"法庭辩论"式多代理对抗推理来检测隐式多模态仇恨言论，其中文本和图像单独看无害但组合后产生仇恨语义，在隐式案例上显著超越现有方法。

研究背景与动机¶

领域现状: 随着社交媒体内容多模态化，仇恨言论从纯文本转向图文结合的 meme 形式。现有检测系统在显式仇恨（含脏话/暴力图像）上表现尚可。
现有痛点: 隐式多模态仇恨言论极难检测——文本和图像各自无害，但组合后通过隐喻、反讽、文化暗示等构建仇恨语义。例如"race"的双关语只有在特定人群图片的视觉语境下才显现种族歧视含义。现有模型简单融合模态特征，无法捕捉这种涌现语义。
核心矛盾: 现有 benchmark 用二分类标注，缺乏对模态交互模式的细粒度刻画；现有方法用直接融合，缺乏显式的深度推理机制来解读"意图偏移"（intent shift）。
切入角度: 引入 Stratified Multimodal Interaction (SMI) 分类体系，将模态交互分为 Easy/Normal/Hard 三个难度级别（8 种交互模式），并设计对抗式辩论框架强制模型做深度推理。

方法详解¶

整体框架¶

输入图文对 → Prosecutor 代理快速扫描判断显式/隐式 → 显式走 Fast-Track（单轮辩论）、隐式走 Deep-Dive（多轮对抗辩论）→ Judge 代理综合辩论历史做最终判决（6 类分类 + 自然语言解释）。

关键设计¶

Stratified Multimodal Interaction (SMI) 分类体系:
- 将多模态仇恨言论按 \((y^{text}, y^{image}, y^{combined}) \in \{0,1\}^3\) 分为 8 种交互模式
- Easy（显式一致）：至少一个模态本身有害，组合结果一致
- Normal（语境中和）：单模态有害但被另一模态中和（如反讽/教育语境）
- Hard（隐式涌现/反转）：两个模态均无害但组合产生仇恨，或两个有害但组合无害
- 这个分类体系为模型评估提供了清晰的难度梯度
H-VLI Benchmark 构建:
- Hybrid pipeline: 从 MMHS150K 共识过滤 + 生成式注入（用 Qwen3-VL-Plus 和 Gemini-2.5-Pro 合成隐式样本）
- Human-in-the-loop 标注：心理学/社会学背景的专家在定制平台上审核
- 最终 5,569 样本，inter-annotator agreement \(\kappa = 0.94\)（远超 MMHS150K 的 0.15）
ARCADE 对抗辩论框架:
- Prosecutor（控方）: 持"有罪推定"，主动假设恶意，挖掘视觉符号与文本隐喻的映射关系
- Defender（辩方）: 持"无罪推定"，寻找良性解释（讽刺、自嘲、教育目的），反驳控方论点
- Judge（法官）: 综合辩论历史做最终裁决，不参与论证过程
- 这种不对称设计迫使模型从两个极端方向深度审视跨模态语义
Gated Dual-Track 分流机制:
- Prosecutor 先做快速扫描，门控函数 \(\Phi(S_i)\) 判断是否有显式仇恨线索
- 显式 → Fast-Track：单轮控辩（效率优先）
- 隐式 → Deep-Dive：多轮迭代辩论 \(u_k^{pros}, u_k^{def}\)，逐步深化推理
- 无证据 → Summary Dismissal 直接驳回

实验关键数据¶

H-VLI 二分类检测（Accuracy）¶

方法	Easy	Normal	Hard	Overall F1
BERT+ViT	75.83	84.78	38.46	67.08
Qwen-VL-Max	—	—	—	~70
GPT-4o	—	—	—	~72
ARCADE (Qwen-VL-Max)	—	—	—	~77

消融实验¶

配置	Hard Acc	Overall F1
Full ARCADE	最优	最优
w/o Defender（仅控方）	下降（过度分类为仇恨）	下降
w/o Gated Dual-Track	下降（简单样本过度推理）	下降
Symmetric debate（对称辩论）	下降	下降

关键发现¶

Hard 子集（隐式涌现/反转）是区分模型能力的关键——传统方法在此准确率仅 30-40%
对抗辩论比单代理推理有效，不对称设计比对称辩论更优
Gated Dual-Track 平衡效率与效果——显式样本无需多轮辩论

亮点与洞察¶

SMI 分类体系 是个好贡献：通过 \((y^{text}, y^{image}) \to y^{combined}\) 的 8 种组合系统化定义了模态交互复杂度，为后续研究提供了清晰的评测框架
法庭辩论比喻精准: Prosecutor/Defender 的不对称角色设计天然适配"是否有害"的二元判断场景，比通用 multi-agent debate 更有针对性
Benchmark 质量极高: \(\kappa = 0.94\) 的标注一致性远超现有数据集，这本身就是重要贡献

局限性 / 可改进方向¶

ARCADE 需要多次 MLLM 调用（控辩多轮），推理成本较高，实际部署可能需要蒸馏
数据集部分来自生成式注入，可能存在分布偏差
仅涵盖英语文化语境，多语言/跨文化仇恨言论的适用性未验证
Judge 的判决质量受限于底层 MLLM 能力

评分¶

新颖性: ⭐⭐⭐⭐ 法庭辩论框架 + SMI 分类体系设计新颖
实验充分度: ⭐⭐⭐⭐ 多个 baseline、消融、难度分层评估
价值: ⭐⭐⭐⭐ H-VLI benchmark 对社区有长期价值