Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor¶
日期: 2026-03-18
arXiv: 2603.17759
领域: 多模态/VLM / AI安全
关键词: 有害幽默检测, 多模态安全, 多语言, 暗示性内容, 文化推理
一句话总结¶
提出多模态多语言有害幽默检测基准(3000文本+6000图像+1200视频,英语/阿拉伯语),将有害幽默细分为显式和隐式两类,系统评估SOTA开源和闭源模型,发现闭源模型显著优于开源,隐式有害幽默是所有模型的最大盲区,阿拉伯语安全对齐严重滞后。
研究背景与动机¶
-
领域现状: AI 安全评估主要聚焦于直接有害内容(仇恨言论、暴力、色情),形成了一批静态纯文本毒性基准。然而,有害内容有一种更隐蔽的形式——有害幽默(黑色幽默、攻击性玩笑、歧视性梗图),尤其是包装在笑话中的刻板印象强化、微攻击等"隐式有害幽默",需要文化背景和深层推理才能识别。
-
现有痛点: (a) 现有毒性基准多为纯文本数据集,无法捕捉图+文+视频场景下的微妙有害信号(如讽刺性配图配合看似无害的文字构成歧视);(b) 跨语言评估严重不足——大部分安全基准和对齐训练集中在英语,其他语言和文化的有害幽默模式被忽略;(c) "safe vs harmful"的二分法过于粗糙,无法区分直白粗暴的攻击和需要深层推理的隐含歧视。
-
核心矛盾: 有害幽默的"幽默外壳"使其能绕过现有安全过滤器——标准毒性检测器无法理解讽刺、反讽、文化隐喻中的攻击意图。模型需要具备文化推理能力才能识别这类内容。
-
核心 idea: 构建涵盖文本/图像/视频的多模态数据集,支持英语+阿拉伯语,将有害幽默细分为安全/显式有害/隐式有害三级标注体系,系统评估模型在不同模态、语言、有害类型上的表现差异。
方法详解¶
数据集构建¶
三种模态覆盖: - 文本: 3,000 条(英语+阿拉伯语),来源于社交媒体、论坛、新闻评论 - 图像: 6,000 张(含 meme、讽刺图、正常图),配对多语言描述 - 视频: 1,200 条(英语/阿拉伯语/语言无关),涵盖脱口秀、社交短视频、日常场景
严格的人工标注流程: - 手工策划标注指南,确保标注者理解显式与隐式有害幽默的区分 - 多轮标注 + 仲裁机制解决标注者间分歧 - 特别注意文化差异——阿拉伯语语境下的有害幽默与英语存在本质差异
三级分类体系¶
- Safe(安全): 无害的普通幽默或中性内容
- Explicit Harmful(显式有害): 包含直接攻击、歧视、仇恨的幽默——语言/视觉信号明确,标准毒性检测器可识别。例:直白的种族歧视笑话
- Implicit Harmful(隐式有害): 需要文化背景和深层推理才能识别——暗讽、刻板印象强化、微攻击、用隐喻/双关传达歧视。例:看似调侃实则固化性别偏见的 meme
评估设计¶
- 系统评估 SOTA 开源和闭源模型在文本/图像/视频三种模态上的表现
- 按语言(英语 vs 阿拉伯语)、有害类型(显式 vs 隐式)、模态分别分析
- 评估模型是否能正确分类三级标签
实验关键数据¶
核心发现¶
| 维度 | 发现 | 关键差距 |
|---|---|---|
| 模型类型 | 闭源 >> 开源 | 有害幽默检测准确率差距显著 |
| 语言 | 英语 >> 阿拉伯语 | 两类模型都存在跨语言差距,阿拉伯语表现远逊 |
| 有害类型 | 隐式 >> 显式(难度) | 隐式有害幽默检测是所有模型最大弱点 |
| 模态 | 多模态增加难度 | 图+文组合场景的隐含线索更难捕捉 |
| 视频 | 最具挑战性 | 时序动态+语境推理叠加难度 |
模态别分析¶
- 纯文本: 模型表现相对最好,闭源模型在英语上接近合理水平
- 图像: meme 检测是难点,图文组合的讽刺信号经常被忽略
- 视频: 所有模型表现最差——需要理解时序上下文、声调、视觉隐喻的组合
- 阿拉伯语全面落后: 无论哪种模态,阿拉伯语表现都远差于英语,反映安全对齐的英语中心偏见
亮点与洞察¶
- "隐式有害幽默"是安全盲区:直接的仇恨言论容易检测,但包装成笑话的歧视更隐蔽且更具传播力——现有安全过滤器很可能漏掉这类内容。这揭示了当前安全对齐的根本局限:缺乏文化推理能力
- 阿拉伯语安全对齐严重不足:凸显了 AI 安全研究的英语中心偏见。其他语言和文化的安全防护远远落后,尤其是需要文化特定知识才能理解的有害幽默
- 多模态是必要条件:很多有害幽默只有在图文/视频组合时才能理解(如用无害配图传达歧视性暗示),纯文本评估严重不够
- 三级标注体系有价值:将 harmful 细分为 explicit/implicit 比简单的二分法更有信息量,能精准定位模型弱点
局限性 / 可改进方向¶
- 仅覆盖英语和阿拉伯语,中文、印地语、西班牙语等语言的文化特定幽默模式未涉及——扩展到更多语言是重要方向
- 数据集规模中等(3K/6K/1.2K),细分到语言×模态×有害类型后每个组合的样本可能不足以得出稳健结论
- 隐式有害的标注一致性天然低于显式——标注者的文化背景差异可能影响标签质量,论文对 inter-annotator agreement 的报告需关注
- 未提供针对隐式有害幽默的检测方法改进——只做了评估,不包含新的模型或训练策略
评分¶
- 新颖性: ⭐⭐⭐⭐ 有害幽默的隐式/显式区分和多语言多模态覆盖是新颖视角,填补了安全评估的重要空白
- 实验充分度: ⭐⭐⭐ 评估了多个 SOTA 模型但因论文全文不可用,具体数据点有限
- 写作质量: ⭐⭐⭐⭐ 问题定义清晰,三级分类体系设计合理
- 价值: ⭐⭐⭐⭐ 对多模态安全研究有方向性启发,为文化感知安全对齐指明重要方向