Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor¶

日期: 2026-03-18
arXiv: 2603.17759
领域: 多模态/VLM / AI安全
关键词: 有害幽默检测, 多模态安全, 多语言, 暗示性内容, 文化推理

一句话总结¶

提出多模态多语言有害幽默检测基准（3000文本+6000图像+1200视频，英语/阿拉伯语），将有害幽默细分为显式和隐式两类，系统评估SOTA开源和闭源模型，发现闭源模型显著优于开源，隐式有害幽默是所有模型的最大盲区，阿拉伯语安全对齐严重滞后。

领域现状: AI 安全评估主要聚焦于直接有害内容（仇恨言论、暴力、色情），形成了一批静态纯文本毒性基准。然而，有害内容有一种更隐蔽的形式——有害幽默（黑色幽默、攻击性玩笑、歧视性梗图），尤其是包装在笑话中的刻板印象强化、微攻击等"隐式有害幽默"，需要文化背景和深层推理才能识别。
现有痛点: (a) 现有毒性基准多为纯文本数据集，无法捕捉图+文+视频场景下的微妙有害信号（如讽刺性配图配合看似无害的文字构成歧视）；(b) 跨语言评估严重不足——大部分安全基准和对齐训练集中在英语，其他语言和文化的有害幽默模式被忽略；(c) "safe vs harmful"的二分法过于粗糙，无法区分直白粗暴的攻击和需要深层推理的隐含歧视。
核心矛盾: 有害幽默的"幽默外壳"使其能绕过现有安全过滤器——标准毒性检测器无法理解讽刺、反讽、文化隐喻中的攻击意图。模型需要具备文化推理能力才能识别这类内容。
核心 idea: 构建涵盖文本/图像/视频的多模态数据集，支持英语+阿拉伯语，将有害幽默细分为安全/显式有害/隐式有害三级标注体系，系统评估模型在不同模态、语言、有害类型上的表现差异。

三种模态覆盖： - 文本: 3,000 条（英语+阿拉伯语），来源于社交媒体、论坛、新闻评论 - 图像: 6,000 张（含 meme、讽刺图、正常图），配对多语言描述 - 视频: 1,200 条（英语/阿拉伯语/语言无关），涵盖脱口秀、社交短视频、日常场景

严格的人工标注流程： - 手工策划标注指南，确保标注者理解显式与隐式有害幽默的区分 - 多轮标注 + 仲裁机制解决标注者间分歧 - 特别注意文化差异——阿拉伯语语境下的有害幽默与英语存在本质差异

Safe（安全）: 无害的普通幽默或中性内容
Explicit Harmful（显式有害）: 包含直接攻击、歧视、仇恨的幽默——语言/视觉信号明确，标准毒性检测器可识别。例：直白的种族歧视笑话
Implicit Harmful（隐式有害）: 需要文化背景和深层推理才能识别——暗讽、刻板印象强化、微攻击、用隐喻/双关传达歧视。例：看似调侃实则固化性别偏见的 meme

"隐式有害幽默"是安全盲区：直接的仇恨言论容易检测，但包装成笑话的歧视更隐蔽且更具传播力——现有安全过滤器很可能漏掉这类内容。这揭示了当前安全对齐的根本局限：缺乏文化推理能力
阿拉伯语安全对齐严重不足：凸显了 AI 安全研究的英语中心偏见。其他语言和文化的安全防护远远落后，尤其是需要文化特定知识才能理解的有害幽默
多模态是必要条件：很多有害幽默只有在图文/视频组合时才能理解（如用无害配图传达歧视性暗示），纯文本评估严重不够
三级标注体系有价值：将 harmful 细分为 explicit/implicit 比简单的二分法更有信息量，能精准定位模型弱点