跳转至

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor

日期: 2026-03-20
arXiv: 2603.17759
代码: 无
领域: 多模态VLM / AI安全
关键词: harmful humor, multimodal benchmark, multilingual, dark humor, safety alignment

一句话总结

构建首个多模态(文本 3K + 图像 6K + 视频 1.2K)、多语言(英语/阿拉伯语)的有害幽默检测 benchmark,区分安全笑话、显式有害和隐式(隐蔽)有害三类,发现闭源模型显著优于开源模型,且阿拉伯语性能普遍落后英语。

研究背景与动机

  1. 领域现状: AI 安全评估聚焦于直接有害内容(仇恨言论、暴力),忽略了更微妙的有害幽默(黑色幽默、攻击性玩笑),尤其是需要文化背景和隐含推理才能识别的隐式有害幽默。
  2. 现有痛点: 现有毒性基准是静态纯文本数据集,不区分显式/隐式有害,无法捕捉多模态(图+文+视频)场景下的微妙有害信号。跨语言表现差距大但缺乏系统评估。
  3. 核心 idea: 构建涵盖文本/图像/视频的多模态数据集,严格区分 Safe / Harmful-Explicit / Harmful-Implicit 三级,支持英语+阿拉伯语+语言无关三种语境。

基准设计

数据集规模

模态 数量 来源
文本 3,000 社交媒体、论坛、新闻评论
图像 6,000 模因、讽刺图、正常图
视频 1,200 脱口秀、社交短视频

三级分类体系(核心标注设计)

  1. Safe(安全): 无害的普通幽默或中性内容——标准笑话、良性讽刺
  2. Explicit Harmful(显式有害): 包含直接攻击、歧视、仇恨言论——标准安全过滤器可识别
  3. Implicit Harmful(隐式有害,核心挑战): 需要文化背景和深层推理才能识别——暗讽、刻板印象强化、微攻击、以"开玩笑"包装的歧视。这是安全过滤器最容易漏掉的类别

多模态数据设计动机

  • 文本 3,000 条: 在线幽默/讽刺的主阵地
  • 图像 6,000 张: 模因(meme)是有害幽默的重灾区——文本+图像组合产生的含义常与单一模态截然不同
  • 视频 1,200 条: 脱口秀和短视频中的语气、表情、节奏为幽默意图提供关键线索

语言覆盖与标注质量

  • 英语(高资源)+ 阿拉伯语(中低资源)+ 语言无关(纯视觉)
  • 严格多轮标注+仲裁机制确保标注一致性
  • 设计动机:量化 AI 安全对齐的语言偏见——如果模型只在英语上安全对齐,其他语言的有害内容就会成为盲区

实验关键数据

主要发现

维度 发现 量化差距
闭源 vs 开源 闭源模型在有害幽默检测上显著更强 GPT-5 等远优于同规模开源模型
英语 vs 阿拉伯语 两类模型都存在跨语言差距 10-20pp 准确率下降
隐式 vs 显式 隐式有害幽默更难检测 10-15pp 低于显式检测
多模态 vs 纯文本 图像/视频中隐含线索增加难度 需要视觉推理能力

关键发现

  • "隐式有害幽默"是安全盲区:直接仇恨言论容易检测,但包装成笑话的歧视更隐蔽——现有安全过滤器很可能漏掉
  • 阿拉伯语安全对齐严重不足:凸显了 AI 安全研究的英语中心偏见
  • 多模态是必要条件:许多有害幽默只有图文结合才能理解(如讽刺性配图)

亮点与洞察

  • 显式/隐式的精细区分:不只是"有害/无害"二分——隐式有害需要文化推理能力,这是模型安全对齐的更高要求
  • 多语言维度揭示对齐偏见:英语的安全对齐投入远超其他语言,基准量化了这一差距

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升

局限性 / 可改进方向

  • 论文全文不可用(仅 abs),具体模型分数和细粒度分析待验证
  • 仅覆盖英语和阿拉伯语,更多语言(中文、印地语等)待扩展
  • "有害"的文化定义本身存在争议,标注者背景可能影响判断
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证
  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

评分

  • 新颖性: ⭐⭐⭐⭐ 首个覆盖显/隐式有害幽默的多模态多语言 benchmark
  • 实验充分度: ⭐⭐⭐ 系统评估了 SOTA 模型,但全文未获取
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰
  • 价值: ⭐⭐⭐⭐ 安全对齐需要文化敏感度,该 benchmark 填补了空白