跳转至

Daily arXiv

Harm or Humor — A Multimodal, Multilingual ...

Harm or Humor: A Multimodal, Multilingual Benchmark for Overt and Covert Harmful Humor¶

日期: 2026-03-20
arXiv: 2603.17759
代码: 无
领域: 多模态VLM / AI安全
关键词: harmful humor, multimodal benchmark, multilingual, dark humor, safety alignment

一句话总结¶

构建首个多模态（文本 3K + 图像 6K + 视频 1.2K）、多语言（英语/阿拉伯语）的有害幽默检测 benchmark，区分安全笑话、显式有害和隐式（隐蔽）有害三类，发现闭源模型显著优于开源模型，且阿拉伯语性能普遍落后英语。

研究背景与动机¶

领域现状: AI 安全评估聚焦于直接有害内容（仇恨言论、暴力），忽略了更微妙的有害幽默（黑色幽默、攻击性玩笑），尤其是需要文化背景和隐含推理才能识别的隐式有害幽默。
现有痛点: 现有毒性基准是静态纯文本数据集，不区分显式/隐式有害，无法捕捉多模态（图+文+视频）场景下的微妙有害信号。跨语言表现差距大但缺乏系统评估。
核心 idea: 构建涵盖文本/图像/视频的多模态数据集，严格区分 Safe / Harmful-Explicit / Harmful-Implicit 三级，支持英语+阿拉伯语+语言无关三种语境。

基准设计¶

数据集规模¶

模态	数量	来源
文本	3,000	社交媒体、论坛、新闻评论
图像	6,000	模因、讽刺图、正常图
视频	1,200	脱口秀、社交短视频

三级分类体系（核心标注设计）¶

Safe（安全）: 无害的普通幽默或中性内容——标准笑话、良性讽刺
Explicit Harmful（显式有害）: 包含直接攻击、歧视、仇恨言论——标准安全过滤器可识别
Implicit Harmful（隐式有害，核心挑战）: 需要文化背景和深层推理才能识别——暗讽、刻板印象强化、微攻击、以"开玩笑"包装的歧视。这是安全过滤器最容易漏掉的类别

多模态数据设计动机¶

文本 3,000 条: 在线幽默/讽刺的主阵地
图像 6,000 张: 模因（meme）是有害幽默的重灾区——文本+图像组合产生的含义常与单一模态截然不同
视频 1,200 条: 脱口秀和短视频中的语气、表情、节奏为幽默意图提供关键线索

语言覆盖与标注质量¶

英语（高资源）+ 阿拉伯语（中低资源）+ 语言无关（纯视觉）
严格多轮标注+仲裁机制确保标注一致性
设计动机：量化 AI 安全对齐的语言偏见——如果模型只在英语上安全对齐，其他语言的有害内容就会成为盲区

实验关键数据¶

主要发现¶

维度	发现	量化差距
闭源 vs 开源	闭源模型在有害幽默检测上显著更强	GPT-5 等远优于同规模开源模型
英语 vs 阿拉伯语	两类模型都存在跨语言差距	10-20pp 准确率下降
隐式 vs 显式	隐式有害幽默更难检测	10-15pp 低于显式检测
多模态 vs 纯文本	图像/视频中隐含线索增加难度	需要视觉推理能力

关键发现¶

"隐式有害幽默"是安全盲区：直接仇恨言论容易检测，但包装成笑话的歧视更隐蔽——现有安全过滤器很可能漏掉
阿拉伯语安全对齐严重不足：凸显了 AI 安全研究的英语中心偏见
多模态是必要条件：许多有害幽默只有图文结合才能理解（如讽刺性配图）

亮点与洞察¶

显式/隐式的精细区分：不只是"有害/无害"二分——隐式有害需要文化推理能力，这是模型安全对齐的更高要求
多语言维度揭示对齐偏见：英语的安全对齐投入远超其他语言，基准量化了这一差距
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

论文全文不可用（仅 abs），具体模型分数和细粒度分析待验证
仅覆盖英语和阿拉伯语，更多语言（中文、印地语等）待扩展
"有害"的文化定义本身存在争议，标注者背景可能影响判断
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力

评分¶

新颖性: ⭐⭐⭐⭐ 首个覆盖显/隐式有害幽默的多模态多语言 benchmark
实验充分度: ⭐⭐⭐ 系统评估了 SOTA 模型，但全文未获取
写作质量: ⭐⭐⭐⭐ 问题定义清晰
价值: ⭐⭐⭐⭐ 安全对齐需要文化敏感度，该 benchmark 填补了空白