MultiMM: Cultural Bias Matters — Cross-Cultural Benchmark for Multimodal Metaphors¶

会议: ACL 2025
arXiv: 2506.06987
代码: GitHub
领域: NLP理解
关键词: 多模态隐喻, 文化偏见, 跨文化, 情感分析, 隐喻检测

一句话总结¶

提出MultiMM——首个跨文化多模态隐喻数据集，包含8461个中英文广告图文对及细粒度标注，并设计SEMD模型融合情感特征增强隐喻检测。

构建8461个中英文广告图文对数据集（中文4397、英文4064），设计三分支SEMD模型：ViT提取图像特征、BERT提取文本特征、情感分析提取情感特征，级联融合后分类。

数据收集与标注: 中文样本通过百度搜索收集，英文样本来自公开广告数据集。标注模型包含：隐喻出现（字面/隐喻）、源域/目标域词汇、情感类别（正/中/负）。8名专家标注，Fleiss' κ=0.73（隐喻）、0.82（情感）。
SEMD模型: 三分支架构——ViT编码图像、mBERT编码文本、情感分析模块提取情感特征（NRCLex情感+VADER情感分数），通过concat融合和前馈网络得到最终预测。
跨文化分析: 分析中英文广告中源域词汇分布的文化差异——英文偏爱狮/鹰（力量自由），中文偏爱龙/熊猫（权力国家自豪感）。同一源域在不同文化中可能表达不同情感。

在隐喻检测和情感分析两个任务上评估，报告Accuracy、Macro Precision和Macro F1。对比18个基线模型（文本8个、视觉3个、多模态7个）。

情感特征	融合方法	英文 F1%	中文 F1%
无	concat	78.64	74.84
有	add	77.76	74.37
有	max	78.59	74.37
有	concat	80.88	77.39

SEMD隐喻检测预测：\(P_{Meta} = \text{Sigmoid}(\text{Fusion}(\text{concat}(I_i, T_i, S_i)))\)
情感分析预测（不含情感特征输入）：\(P_{Senti} = \text{Sigmoid}(\text{Fusion}(\text{concat}(I_i, T_i)))\)
模型超参数：embedding 768维，dropout 0.3，最大文本长度30 token，batch 64，LR 3e-5~5e-4
数据集划分：训练/验证/测试 = 80%/10%/10%（中:3517/440/440, 英:3251/406/407）
Fleiss' κ：隐喻0.73、目标域0.70、源域0.66、情感0.82
文化差异发现：英文metaphorical广告完全没有negative情感(0.69%)，中文有3.17%
翻译实验：EN→CN后SEMD F1从80.16降至78.57，CN→EN后从77.79降至75.53