Can Thinking Models Think to Detect Hateful Memes?¶

日期: 2026-03-01
arXiv: 2603.01225
代码: 即将公开
领域: 多模态/VLM / AI安全
关键词: hateful meme detection, GRPO, chain-of-thought, thinking MLLM, reinforcement learning

一句话总结¶

提出基于 GRPO 强化学习的后训练框架，通过 CoT 蒸馏 + 多奖励联合优化（格式/标签/长度/语义），将 thinking-based MLLM（Qwen3-VL-8B）用于仇恨 meme 检测，在 Hateful Memes 基准上达到 81.2% 准确率（SOTA），同时生成高质量解释。

研究背景与动机¶

领域现状：仇恨 meme 融合图像和文本，单模态线索不足以判断——图片和文字分别看可能无害，但组合后传达仇恨意图。这要求模型具备组合式多模态推理能力。
现有方法的局限：
- 早期方法（CNN + OCR、传统 ML）无法捕捉图文交互的细腻含义
- 近期 MLLM 方法主要依赖 SFT + 粗粒度二分类标签，缺乏显式推理过程
- 少数工作探索了 CoT 提示，但 CoT 在提升分类准确率的同时会降低解释质量（BERTScore 下降 1.6-12.5 分），存在分类-解释 trade-off
核心矛盾：thinking-based MLLM 的 CoT 推理能力在 meme 分析中的潜力未被充分开发——零样本 CoT 提示有帮助但不够，需要任务特定的后训练来同时优化推理和解释。
切入角度：用 GRPO（DeepSeek-R1 引入的 RL 方法）对 thinking MLLM 进行后训练，用规则奖励显式鼓励高质量推理链，而非依赖学习的评估模型。

方法详解¶

整体框架¶

给定一张 meme（图像 + OCR 文本），构建 instruction-following 输入（包含二分类标签、保护类别/攻击类型等细粒度标注、OCR 文本和分类指南）。模型输出结构化序列：<think>推理过程</think> Label: 预测标签 Explanation: 解释。训练采用两阶段后训练：SFT 预热 → GRPO 强化学习。推理时采样多个候选并打分选择最优。

关键设计¶

CoT 蒸馏数据扩展
- 做什么：用 GPT-4.1 为每条 meme 生成分步推理链（CoTD），补充原始 Hateful Memes 数据集
- 核心思路：以 meme 图像、OCR 文本、标注指南和二分类/细粒度标签为条件，提示 GPT-4.1 生成推理过程，明确禁止直接复制参考解释以防标签泄露。生成的 CoT 放在 <think> 标签内，仅训练时使用。
- 质量验证：用 InternVL3.5 和 Phi-3.5 双模型作为 LLM-as-a-Judge，在信息性、清晰性、合理性和忠实性四维度评分（5 分制），平均 4.36-4.63 分，评委间一致性 $r_{wg(j)}^* = 0.94$，说明 CoT 质量可靠。
SFT 预热阶段
- 做什么：标准 SFT 初始化，对齐模型到结构化输出格式和任务监督
- 核心思路：三种变体——(a) Cls+Exp（无 CoT，仅二分类+解释），(b) Cls+FG+Exp（加细粒度标签），(c) Cls+FG+Exp+CoTD（加蒸馏 CoT）。对无 CoT 变体保留空 <think></think> 标签以保持格式一致。选最佳 checkpoint（按验证集 loss）。
- 设计动机：先 SFT 再 RL 已被证明更稳定。消融证实冷启动 GRPO（不做 SFT）性能最差（76.8% vs 81.2%）。
GRPO 优化阶段
- 做什么：对 SFT 初始化的模型进行 RL 后训练，强化高质量推理
- 核心思路：对每条输入采样 $K=16$ 个候选输出，计算组合奖励： $$R(y) = 0.5 \cdot R_{\text{fmt}} + 0.4 \cdot R_{\text{lbl}} + 0.05 \cdot R_{\text{len}} + 0.05 \cdot R_{\text{met}}$$
- $R_{\text{fmt}}$：格式一致性（有推理/预测/解释组件）
- $R_{\text{lbl}}$：标签正确性
- $R_{\text{len}}$：长度正则（高斯型，目标约 100 词，$\sigma=20$）
- $R_{\text{met}}$：METEOR 语义相似度（与 gold rationale 比较）用组内平均奖励作 baseline 计算归一化优势，PPO-style clipped surrogate + KL 正则（$\beta=0.04$, clip $\epsilon=0.2$）。
设计动机：GRPO 不需要额外训练 reward model，用规则奖励直接可计算；多奖励组合确保格式/准确性/解释质量同时优化。

损失函数 / 训练策略¶

SFT 阶段：标准负对数似然损失，AdamW，cosine lr with warmup 0.05，3 epoch
GRPO 阶段：clipped surrogate + KL 正则化，$\beta_{\text{KL}}=0.04$，采样 16 个候选，最大 4096 token，temperature 1.0，top-p 0.85
硬件：4×NVIDIA H200，DeepSpeed ZeRO-3，全参数训练

实验关键数据¶

主实验¶

在 Hateful Memes 测试集（2000 样本）上与 SOTA 方法对比：

方法	Acc.↑	W-F1↑	M-F1↑	BS↑	MET↑
Kiela et al. (2020)	69.47	–	–	–	–
Pro-Cap (2022)	72.98	–	–	–	–
Wu et al. (2024)	76.4	–	–	–	–
Burbi et al. (2023)	77.7	–	–	–	–
Mei et al. (2024)	78.8	–	–	–	–
MemeIntel (2025)	79.9	0.80	0.79	0.78	0.49
Proposed	81.2	0.81	0.79	0.78	0.52

准确率 81.2% 超越此前 SOTA（MemeIntel 79.9%）1.3 个百分点，METEOR 提升约 3%（0.49→0.52），BERTScore 持平。

消融实验¶

配置	Acc.↑	W-F1↑	M-F1↑	BS↑	MET↑
SFT (Cls+Exp)	77.0	0.77	0.75	0.77	0.48
SFT (Cls+FG+Exp)	78.1	0.78	0.77	0.77	0.48
SFT (Cls+FG+Exp, CoTD)	79.2	0.79	0.78	0.78	0.50
GRPO (Cold Start)	76.8	0.77	0.75	0.73	0.47
SFT-Cls+Exp → GRPO	80.4	0.80	0.78	0.76	0.50
SFT-Cls+FG+Exp → GRPO	81.1	0.81	0.79	0.77	0.52
SFT-Cls+FG+Exp-CoTD → GRPO	81.2	0.81	0.79	0.78	0.52

关键发现¶

SFT 预热至关重要：冷启动 GRPO（76.8%）远低于 SFT+GRPO 组合（81.2%），RL 无法同时学习格式和任务。
细粒度标签有帮助：加入保护类别/攻击类型后 SFT 提升 1.1%（77.0→78.1），GRPO 后依然保持优势。
CoT 蒸馏锦上添花：CoTD 在 SFT 阶段提升最大（+1.1%），但在 GRPO 后增益变小（81.1→81.2），说明 GRPO 本身就能发现推理路径。
CoT collapse 现象：CoTD 初始化的 GRPO 训练中，模型倾向压缩 <think> 段长度来提高奖励——这是一种 RL 捷径，未来需要控制推理 token 预算的奖励设计。
零样本分析：CoT 提示对 thinking 模型（Qwen-T）分类提升最大（+4.6% Acc），但对所有模型的解释质量均有损害（BERTScore 下降），说明 CoT 使输出偏离简洁参考解释的分布。

亮点与洞察¶

GRPO 用于多模态内容审核是新颖的应用。组合奖励设计（格式+标签+长度+METEOR）简单但有效，避免了额外训练 reward model 的成本。
发现 CoT collapse 现象很有价值：RL 会驱使模型通过压缩推理链来作弊提升奖励，这对所有用 GRPO 训练推理模型的工作都有警示意义。作者建议加入推理长度约束奖励。
系统性的 CoT 效果分析：在 7 个 MLLM 上对比 CoT 开/关的效果，发现 CoT 在分类和解释间存在 trade-off，这是很实用的经验发现。

局限性 / 可改进方向¶

单一基准：仅在 Hateful Memes（~11k 样本）上验证，未测试跨域/跨语言泛化。
CoT 蒸馏依赖闭源模型：GPT-4.1 生成的推理链可能引入偏见和不忠实推理，影响可复现性。
GRPO 计算开销大：每条输入采样 16 个候选，训练成本高。
CoT collapse 未解决：论文发现了问题但仅讨论了可能的缓解方向，未实际验证。

评分¶

新颖性: ⭐⭐⭐ GRPO 用于 meme 检测有新意，但 GRPO 本身是已有技术
实验充分度: ⭐⭐⭐⭐ 零样本/SFT/GRPO 层层消融，7 个 baseline 模型对比
写作质量: ⭐⭐⭐⭐ 结构清晰，实验分析深入（特别是训练动态分析）
价值: ⭐⭐⭐ 应用导向强，但受限于单一基准和数据集规模