跳转至

BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards

会议: AAAI 2026
arXiv: 2602.18193
代码: 无
领域: 多模态VLM / 内容审核 / 强化学习
关键词: 广告审核, 多模态CoT推理, 策略对齐RL, GRPO, 跨模态不一致检测

一句话总结

提出 BLM-Guard,一个面向短视频商业广告的可解释多模态审核框架:先通过 Rule-driven ICoT 数据合成 + SFT 冷启动建立结构化推理能力,再用 Self-Adaptive GRPO 强化学习(结合规则正确性奖励 + 自适应一致性奖励 SCA-R)优化策略对齐,在真实广告 benchmark 上达到 91.4% 严格准确率和 0.845 推理一致性分数。

研究背景与动机

  1. 领域现状:短视频平台(TikTok、快手等)上的商业广告内容审核需求巨大,但现有的内容安全模型(如 LlamaGuard、LlavaGuard)主要针对暴力、色情等粗粒度风险,不支持广告合规这种细粒度、政策驱动的审核。
  2. 现有痛点:广告违规往往是微妙的——视觉上合法但语音中有夸大宣传,字幕和语音不一致,或者看似正常的画面隐含误导性暗示。现有方法面临三个问题:(a) 缺乏跨模态因果推理能力;(b) 无法适应政策漂移(规则经常更新);(c) 对商业风险场景缺乏领域特定推理。
  3. 核心矛盾:广告审核不仅需要准确判断违规与否,还需要给出可解释的推理链(为什么违规、违反了哪条规则),且需要同时检测模态内操纵(如夸张画面)和模态间不匹配(如字幕-语音不一致)。
  4. 本文要解决什么:如何构建一个既准确又可解释的多模态广告审核系统?需要:结构化推理 + 策略对齐 + 跨模态一致性检测。
  5. 切入角度:将广告审核建模为政策对齐的多步推理任务——先观察(模态内容描述)→ 风险筛查 → 因果分析 → 最终判决,用 CoT 结构化这个过程,用 RL 确保与政策的动态对齐。
  6. 核心 idea 一句话:用 Interleaved CoT 做结构化推理冷启动 + 自适应 GRPO 做策略对齐强化学习,同时处理模态内和模态间违规。

方法详解

整体框架

两阶段训练 pipeline: - Stage 1 (Rule-driven SFT 冷启动):用 InternVL-3-78B 合成结构化推理数据(关键帧提取 + ICoT 生成),对 Qwen2.5-VL-7B 做规则锚定的 SFT - Stage 2 (Self-adaptive GRPO RL):用混合奖励(规则正确性 + 格式 + 自适应一致性)和改进的 GRPO 做强化学习微调

关键设计

  1. 关键帧与区域提取(Keyframe & Region Extraction):
  2. 做什么:从短视频中选出最能反映风险的关键帧和视觉区域
  3. 核心思路:均匀采样 16 帧,用 CLIP-ViT-L/14 计算每帧与 7 种风险 prompt("虚假营销""违法内容"等)的语义相似度 \(s_i = \max_k \frac{\mathbf{v}_i^\top \mathbf{t}_k}{\|\mathbf{v}_i\|\cdot\|\mathbf{t}_k\|}\)。然后用 BIN+TOP 策略选 3 帧(时间均匀覆盖 + 全局最高分互补),再用 InternViT-6B 提取 patch 级显著区域
  4. 设计动机:短视频中大量帧是无关内容,需要精准定位风险相关的视觉线索;时间均匀采样保证不遗漏

  5. Interleaved Multi-stage CoT Generation(交替多阶段 CoT):

  6. 做什么:用冻结的大模型(InternVL-3-78B)合成结构化推理数据
  7. 核心思路:4 步推理——Step-1(观察)描述视觉内容和 ASR 转录,评估跨模态一致性 → Step-2+3(风险筛查 + 因果分析)识别违规并分析原因 → Step-4(最终裁决)整合推理做出合规决策。输出格式为 <think>推理过程</think><answer>违规场景和类型</answer>
  8. 设计动机:合成数据替代人工标注,大幅降低成本;结构化推理保证可解释性

  9. Rule-Anchored SFT(规则锚定微调):

  10. 做什么:用合成的 ICoT 数据对基础 VLM 做监督微调
  11. 核心思路:损失函数 \(\mathcal{L} = \mathcal{L}_{CE}(\langle\text{answer}\rangle) + \lambda \cdot \text{KL}(p_{\text{think}} \| p_{\text{rule}})\),主损失对答案做交叉熵,辅助项用 KL 散度将 <think> 部分的推理分布对齐到规则先验(将违规场景/类型关键词归一化为软目标分布)
  12. 设计动机:KL 正则项保证推理过程不偏离政策规则,不只是结果对就行,推理链也要和规则一致

  13. SCA-R: Self-Consistency and Adaptive Reward(自适应一致性奖励):

  14. 做什么:在 RL 阶段提供动态的、策略感知的推理质量奖励
  15. 核心思路:由 guide model 作为评分专家,接收 <think> 推理链 + ground-truth + 审核规则,动态构建评分原则 \(\mathcal{P} = \{p_k\}\)(如因果清晰度、风险归因等),每个维度带权重 \(w_k\)。最终奖励 \(r_{\text{scaR}} = \sum_k w_k \cdot \text{score}_{p_k}(\hat{y})\)
  16. 设计动机:固定奖励无法适应策略漂移,SCA-R 根据场景自适应调整评分维度,保证预审模型持续对齐最新政策

损失函数 / 训练策略

总奖励:\(r = r_{\text{rule}} + r_{\text{format}} + r_{\text{scaR}}\)。GRPO 改进:token 级归一化(避免长短输出的奖励偏差)+ 动态采样(跳过全组奖励相同的批次避免梯度崩溃)+ clip 因子退火。

实验关键数据

主实验

模型 Strict Acc. Wide Acc. Risky Precision Risky F1 Consistency
Qwen2.5-VL-7B 0.701 0.712 0.831 0.680 0.642
Qwen2.5-VL-32B 0.682 0.703 0.769 0.801 0.667
Kimi-VL-A3B-Thinking 0.511 0.529 0.588 0.711 0.701
InternVL3-14B 0.502 0.521
BLM-Guard (7B) 0.914 0.976 0.962 0.969 0.845

消融实验

配置 Strict Acc. Risky Precision Risky F1 Consistency
Ans-SFT 0.648 0.765 0.732 0.412
Think-SFT 0.612 0.720 0.699 0.585
Rule-SFT (5k) 0.783 0.882 0.867 0.776
+ Rule-RL 0.801 0.915 0.894 0.781
+ SCA-R (Full) 0.914 0.976 0.969 0.845

关键发现

  • 从 0.783 到 0.914 的飞跃:SCA-R 自适应奖励是最大的性能提升来源(+11.3% Strict Acc.),远超 Rule-RL 的增量提升
  • 推理一致性和准确率正相关:BLM-Guard 是唯一同时在准确率和一致性上都大幅 SOTA 的模型,说明结构化推理对审核任务至关重要
  • 7B 模型碾压 32B 通用模型:BLM-Guard(7B)的 91.4% 远超 Qwen2.5-VL-32B 的 68.2%,再次证明领域特化的力量
  • 只训答案 vs 只训推理:Ans-SFT(只看答案)准确率稍高但一致性极差(0.412),Think-SFT(只看推理)一致性好但准确率差——两者结合才是关键
  • 泛化到 5 个公开数据集:在 FakeSV/FVC(虚假信息检测)上表现尤其突出,说明跨模态不一致检测能力可以迁移

亮点与洞察

  • ICoT 数据合成 pipeline是非常务实的创新——用大模型合成结构化推理数据,再训小模型,成本远低于人工标注,且推理质量有保障
  • SCA-R 的场景自适应设计解决了一个实际痛点——平台审核规则经常变化,固定奖励函数无法跟上政策漂移,自适应的评分维度和权重使系统能持续对齐
  • KL 正则对齐推理到规则先验的想法很巧妙——不只是要求答案对,还要求推理过程中出现正确的违规关键词,保证"知其然且知其所以然"
  • 来自快手的工业实践经验:数据集来自真实短视频广告,覆盖电商、健康、教育等多领域,三层违规分类体系(严重度-场景-类型)非常实用

局限性 / 可改进方向

  • BLM-Guard Benchmark 是私有数据集,不开源,难以复现和对比
  • SCA-R 依赖 guide model(可能是 GPT-4o),引入了额外的推理成本和潜在偏差
  • 只用 ASR 不用 OCR(因为短视频 OCR 噪声大),但有些广告的违规信息恰好在文字叠加层
  • 目前论文中缺少具体数据集规模的描述(多少训练/测试样本)
  • 实时性未讨论——7B 模型做多帧视频推理的延迟是否满足实际审核需求

相关工作与启发

  • vs LlamaGuard/LlavaGuard:这些模型做粗粒度安全检测(暴力/色情),BLM-Guard 做细粒度政策合规检测(虚假营销/收入夸大等),问题维度完全不同
  • vs SafeWatch:SafeWatch 也做视频安全审核,但没有结构化推理和策略对齐 RL,BLM-Guard 的可解释性和适应性更强
  • 对 Agent 研究的启发:SCA-R 的场景自适应奖励设计可以迁移到任何需要动态对齐的 RL 任务——例如 Agent 的行为对齐、对话系统的价值观对齐

评分

  • 新颖性: ⭐⭐⭐⭐ ICoT 数据合成 + SCA-R 自适应奖励是亮点,但整体框架(SFT+RL两阶段)是较标准的pipeline
  • 实验充分度: ⭐⭐⭐⭐ 消融完整,泛化到5个公开数据集,但私有benchmark难复现
  • 写作质量: ⭐⭐⭐⭐ 方法描述清晰,图表设计好,但部分符号使用不太一致
  • 价值: ⭐⭐⭐⭐ 广告合规审核是真实且重要的工业需求,方法有实际部署价值