BLM-Guard: Explainable Multimodal Ad Moderation with Chain-of-Thought and Policy-Aligned Rewards¶

会议: AAAI 2026
arXiv: 2602.18193
代码: 无
领域: 多模态VLM / 内容审核 / 强化学习
关键词: 广告审核, 多模态CoT推理, 策略对齐RL, GRPO, 跨模态不一致检测

一句话总结¶

提出 BLM-Guard，一个面向短视频商业广告的可解释多模态审核框架：先通过 Rule-driven ICoT 数据合成 + SFT 冷启动建立结构化推理能力，再用 Self-Adaptive GRPO 强化学习（结合规则正确性奖励 + 自适应一致性奖励 SCA-R）优化策略对齐，在真实广告 benchmark 上达到 91.4% 严格准确率和 0.845 推理一致性分数。

研究背景与动机¶

领域现状：短视频平台（TikTok、快手等）上的商业广告内容审核需求巨大，但现有的内容安全模型（如 LlamaGuard、LlavaGuard）主要针对暴力、色情等粗粒度风险，不支持广告合规这种细粒度、政策驱动的审核。
现有痛点：广告违规往往是微妙的——视觉上合法但语音中有夸大宣传，字幕和语音不一致，或者看似正常的画面隐含误导性暗示。现有方法面临三个问题：(a) 缺乏跨模态因果推理能力；(b) 无法适应政策漂移（规则经常更新）；(c) 对商业风险场景缺乏领域特定推理。
核心矛盾：广告审核不仅需要准确判断违规与否，还需要给出可解释的推理链（为什么违规、违反了哪条规则），且需要同时检测模态内操纵（如夸张画面）和模态间不匹配（如字幕-语音不一致）。
本文要解决什么：如何构建一个既准确又可解释的多模态广告审核系统？需要：结构化推理 + 策略对齐 + 跨模态一致性检测。
切入角度：将广告审核建模为政策对齐的多步推理任务——先观察（模态内容描述）→ 风险筛查 → 因果分析 → 最终判决，用 CoT 结构化这个过程，用 RL 确保与政策的动态对齐。
核心 idea 一句话：用 Interleaved CoT 做结构化推理冷启动 + 自适应 GRPO 做策略对齐强化学习，同时处理模态内和模态间违规。

方法详解¶

整体框架¶

两阶段训练 pipeline： - Stage 1 (Rule-driven SFT 冷启动)：用 InternVL-3-78B 合成结构化推理数据（关键帧提取 + ICoT 生成），对 Qwen2.5-VL-7B 做规则锚定的 SFT - Stage 2 (Self-adaptive GRPO RL)：用混合奖励（规则正确性 + 格式 + 自适应一致性）和改进的 GRPO 做强化学习微调

关键设计¶

关键帧与区域提取（Keyframe & Region Extraction）:
做什么：从短视频中选出最能反映风险的关键帧和视觉区域
核心思路：均匀采样 16 帧，用 CLIP-ViT-L/14 计算每帧与 7 种风险 prompt（"虚假营销""违法内容"等）的语义相似度 \(s_i = \max_k \frac{\mathbf{v}_i^\top \mathbf{t}_k}{\|\mathbf{v}_i\|\cdot\|\mathbf{t}_k\|}\)。然后用 BIN+TOP 策略选 3 帧（时间均匀覆盖 + 全局最高分互补），再用 InternViT-6B 提取 patch 级显著区域
设计动机：短视频中大量帧是无关内容，需要精准定位风险相关的视觉线索；时间均匀采样保证不遗漏
Interleaved Multi-stage CoT Generation（交替多阶段 CoT）:
做什么：用冻结的大模型（InternVL-3-78B）合成结构化推理数据
核心思路：4 步推理——Step-1（观察）描述视觉内容和 ASR 转录，评估跨模态一致性 → Step-2+3（风险筛查 + 因果分析）识别违规并分析原因 → Step-4（最终裁决）整合推理做出合规决策。输出格式为 <think>推理过程</think><answer>违规场景和类型</answer>
设计动机：合成数据替代人工标注，大幅降低成本；结构化推理保证可解释性
Rule-Anchored SFT（规则锚定微调）:
做什么：用合成的 ICoT 数据对基础 VLM 做监督微调
核心思路：损失函数 \(\mathcal{L} = \mathcal{L}_{CE}(\langle\text{answer}\rangle) + \lambda \cdot \text{KL}(p_{\text{think}} \| p_{\text{rule}})\)，主损失对答案做交叉熵，辅助项用 KL 散度将 <think> 部分的推理分布对齐到规则先验（将违规场景/类型关键词归一化为软目标分布）
设计动机：KL 正则项保证推理过程不偏离政策规则，不只是结果对就行，推理链也要和规则一致
SCA-R: Self-Consistency and Adaptive Reward（自适应一致性奖励）:
做什么：在 RL 阶段提供动态的、策略感知的推理质量奖励
核心思路：由 guide model 作为评分专家，接收 <think> 推理链 + ground-truth + 审核规则，动态构建评分原则 \(\mathcal{P} = \{p_k\}\)（如因果清晰度、风险归因等），每个维度带权重 \(w_k\)。最终奖励 \(r_{\text{scaR}} = \sum_k w_k \cdot \text{score}_{p_k}(\hat{y})\)
设计动机：固定奖励无法适应策略漂移，SCA-R 根据场景自适应调整评分维度，保证预审模型持续对齐最新政策

损失函数 / 训练策略¶

总奖励：\(r = r_{\text{rule}} + r_{\text{format}} + r_{\text{scaR}}\)。GRPO 改进：token 级归一化（避免长短输出的奖励偏差）+ 动态采样（跳过全组奖励相同的批次避免梯度崩溃）+ clip 因子退火。

实验关键数据¶

主实验¶

模型	Strict Acc.	Wide Acc.	Risky Precision	Risky F1	Consistency
Qwen2.5-VL-7B	0.701	0.712	0.831	0.680	0.642
Qwen2.5-VL-32B	0.682	0.703	0.769	0.801	0.667
Kimi-VL-A3B-Thinking	0.511	0.529	0.588	0.711	0.701
InternVL3-14B	0.502	0.521	—	—	—
BLM-Guard (7B)	0.914	0.976	0.962	0.969	0.845

消融实验¶

配置	Strict Acc.	Risky Precision	Risky F1	Consistency
Ans-SFT	0.648	0.765	0.732	0.412
Think-SFT	0.612	0.720	0.699	0.585
Rule-SFT (5k)	0.783	0.882	0.867	0.776
+ Rule-RL	0.801	0.915	0.894	0.781
+ SCA-R (Full)	0.914	0.976	0.969	0.845

关键发现¶

从 0.783 到 0.914 的飞跃：SCA-R 自适应奖励是最大的性能提升来源（+11.3% Strict Acc.），远超 Rule-RL 的增量提升
推理一致性和准确率正相关：BLM-Guard 是唯一同时在准确率和一致性上都大幅 SOTA 的模型，说明结构化推理对审核任务至关重要
7B 模型碾压 32B 通用模型：BLM-Guard（7B）的 91.4% 远超 Qwen2.5-VL-32B 的 68.2%，再次证明领域特化的力量
只训答案 vs 只训推理：Ans-SFT（只看答案）准确率稍高但一致性极差（0.412），Think-SFT（只看推理）一致性好但准确率差——两者结合才是关键
泛化到 5 个公开数据集：在 FakeSV/FVC（虚假信息检测）上表现尤其突出，说明跨模态不一致检测能力可以迁移

亮点与洞察¶

ICoT 数据合成 pipeline是非常务实的创新——用大模型合成结构化推理数据,再训小模型，成本远低于人工标注，且推理质量有保障
SCA-R 的场景自适应设计解决了一个实际痛点——平台审核规则经常变化，固定奖励函数无法跟上政策漂移，自适应的评分维度和权重使系统能持续对齐
KL 正则对齐推理到规则先验的想法很巧妙——不只是要求答案对，还要求推理过程中出现正确的违规关键词,保证"知其然且知其所以然"
来自快手的工业实践经验：数据集来自真实短视频广告，覆盖电商、健康、教育等多领域，三层违规分类体系（严重度-场景-类型）非常实用

局限性 / 可改进方向¶

BLM-Guard Benchmark 是私有数据集，不开源，难以复现和对比
SCA-R 依赖 guide model（可能是 GPT-4o），引入了额外的推理成本和潜在偏差
只用 ASR 不用 OCR（因为短视频 OCR 噪声大），但有些广告的违规信息恰好在文字叠加层
目前论文中缺少具体数据集规模的描述（多少训练/测试样本）
实时性未讨论——7B 模型做多帧视频推理的延迟是否满足实际审核需求

评分¶

新颖性: ⭐⭐⭐⭐ ICoT 数据合成 + SCA-R 自适应奖励是亮点,但整体框架（SFT+RL两阶段）是较标准的pipeline
实验充分度: ⭐⭐⭐⭐ 消融完整,泛化到5个公开数据集,但私有benchmark难复现
写作质量: ⭐⭐⭐⭐ 方法描述清晰,图表设计好,但部分符号使用不太一致
价值: ⭐⭐⭐⭐ 广告合规审核是真实且重要的工业需求,方法有实际部署价值