Synergizing LLMs with Global Label Propagation for Multimodal Fake News Detection¶

会议: ACL 2025
arXiv: 2506.00488
代码: https://github.com/TSCenter/GLPN-LLM
领域: NLP 理解
关键词: Fake News Detection, Label Propagation, LLM Pseudo Labels, Multimodal Learning, Graph Neural Networks

一句话总结¶

提出 GLPN-LLM 框架，通过 mask-based 全局标签传播机制有效整合 LLM 生成的伪标签，解决了 LLM 伪标签直接组合效果不佳的问题，在 Twitter/PHEME/Weibo 三个数据集上全面超越 SOTA。

研究背景与动机¶

多模态假新闻检测¶

社交媒体上假新闻的传播已成为严重社会问题，需要同时分析文本和图片的多模态检测方法。

LLM 在假新闻检测中的困境¶

一个关键观察：LLM（如 GPT-4o）单独用于假新闻检测的效果不如传统多模态检测模型。例如在 Twitter 数据集上，LLM 的 F1 仅为 78.20，而 HMCAN 达到 82.57。直接将 LLM 预测与现有模型输出简单组合的效果也有限。

核心问题¶

如何有效地将 LLM 的能力整合到假新闻检测系统中？简单的直接组合不行，需要更巧妙的方法。

解决思路¶

Label Propagation（标签传播）技术即使在伪标签准确率一般的情况下也能保持有效（Sun et al., 2025），因此特别适合整合 LLM 生成的不完美伪标签。

方法详解¶

整体框架¶

GLPN-LLM 由三个核心模块组成：

Multimodal Feature Extraction：使用 CLIP 提取图文特征
LLM-based Pseudo Label Generation：GPT-4o 生成伪标签
Global Label Propagation with Mask：mask-based 全局标签传播

关键设计¶

1. 多模态特征提取¶

使用 CLIP 的双编码器分别提取视觉特征 $v_i \in \mathbb{R}^{d_v}$ 和文本特征 $t_i \in \mathbb{R}^{d_t}$，拼接得到统一表示： $$x_i = t_i \oplus v_i$$

每个新闻项作为图的一个节点，基于五种相似度度量建边： - 拼接特征相似度：图文嵌入拼接后的余弦相似度 - 图-文交叉相似度（双向） - 图-图相似度 - 文-文相似度

当任一相似度超过阈值 $\theta = 0.95$ 时建立边，确保只连接强相关的新闻项。

3. Mixed-Initiative Labeling（LLM 伪标签生成）¶

构造结构化 prompt 输入 LLM： - 输入：[cls] <prompt> [SEP] <cleaned Twitter text> - 输出：[detection] ŷ [confidence] c

LLM 输出两个信息： 1. Detection Label ŷ：true 或 fake 2. Confidence Score c：预测置信度

基于置信度过滤：只有高置信度伪标签才被选用。

4. Label Integration 与 Global Random Mask (GRM)¶

标签整合：将标签信息（真实标签 / 高置信伪标签 / 零向量）作为 one-hot 编码拼接到节点特征中：

\[x_i' = x_i \oplus y_i'\]

分三种情况： - 有标签的训练节点：使用真实标签 - 高置信度无标签节点：使用 LLM 伪标签 - 其他：零向量

Global Random Mask 机制（核心创新）：

训练时按 mask ratio $\rho$（默认 0.3）随机选择 $\rho \times N$ 个节点，将其标签嵌入替换为零向量： $$y_i' = \tilde{y}_i \cdot m_i, \quad m_i \in \{0, 1\}$$

为什么需要 GRM？ 防止标签泄露——如果节点的标签包含在其输入特征中，模型会直接利用该信息做预测，而不真正学习图结构和内容特征。GRM 确保被 mask 的节点只能通过邻居的标签传播获得标签信息。

训练时只对被 mask 节点计算损失；推理时使用所有可用标签信息。

5. GCN 分类¶

将带标签信息的节点特征 $x_i'$ 输入 GCN 进行标签传播和分类，使用交叉熵损失 + Adam 优化器。

损失函数 / 训练策略¶

使用交叉熵损失，只对被 mask 的节点计算
每个 epoch 随机选择不同的 mask 子集
Adam 优化器
推理时不做 mask，使用完整标签信息

实验关键数据¶

主实验¶

三个 benchmark 数据集的 F1 结果：

方法	Twitter F1	PHEME F1	Weibo F1
LLM (GPT-4o)	78.20	76.87	81.75
HMCAN	82.57	83.49	87.20
FCN-LP (CLIP)	85.24	87.97	89.78
FCN-LP (CLIP) + LLM	85.97	89.21	89.85
GLPN-LLM (CLIP)	89.03	90.66	91.52

GLPN-LLM (HMCAN) 结果：

方法	Twitter F1	PHEME F1	Weibo F1
FCN-LP (HMCAN)	84.04	84.50	88.11
FCN-LP (HMCAN) + LLM	85.10	84.60	88.75
GLPN-LLM (HMCAN)	86.86	86.87	91.46

消融实验（以 CLIP 为例）：

方法	Twitter F1	PHEME F1	Weibo F1
FCN-LP	85.24	87.97	89.78
GLPN (无 LLM)	86.30	86.96	90.76
GLPN-LLM	89.03	90.66	91.52

关键发现¶

LLM 单独表现显著弱于传统方法：GPT-4o 的 F1 在 Twitter 上仅 78.20，而 HMCAN 达 82.57
简单组合 LLM 效果有限：FCN-LP + LLM 相比 FCN-LP 仅提升约 0.5-1.2%
GLPN-LLM 大幅提升：相比 FCN-LP + LLM，在 Twitter 上提升 3.06%，PHEME 上提升 1.45%，Weibo 上提升 1.67%
GRM 模块是关键：GLPN（有 GRM 无 LLM）vs FCN-LP 已有提升，说明全局标签传播机制本身有效
LLM 伪标签通过传播产生价值：GLPN-LLM vs GLPN 提升 2-4%，说明 LLM 伪标签在传播机制下被有效利用
mask rate 的影响：标签传播通过邻居标签而非自身标签提供信息，mask rate 过低导致标签泄露，过高导致信息不足

亮点与洞察¶

精准定位问题：清晰揭示了 LLM 在假新闻检测中"有用但不好用"的困境，并给出了优雅的解决方案
Label Propagation 的巧妙应用：LP 对噪声标签的鲁棒性正好匹配 LLM 伪标签的特性
GRM 的设计直觉清晰：类似于 masked language model 的思想——遮住标签让模型通过上下文（邻居）学习
跨模态图构建的多相似度融合：5 种相似度度量确保捕捉丰富的跨模态关系
实验验证了一个重要直觉：LLM 的价值不在于单点预测的准确性，而在于通过传播机制放大其整体判断能力

局限性 / 可改进方向¶

LLM 只使用文本信息：当前 GPT-4o prompt 只包含清理后的推文文本，未利用图片信息（可改用 GPT-4V 多模态分析）
图构建阈值 $\theta = 0.95$ 较高：可能遗漏一些有价值的弱关联
仅在英语和中文数据集验证：其他语言场景未探索
LLM API 成本：需要为每个样本调用 GPT-4o，大规模部署成本较高
GCN 层数和架构较简单：可尝试更高级的 GNN 架构（如 GAT、GraphSAGE）
未讨论对抗样本鲁棒性：对精心设计的对抗性假新闻的检测能力未知

评分¶

维度	分数 (1-10)	说明
创新性	7	GRM 机制新颖，但整体框架基于已有组件的组合
实验充分性	8	三个数据集、全面消融、参数敏感性分析
写作质量	7	结构清晰但部分公式推导较繁琐
实用价值	7	依赖 LLM API，部署成本较高
总分	7	有效利用 LLM 伪标签的实用方法，核心贡献在 GRM 机制