Can Community Notes Replace Professional Fact-Checkers?¶

会议: ACL 2025 arXiv: 2502.14132 代码: 无领域: NLP / 社会计算与虚假信息治理 关键词: Community Notes, 事实核查, 虚假信息, 社区众包审核, Twitter/X

一句话总结¶

通过大规模分析 Twitter/X 的 Community Notes 数据（66.4 万条），发现社区笔记对专业事实核查的依赖远超此前报告（至少 5-7%），证明高质量社区审核离不开专业事实核查，尤其在涉及阴谋论和更广泛虚假叙事的高风险内容上。

研究背景与动机¶

社交平台治理虚假信息主要有两种策略：(1) 与专业事实核查机构合作，(2) 用户社区审核（如 Twitter/X 的 Community Notes）。Meta 2025 年宣布将终止与事实核查机构的合作转向社区审核模式，这暗示两种策略是独立且对立的。

本文核心研究问题： - RQ1：社区笔记在多大程度上依赖专业事实核查的工作？ - RQ2：哪些类型的帖子和笔记更依赖事实核查来源？

现有研究的不足：此前研究报告 Community Notes 中仅 1% 引用了事实核查来源（Kangur et al., 2024），但该研究使用了较小的事实核查机构列表，且将新闻媒体的事实核查部门归类为"新闻"。

方法详解¶

整体框架¶

下载 2021.1-2025.1 全部 Community Notes 数据（150 万条）
过滤：去除非英语（52.6 万）→ 去除"不具误导性"（26.8 万）→ 去除广告/垃圾（4.4 万）→ 保留 66.4 万条
对笔记中的 URL 进行来源分类（13 类）
子集深度分析：抓取 2.55 万条"有用"笔记对应的帖子文本
主题分析 + 叙事/阴谋论标注

关键设计¶

URL 来源分类流水线¶

5 步级联分类： 1. URL 域名是否在手动整理的事实核查机构列表中 → 分为"事实核查" 2. URL 中是否含"fact-check"变体 → 分为"事实核查"（捕获新闻媒体的事实核查栏目） 3. 域名是否在作者手动标注的 top-100 常见域名中 → 归类 4. 用 GPT-4 对域名分类 5. GPT-4 失败则标为"未知"

成功分类 95% 的 URL 到 13 个类别中。

主题分析¶

对 \(\mathcal{S}_{text}\) 子集使用零样本文本分类模型（ModernBERT-large-zeroshot），将"推文+笔记"对分为 13 个主题类别。人工评估准确率 90%。

阴谋论/更广泛叙事标注¶

用 GPT-4 判断帖子-笔记对是否涉及更广泛的虚假叙事或阴谋论。两位作者独立标注 100 对作为验证（一致率 0.88），模型 F1 达 0.85。

损失函数 / 训练策略¶

本文是分析型研究，无模型训练。主要使用零样本分类和 GPT-4 标注，辅以统计检验。

实验关键数据¶

主实验¶

RQ1：社区笔记对事实核查的依赖程度

笔记类型	引用事实核查来源比例
所有英语笔记	≥5%
评为"有用"的笔记	7%
评为"无用"的笔记	1%

（对比 Kangur et al. 2024 报告的 1.2%，本文发现高达 5 倍）

含事实核查来源的笔记在个人评分中获得更高的"好来源"（HelpfulGoodSources）评价。

RQ2：依赖事实核查来源的笔记特征

特征	含事实核查来源	不含事实核查来源
涉及更广泛叙事/阴谋论	22%	11%
不涉及	28%	39%

涉及更广泛叙事/阴谋论的内容引用事实核查来源的概率是其他内容的 2 倍。

消融实验¶

作者对 400 对帖子-笔记的人工标注分析表明： - 涉及更广泛叙事的声明更可能包含事实核查链接 - 其他类型声明更多通过提供缺失上下文或质疑来源可信度来反驳 - 事实核查来源主要用于质疑声明来源和提供科学证据，很少用于补充上下文

关键发现¶

依赖被严重低估：至少 1/20 的社区笔记明确依赖专业事实核查，高风险主题（健康、政治）中比例更高
高风险内容尤其需要：涉及阴谋论和更广泛虚假叙事的内容引用事实核查来源的概率是其他内容的 2 倍
主题差异显著：健康、科学、诈骗主题更多引用事实核查；科技、体育主题较少
笔记写作者策略分化：面对不可验证的复杂声明时更依赖外部事实核查，面对误导性媒体时直接提供反例
质量关联：含事实核查来源的笔记更可能被评为"有用"

亮点与洞察¶

政策相关性极强：直接回应 Meta 终止事实核查合作的决策，用数据证明这两种策略深度交织而非对立
方法论创新：5 步级联 URL 分类管道比简单域名匹配找到了 5 倍以上的事实核查引用
生态系统视角：揭示了"专业事实核查做深度研究 → 社区笔记传播研究成果"的共生关系
partisan 议题困境：社区笔记在党派性议题上因需要跨观点共识而效率低下（仅 11% 达到"有用"状态），平均需 15.5 小时

局限性 / 可改进方向¶

仅分析英语笔记，排除了 50 万+ 非英语笔记，结论可能偏向英语圈
大部分笔记无法获取原始推文文本，限制了深度分析
人工标注规模较小（400 对；100 对验证），可用众包扩大
未区分社区笔记写作者的专业背景（部分可能本身就是事实核查从业者）
阴谋论的判定标准基于作者（西方科学家）视角，可能存在偏差

评分¶

新颖性: ★★★★☆ — 首次系统性量化社区笔记对事实核查的依赖，发现远超此前估计
技术深度: ★★★☆☆ — 方法以统计分析和 LLM 标注为主，技术贡献偏轻
实验充分性: ★★★★☆ — 大规模数据（66.4 万条）+ 人工验证 + 多角度分析
实用性: ★★★★★ — 对社交平台政策制定有直接参考价值
写作质量: ★★★★☆ — 研究问题清晰，论证有力