Conspiracy Theories and Where to Find Them on TikTok¶
会议: ACL 2025
arXiv: 2407.12545
代码: https://anonymous.4open.science/r/ct_tt-FC7E(脱水数据集+复现代码)
作者: Francesco Corso, Francesco Pierri, Gianmarco de Francisci Morales
机构: Politecnico Di Milano, CENTAI
领域: 社交媒体分析 / 内容安全
关键词: 阴谋论, TikTok, LLM内容审核, 标签富集, 远程监督, 创作者激励计划
一句话总结¶
首个TikTok阴谋论系统性分析:通过官方API收集美国150万条长视频,利用标签富集和远程监督识别阴谋论内容(每月约1000条新视频),评估TikTok创作者激励计划的影响,并测试开源LLM(Llama3、Mistral、Gemma)在基于音频转录的阴谋论检测上的效果(精确率高达96%但整体水平与微调RoBERTa相当)。
研究背景与动机¶
TikTok的影响力:近一半TikTok用户(17%的美国成年人)定期使用该平台获取新闻和信息。TikTok庞大的用户基数和病毒式传播机制使其成为恶意内容的温床。
阴谋论的危害:阴谋论是声称秘密(通常是邪恶的)阴谋的虚假或未验证叙事。其风险在于扭曲消费者的现实感知,加剧错误信息传播和极化,甚至可能导致危险的现实后果。
研究空白:此前仅有少数定性研究分析TikTok上的阴谋论(如远右叙事、猴痘相关阴谋内容),缺乏定量和系统性的方法。
三个研究问题: - RQ1: TikTok上分享阴谋论视频的普及率如何? - RQ2: 创作者激励计划(Creativity Program)是否影响了阴谋论内容的供应? - RQ3: 能否利用LLM检测TikTok上的阴谋论?
方法详解¶
3.1 数据收集¶
使用TikTok官方Research API收集2021-2023年美国地区数据: - 总量:1,605,696条视频(去重后1,494,831条唯一视频) - 创作者:1,178,303位唯一用户 - 额外样本:创作者激励计划前后各约10K随机视频
3.2 阴谋论标签富集 (Conspiracy Hashtag Enrichment)¶
Step 1:种子选择 从LOCO阴谋论数据集(90,000+阴谋论和非阴谋论文章)的top 30频繁种子词中,手动选取10个与阴谋论直接关联的种子(illuminati、reptilians等),排除含义过于宽泛的词(cancer、AIDS、5G等)。
Step 2:标签相似度计算 对281,510个标签计算与种子标签的相似度:
利用标签-标签共现矩阵H和标签-词语共现矩阵W,混合参数α=0.3,基于文档频率折扣避免过于常见标签(如#fyp、#viral)的影响。
Step 3:手动验证 产出197个候选标签,每个检查5个相关视频后分类为: - CT (阴谋论): 92个 - NOCT (非阴谋论): 68个 - DW (暗语Dog Whistling): 28个——表面无害但被阴谋论者作为隐蔽标记(如#radiowaves关联气象操控和化学尾迹) - HJ (标签劫持): 阴谋论用户借用流行标签获取流量 - RHJ (反向标签劫持): 用户在阴谋论标签下传播辟谣信息
最终标注规则:含CT或DW标签、且不含NOCT/HJ/RHJ标签的视频标记为阴谋论 → 1,363条
质量验证:200条随机视频人工检验,Cohen's kappa = 0.81(强一致性)。
3.3 阴谋论视频数量估计¶
使用Good-Turing频率估计器估计TikTok上长视频总量的下界:
N=唯一视频数,\(N_1\)=仅出现一次的视频数,K=总采样视频数。另用最大似然估计验证,两种方法结果差异<1%。
3.4 视频转录¶
- TikTok API提供的voice_to_text (VTT) 字段仅约70K条可用(约5%)
- 使用 OpenAI Whisper(medium size)扩展转录
- 验证:Whisper转录与VTT原生转录的WER(词错误率)中位数约0.15
- 过滤:排除无语音/音乐主导、非英语内容
3.5 LLM检测流程¶
模型选择:Llama3 (8B)、Mistral (7B)、Gemma (7B)——参数量和上下文窗口可比且完全可复现。
三种提示策略: 1. Simple:直接判断转录是否讨论阴谋论 2. With Definition:附加Douglas & Sutton (2023)的阴谋论定义 3. Step-by-step:链式思维——先提取叙事/主张,再判断是否为阴谋论,最后给出答案
三种数据配置: - C1 (均衡+远程标注):887正例 + 779负例 - C2 (不均衡+远程标注):100正例 + 779负例 - C3 (不均衡+人工标注):100人工标注正例 + 779负例
基线:RoBERTa base微调
实验¶
RQ1: 阴谋论普及率¶
- 2021年Q3出现上传峰值,阴谋论视频占样本约0.2%(N=542)
- 之后稳定在约0.1%
- 2023年阴谋论视频绝对数量持续增长,达到每月约1,000条
- 下界估计:阴谋论视频约占每500条上传视频中的1条
RQ2: 创作者激励计划的影响¶
- 计划启动(2023年5月3日)后,长视频(>1分钟)从样本的0.39%增至1.03%
- Mann-Whitney和Chi-square检验均确认前后分布统计显著不同(p<0.001)
- 但:阴谋论视频占比保持稳定——激励计划影响的是整体内容行为,而非特定促进阴谋论内容
RQ3: LLM检测效果¶
均衡设置 (C1):
| 模型+提示 | 精确率 | 召回率 |
|---|---|---|
| Llama3 + Step-by-step | 0.96 | — |
| Gemma + Definition | — | 0.87 |
| RoBERTa (微调基线) | 0.83 | 0.83 |
- 精确率方面:Llama3 + Step-by-step达到0.96,大多数LLM配置超过RoBERTa基线
- 召回率方面:仅Gemma + Simple/Definition和Llama3 + Simple超过基线,其他配置显著低于RoBERTa(-1到-49pp)
不均衡+人工标注 (C3): - 整体性能大幅下降 - Llama3仍然精确率最高(0.77,Step-by-step) - 最佳综合平衡:Mistral + Simple(精确率和召回率均超基线) - 多数模型的召回率远低于RoBERTa基线
文本长度的影响: - 转录越长,精确率和召回率越高(趋势一致) - 但从Q3到Q4(最长转录),召回率提升停滞甚至下降
集成模型(三个LLM多数投票):在精确率和召回率之间达到较好折衷,但部署复杂度和运行时间增加。
亮点与洞察¶
- 首个TikTok阴谋论系统性分析:利用官方API进行大规模纵向数据收集和分析,方法可复现
- "暗语"标签(Dog Whistling)的发现:28个表面无害的标签实际被阴谋论者作为隐蔽通讯标记——这揭示了一种重要的规避检测机制
- 创作者激励计划的意外发现:激励计划带来了全平台长视频增长,但阴谋论占比未变——说明经济激励影响的是内容形式而非内容质量
- LLM精确率高但召回率不足:Llama3零样本精确率可达0.96,但召回率常低于微调RoBERTa——对内容审核实践而言,错过的阴谋论视频可能比误报更危险
- 实验设置的实用性:C1/C2/C3三种配置模拟了从理想到现实的不同部署场景,为实际内容审核系统提供了有价值的参考
局限性¶
- API透明度:TikTok Research API是不透明系统,数据可能存在偏差或不完整
- 种子依赖:不同初始种子标签可能产生不同结果
- 因果推断受限:创作者激励计划分析是相关性而非因果性(可能存在隐藏混淆变量)
- 模型规模限制:仅评测7-8B参数的较小模型,更大模型可能表现更好
- 未区分阴谋论类型:如illuminati与chemtrails等不同阴谋论内容的传播模式可能不同
- 仅文本模态:仅使用语音转录,未利用视频关键帧等多模态信息
相关工作¶
- 阴谋论研究:Douglas et al. (2019)心理学分析、Fong et al. (2021)语言特征分析、LOCO数据集 (Miani et al., 2021)
- TikTok内容分析:Weimann & Masri (2023)远右极端主义、Zenone & Caulfield (2022)猴痘阴谋论、Basch et al. (2021) COVID疫苗误信息
- LLM内容审核:Diab et al. (2024) Reddit阴谋论分类、Plaza-del Arco et al. (2024) LLM社交媒体分析
评分 ⭐⭐⭐⭐¶
- 创新性:⭐⭐⭐⭐ — 首个TikTok阴谋论系统性分析,暗语标签发现是亮点
- 实用性:⭐⭐⭐⭐⭐ — 直接服务于内容审核实践,方法论和实验配置设计具有很强参考价值
- 实验充分性:⭐⭐⭐⭐ — 三个RQ设计合理,C1/C2/C3三种配置实用,但受限于小模型
- 写作质量:⭐⭐⭐⭐ — 结构清晰,方法论阐述详细,伦理考虑充分
相关论文¶
- [ACL 2026] Among Us: Language of Conspiracy Theorists on Mainstream Reddit
- [ACL 2025] Exploring the Impact of Instruction-Tuning on LLMs' Susceptibility to Misinformation
- [ACL 2025] Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch
- [ACL 2025] MDiT-Bench: Evaluating the Dual-Implicit Toxicity in Large Multimodal Models
- [ACL 2025] STATE ToxiCN: A Benchmark for Span-level Target-Aware Toxicity Extraction in Chinese Hate Speech Detection