Among Us: Language of Conspiracy Theorists on Mainstream Reddit¶

会议: ACL 2026
arXiv: 2506.05086
代码: 无
领域: Social Computing / Computational Linguistics
关键词: 阴谋论, 语言特征, Reddit分析, 心理语言学, 社区适应性

一句话总结¶

分析5亿条Reddit评论的10年纵向数据，发现活跃于阴谋论社区的用户在主流社区中也展现出可检测的独特语言模式（平均87%分类准确率），但这些模式高度依赖社区上下文，社区特定模型比全局模型高出最多17个百分点。

领域现状：阴谋论不仅是边缘信仰——它们与疫苗犹豫、公共健康风险甚至对民主制度的威胁（如2021年国会山事件）相关。现有研究主要关注阴谋论内容的检测，但忽略了阴谋论信仰者在主流空间中的语言表现。

现有痛点：(1) 已知阴谋论者使用特定修辞风格和词汇，但不清楚这些模式是仅限于阴谋论空间还是渗透到主流交流中；(2) 现有检测方法多关注内容层面（如主题词），忽略了与讨论话题无关的语言风格特征。

核心矛盾：阴谋论者是否具有一种渗透到所有交流中的"阴谋论心态"（monological worldview），还是他们能够完全适应不同社区的语言规范？

本文目标：利用大规模纵向数据系统检验阴谋论社区用户在主流空间中的语言可区分性。

切入角度：使用LIWC-22心理语言学特征（而非话题词）构建用户语言画像，在22个主流社区上分别训练分类器。

核心 idea：阴谋论用户的语言确实可区分，但区分模式高度依赖社区——没有单一的全局模型能捕捉这些模式，需要社区特定的分析。

数据收集（r/conspiracy全部评论 + 22个主流社区） → LIWC-22特征提取（110维） → 用户级别特征聚合 → 每个社区训练Random Forest分类器 → 特征重要性分析（SHAP值） → 跨社区相似性分析。

大规模纵向数据构建:
- 功能：提供可靠的长期语言行为数据
- 核心思路：从Pushshift Reddit数据集提取2013-2023年约5.1亿条评论，覆盖r/conspiracy的98万用户和22个主流社区。排除bot和低活跃度用户（<20条评论）
- 设计动机：需要足够的评论量来构建稳定的用户语言画像，短期或少量数据可能被噪声主导
社区特定分类实验:
- 功能：检验语言可区分性是否跨社区一致
- 核心思路：对每个主流社区独立训练Random Forest，正类=在r/conspiracy有过评论的用户，负类=随机采样等量的普通用户。重复5次随机采样以减少方差。使用置换检验验证统计显著性
- 设计动机：分类器不是目的本身，而是用来量化语言可区分性的代理工具
SHAP特征重要性分析和跨社区聚类:
- 功能：揭示哪些语言特征最具区分力，以及不同社区的区分模式是否相似
- 核心思路：对每个社区模型计算SHAP值，得到110维特征重要性向量，然后用余弦相似度+层级聚类分析跨社区的模式相似性
- 设计动机：如果所有社区用相同的特征区分，说明有全局的"阴谋论语言"；如果特征因社区而异，说明语言表达是上下文适应的

Random Forest使用网格搜索和5折交叉验证调参，80/20训练-测试划分。特征归一化仅在训练数据上进行。100次置换检验评估统计显著性。