Structurally Human, Semantically Biased: Detecting LLM-Generated References with Embeddings and GNNs¶

会议: ICLR 2026
arXiv: 2601.20704
代码: 无
领域: AI安全 / 图学习
关键词: LLM引用检测, 引用图, 图神经网络, 语义嵌入, 学术诚信

一句话总结¶

通过构建 10000 篇论文的配对引用图（人类 vs GPT-4o 生成 vs 随机基线），发现 LLM 生成的参考文献在图拓扑结构上与人类几乎不可区分（RF 仅 60% 准确率），但语义嵌入可有效检测（RF 83%，GNN 93%），说明 LLM 精确模仿了引用拓扑但留下了可检测的语义指纹。

领域现状：LLM 越来越多地被用于合成科学知识、起草文献综述和建议参考文献。先前研究发现 LLM 生成的参考文献在粗粒度指标上与人类相似（标题长度、团队规模、引用数），但在细节上有系统偏差（马太效应加强、偏好近期论文、减少自引用）。

现有痛点：尚不清楚能否可靠地区分 LLM 和人类生成的参考文献列表。单条引用审计（如 LLM-Check）不足以捕获列表级别的模式。

核心矛盾：LLM 是否真正理解引用结构，还是只是表面模仿？如果拓扑结构相同，差异在哪里？

本文目标：系统评估 LLM 生成的引用图与人类引用图在结构和语义两个维度上的差异，并开发检测方法。

切入角度：渐进式建模策略——从可解释的图结构特征到语义嵌入，再到 GNN，逐步分解拓扑 vs 语义的贡献。

核心 idea：LLM 参考文献"结构上像人类，语义上有偏差"——检测应针对内容信号而非图结构。

从 SciSciNet 采样 10000 篇论文 → 分别构建真实引用图、GPT-4o 生成引用图、领域匹配随机基线图 → 提取结构特征（度中心性/接近中心性/特征向量中心性/聚类系数/边数）→ 提取语义嵌入（OpenAI 3072-D）→ RF + GNN 三分类评估。

引用图构建:
- 功能：为每篇论文构建配对的真实/生成引用图
- 核心思路：焦点论文为主节点，引用论文为子节点，引用关系从 SciSciNet 检索。GPT-4o 通过标题+摘要+作者等信息纯参数化生成。随机基线按领域均匀重排引用保持度分布
- 设计动机：控制实验——同一焦点论文的三种引用图直接可比
结构特征 vs 语义嵌入对比:
- 结构特征：度/接近/特征向量中心性、聚类系数、边数 → RF 分类
- 语义嵌入：OpenAI text-embedding-3-large (3072-D) → 图级聚合 → RF / 作为 GNN 节点特征
- 设计动机：分离拓扑信号和内容信号的贡献
GNN 图分类:
- 功能：用 GCN/GAT/GIN/GraphSAGE 进行图级二分类
- 核心思路：节点特征为结构属性（5-D）或语义嵌入（3072-D），图级 readout 后二分类
- 设计动机：GNN 能联合利用结构和语义信号

Adam 优化器，70/15/15 分割，平衡数据集。GPT-4o + Claude Sonnet 4.5 双 LLM 验证鲁棒性。SPECTER + OpenAI 双嵌入模型验证。

方法	GT vs GPT	GT vs Random	GPT vs Random
RF (结构特征)	0.608	0.896	0.928
RF (语义嵌入)	0.835	0.908	0.953
GNN (结构特征)	~0.55	~0.90	~0.93
GNN (语义嵌入)	0.93	~0.95	~0.97