Classifying Unreliable Narrators with Large Language Models¶

会议: ACL 2025
arXiv: 2506.10231
代码: https://github.com/adbrei/unreliable-narrators
领域: LLM/NLP
关键词: 不可靠叙事者, 叙事学, 文本分类, 课程学习, 跨领域迁移, 文学NLP

一句话总结¶

借用叙事学理论定义三种不可靠叙事者类型，构建专家标注数据集 TUNa，系统评估 LLM 在零样本、少样本、微调和课程学习设定下的分类能力，发现该任务极具挑战性且课程学习对小模型有显著提升。

研究背景与动机¶

核心问题：日常生活中我们频繁接触第一人称叙述（社交媒体、评论、求职信等），判断叙事者是否可靠对信息安全传递至关重要，但目前缺乏自动化识别手段。
理论空白：叙事学（narratology）对"不可靠叙事者"有丰富的理论定义（Booth 1961, Hansen 2007），但从未被引入 NLP 进行计算建模。
与相关任务的区别：不同于虚假信息检测或欺骗检测（deception detection），不可靠叙事者是无意误导读者，而非故意欺骗，这一区分来自 Booth 的经典定义。
多层次复杂性：不可靠性线索从显式词汇层面（犹豫用语、记忆模糊）到隐式抽象层面（角色原型匹配）分布广泛，需要不同深度的推理能力。
资源缺失：此前不存在任何标注数据集或自动化方法用于不可靠叙事者分类。
应用价值：为写作辅助工具（检测自身叙述的可信度）、内容审核、政治话语分析等提供基础。

方法详解¶

整体框架¶

将不可靠叙事者识别建模为三个独立分类任务（二分类/多分类），分别对应叙事学中三种不可靠性。训练数据来自文学领域（Fiction），测试时跨领域迁移到博客、Reddit 帖子和酒店评论。

三种不可靠性定义¶

叙事内不可靠（Intra-narrational）：二分类。叙事者展现"语言标记"（verbal tics），如犹豫用语（"I think"、"maybe"）、选择性记忆（"it's hard to remember"）、偏见承认、离题、矛盾陈述等 7 种类型。存在任意一种即为不可靠。

叙事间不可靠（Inter-narrational）：三分类。(A) 同一不可靠角色跨时间——叙事者回忆过去的不可靠行为且现在未表示改变；(B) 其他角色矛盾——文中第二角色提出与叙事者相反的版本；(R) 可靠。

文本间不可靠（Inter-textual）：五分类。将叙事者匹配到 Riggan (1978) 定义的四种不可靠角色原型：(A) Naïf（天真者，对危险视而不见）；(B) Madman（疯狂者，情绪极端）；(C) Pícaro（狡黠者，自利且善于诡辩）；(D) Clown（小丑，重新诠释冲突）；(R) 可靠。

TUNa 数据集构建¶

从四个领域收集第一人称叙述文本：Fiction（499篇，Project Gutenberg）、Blog post（106篇，PersonaBank）、Subreddit（112篇，r/AITA）、Reviews（100篇，真实酒店评论）。文本长度 24–1050 tokens。10 位英语文学专业标注者进行标注，每篇至少两人标注，Cohen's Kappa 达到 0.71–0.75（substantial agreement）。不一致标签通过讨论解决，并附有解释性描述。

训练策略¶

零样本/少样本：直接 prompting LLM 进行分类。
微调：使用 LoRA + 8-bit 量化在 Fiction 训练集上微调。
课程学习（Curriculum Learning）：先用 LLM 对训练样本按"歧义候选标签数"排序难度，将数据分为 Subset-Easy 和 Subset-Difficult，先在简单子集上微调，再在困难子集上继续微调。

实验¶

主要结果（Table 3 & Table 4）¶

Table 3（Llama3.1-8B 各领域 F1）：Intra-nar 上 CL 在 Fiction（58.51）和 Review（67.17）上显著优于其他方法；Inter-nar 各领域 F1 仅 30–36；Inter-tex 最难，最高仅 27.42。跨领域迁移表现与域内相当，说明从 Fiction 学到的知识可迁移。

Table 4（全模型跨域平均 F1）：CL 对小模型（Llama3.1-8B、Mistral-7B）提升显著，但对大模型（Llama3.3-70B）少样本已可与 CL 持平。GPT-4o mini 和 o3-mini 在 Intra-nar 上仅 42–52。BERT/ModernBERT 跨域泛化能力远弱于 LLM。

关键发现¶

任务难度递增：Intra-nar > Inter-nar > Inter-tex，与所需推理抽象程度正相关。
课程学习有效：CL 在多数情况下优于普通微调，表明更精细地利用训练数据可提升性能。
跨域迁移可行：从 Fiction 训练、在真实世界文本上测试，性能未显著下降。
大模型少样本已足够：Llama3.3-70B 的少样本结果与 CL 相当，说明大模型从少量示例即可获得足够判别能力。
性别偏差：男性叙事者被正确分类的概率高于女性叙事者。
叙事风格：对话体利于 Intra-nar 检测，描述体利于 Inter-nar 和 Inter-tex 检测。

亮点¶

首次将叙事学不可靠叙事者理论引入 NLP，定义了全新的研究任务。
三层次不可靠性定义（词汇→对话→原型）提供了从浅到深的分析视角，远比单一虚假检测更丰富。
TUNa 数据集横跨文学与真实世界四领域，标注质量高（文学专业专家 + 讨论解决分歧）。
课程学习方法基于"歧义候选数"定义难度，设计巧妙且对小模型效果显著。

局限¶

文本长度限于 1050 tokens，未涉及长文本（完整短篇或小说）。
仅覆盖英语，不可靠叙事者在其他语言中的表现未探索。
数据集规模偏小（共 817 篇），受限于高质量标注成本。
Inter-tex 分类性能仍然很低（F1 < 30），距离实际应用有较大差距。
性别分析仅涵盖男/女/其他三类，未做更细粒度的公平性研究。

评分¶

新颖性: ⭐⭐⭐⭐ — 首次将叙事学理论系统化地引入 NLP，任务定义新颖。
技术深度: ⭐⭐⭐ — 方法以 prompting + LoRA 微调 + 课程学习为主，工程复杂度适中。
实验充分性: ⭐⭐⭐⭐ — 6 个 LLM + 2 个 LM、4 个领域、4 种方法、多维分析（性别/风格/情感/角色数），实验覆盖全面。
实用价值: ⭐⭐⭐ — 任务有趣但当前性能尚低，距离落地尚有距离；数据集和代码开源是加分项。