Style over Story: Measuring LLM Narrative Preferences via Structured Selection¶

会议: ACL 2026
arXiv: 2510.02025
代码: 无
领域: 可解释性 / 文本生成
关键词: 叙事偏好, LLM偏见, 约束选择, 叙事学, 风格偏好

一句话总结¶

本文设计了一种基于约束选择的实验范式来测量 LLM 的叙事偏好，使用叙事学理论构建的 200 个约束库让 6 个 LLM 在不同指令类型下进行选择，发现模型系统性地优先选择"风格"（Style）而非"事件"（Event）、"角色"（Character）和"场景"（Setting）等内容元素。

领域现状：小说家开始探索使用 LLM 辅助写作，但研究表明 LLM 使用可能减少叙事情节多样性、集体创造力和个人写作风格。现有 LLM 偏好研究已发现政治偏好、人格特质等，但叙事偏好尚未被探索。

现有痛点：(1) 现有叙事研究聚焦于分析生成的输出（如情节连贯性、语言复杂度），无法直接刻画潜在的叙事偏好；(2) 输出分析混淆了偏好与能力——模型不生成某种叙事可能是因为不偏好也可能是因为不擅长；(3) LLM 生成的文本表现出显著的风格统一性，但缺乏对其底层偏好结构的理解。

核心矛盾：如果不了解 LLM 的潜在叙事偏好，就无法区分"刻意的创作选择"和"系统性偏见"，对使用 LLM 辅助写作的实践有重要影响。

本文目标：设计一种能够隔离"偏好"与"能力"的测量方法，定量刻画 LLM 的叙事偏好结构。

切入角度：让模型选择而非生成——通过结构化选择任务隔离偏好，使用叙事学理论构建可解释的约束库。

核心 idea：约束选择范式——提供叙事学理论驱动的约束候选集，让模型选择要使用的约束，以选择行为作为偏好的代理指标。

构建 200 个叙事约束的库（4 元素 × 5 类别 × 10 约束），每个约束标注 1-3 个轴属性。6 个 LLM 在 3 种指令类型（基础/质量导向/创意导向）和 5 种任务条件下进行选择。每次运行随机化约束顺序以消除位置效应。总计 8,820 次运行。

叙事学驱动的约束库:
- 功能：提供理论基础的、可解释的叙事偏好测量工具
- 核心思路：基于经典和当代叙事学理论将叙事分为四个核心元素：Event（情节动态）、Style（声音/语调/叙述）、Character（角色能动性）、Setting（空间/语境）。每元素 5 个类别，每类别 10 个约束。标准化为 15-20 词、平行语法、匹配概念粒度以减少表面选择偏差
- 设计动机：约束需要有叙事学理论基础才能产生可解释的偏好结构——否则选择行为无法被有意义地分析
多条件实验设计:
- 功能：测试偏好的稳定性和条件敏感性
- 核心思路：5 种任务条件——元素内自由预算(1-1)、元素内固定预算(1-2)、池化无标签自由(2-1)、池化无标签固定(2-2, 基线)、元素分块配额(3)。3 种指令类型（基础/质量/创意）。基线选择通过条件对比确立：池化无标签固定预算最接近模型的原生偏好结构
- 设计动机：多条件设计可以分离偏好与任务设计的伪影——如果偏好在不同条件下稳定则更可信
统计分析框架:
- 功能：严格量化和比较选择模式
- 核心思路：使用 Poisson GEE（运行聚类）估计元素级和类别级选择率比（RR），K 加权 WLS 估计条件对比。轴丰富度通过分层置换检验评估
- 设计动机：选择数据具有计数性质和聚类结构，Poisson GEE 是适当的统计模型

纯推理实验，不涉及训练。评估 GPT-4.1、GPT-5、o4-mini、Claude、Gemini、Qwen 等 6 个商业 LLM。

元素级选择率比（vs Event 基线，Poisson GEE）

跨模型稳定性