BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories¶

会议: ACL 2026
arXiv: 2604.17008
代码: https://huggingface.co/spaces/Linyuana/BIASEDTALES-ML
领域: AI安全 / 社会偏见
关键词: 多语言偏见、叙事生成、社会属性分布、跨语言一致性、儿童故事

一句话总结¶

BiasedTales-ML 构建了约 35 万篇覆盖 8 种语言的 LLM 生成儿童故事语料库，通过全排列提示设计和分布分析框架，揭示了叙事中社会属性分布在不同语言间存在显著差异，英语中心的评估无法反映多语言场景下的偏见模式。

研究背景与动机¶

领域现状：LLM 越来越多地被用于生成叙事内容（尤其儿童故事），这些故事隐含地传递社会角色、职业、环境等观念。现有社会偏见研究主要聚焦于英语短文本任务（如句子补全、分类）。

现有痛点：(1) 短文本偏见评估无法捕捉长文本叙事中通过角色、场景、情节结构间接表达的偏见；(2) 现有偏见基准（如 StereoSet、BBQ）是静态分类任务，与真实生成场景脱节；(3) 几乎没有工作系统研究多语言叙事生成中的偏见跨语言一致性。

核心矛盾：RLHF 等安全对齐技术主要基于英语数据和西方规范开发，但模型在其他语言中的偏见表现可能完全不同——英语评估给出"安全"的结论可能在低资源语言中不成立。

本文目标：(1) 构建大规模多语言平行叙事语料库；(2) 提出系统的叙事级社会属性分布分析框架；(3) 实证研究跨语言偏见一致性。

切入角度：选择儿童故事作为受控但表达力强的叙事领域——鼓励正面和想象力丰富的内容，同时要求模型做出关于角色、环境和社会角色的结构化选择。

核心 idea：通过全排列提示设计（系统变化国籍×宗教×社会阶层×父母角色×儿童性别）在 8 种语言上生成平行故事，用分布度量而非实例级标注来分析偏见。

方法详解¶

整体框架¶

三阶段流程：(1) 提示设计与本地化：构建标准化提示模板，由母语者本地化为 8 种目标语言；(2) 大规模平行生成：用 3 个 LLM 在所有提示配置上生成故事（每配置 5 次独立采样）；(3) 叙事特征提取与分布分析：用 LLM 提取器从故事中抽取角色特质、环境、文化参考，用统计度量比较分布差异。

关键设计¶

全排列提示设计:
- 功能：构建受控的跨语言比较实验
- 核心思路：系统组合 27 个国籍 × 6 个宗教 × 2 个社会阶层 × 3 个父母角色 × 3 个儿童性别 = 2,916 个独特提示配置，在 8 种语言 × 3 个模型上生成，每配置 5 次采样，总计约 35 万篇故事。语言选择覆盖无语法性别（英/中/日/韩）、有语法性别（西/俄/阿）、低资源（斯瓦希里语）
- 设计动机：全排列设计允许分离语言媒介与文化内容的影响，避免了翻译基准可能掩盖的语言特定模式
LLM-based 叙事特征提取器:
- 功能：从长文本故事中提取结构化的社会属性表示
- 核心思路：用 Qwen-3-14B 从每篇故事 \(S\) 中提取三维表示 \(E = (A_{\text{adj}}, V_{\text{env}}, C_{\text{cul}})\)：角色描述形容词（如 brave, obedient）、环境关键词（如 forest, kitchen）、文化参考（如 menorah, dates）。800 篇人工验证达 85.6% 精度，Cohen's \(\kappa = 0.618\)
- 设计动机：叙事偏见通过角色描述、场景设定等间接表达，需要超越表面关键词的结构化抽取
多维度分布偏见度量:
- 功能：量化和比较跨语言的社会属性分布差异
- 核心思路：四个互补度量：(1) 方向性偏见 \(S_C = \ln(P(C|g_m)/P(C|g_f))\) 衡量特定属性类别与性别的关联方向；(2) JSD 衡量整体分布散度；(3) 余弦相似度衡量跨语言偏见模式一致性；(4) 有效故事率（VSR）控制生成质量
- 设计动机：单一度量无法全面刻画偏见——需要方向、幅度、跨语言一致性、生成质量多维度综合

损失函数 / 训练策略¶

纯评估/分析工作，不涉及模型训练。使用 vLLM 推理框架，较高采样温度鼓励叙事多样性。

实验关键数据¶

主实验¶

分析维度	关键发现	模型
方向性偏见	社群性(communality)描述在所有语言中均更偏向女性故事，智力(intellect)描述在阿拉伯语/俄语中更偏向男性	8B模型
语法性别影响	Llama-3.1-8B 在有语法性别语言中 JSD 更高（更大偏见散度），Qwen-3-8B 无显著差异	-
跨语言一致性	Qwen-3 跨语言余弦相似度高（一致），Llama-3 英语与低资源语言偏见模式差异大	-
小模型效应	1B 模型偏见方向性接近零，非因安全性好，而因词汇多样性不足回退到通用模式	Llama-3.2-1B

消融实验¶

配置	效果	说明
性别条件	男性→户外/活动词，女性→家庭/关系词	跨语言一致
社会阶层条件	工薪→实用/劳动词，富裕→休闲/美学词	Qwen-3 数据
低资源语言	斯瓦希里语 VSR 低、JSD 高	1B模型尤为明显

关键发现¶

英语中观察到的偏见模式不能简单外推到其他语言，特别是低资源语言
模型规模与偏见关系非单调：小模型不是"更安全"，而是"更平庸"（词汇多样性瓶颈）
语法性别对偏见散度的影响因模型而异，非普遍规律
Qwen-3 跨语言一致性高于 Llama-3，可能反映训练数据多语言覆盖的差异

亮点与洞察¶

全排列实验设计是本文最大亮点：通过系统化地变化每个社会属性维度，可以精确分离各因素的影响。这种方法论可迁移到任何涉及多因素分析的 NLP 评估
"小模型偏见看似低实为能力不足"的发现非常重要：提醒不能用表面的分布均匀性来断言安全性，词汇贫乏也会产生均匀分布
分布级偏见分析（而非实例级标注）更适合大规模生成场景，避免了逐样本标注的不可扩展性

局限与展望¶

故事均由 LLM 生成，无法直接反映人类叙事中的偏见模式
特征提取依赖 LLM，本身可能引入提取偏见
8 种语言虽有代表性，但仍未覆盖大量低资源语言
分析限于分布层面，未深入个体故事质量或对儿童的实际影响

评分¶

新颖性: ⭐⭐⭐⭐ 大规模多语言叙事偏见分析是新颖的研究方向，全排列设计方法论有价值
实验充分度: ⭐⭐⭐⭐ 35万故事、8种语言、3个模型、多维度分析，但缺少与人类叙事的对比
写作质量: ⭐⭐⭐⭐ 结构清晰，可视化丰富，但讨论部分偏泛