跳转至

BIASEDTALES-ML: A Multilingual Dataset for Analyzing Narrative Attribute Distributions in LLM-Generated Stories

会议: ACL 2026
arXiv: 2604.17008
代码: https://huggingface.co/spaces/Linyuana/BIASEDTALES-ML
领域: AI安全 / 社会偏见
关键词: 多语言偏见、叙事生成、社会属性分布、跨语言一致性、儿童故事

一句话总结

BiasedTales-ML 构建了约 35 万篇覆盖 8 种语言的 LLM 生成儿童故事语料库,通过全排列提示设计和分布分析框架,揭示了叙事中社会属性分布在不同语言间存在显著差异,英语中心的评估无法反映多语言场景下的偏见模式。

研究背景与动机

领域现状:LLM 越来越多地被用于生成叙事内容(尤其儿童故事),这些故事隐含地传递社会角色、职业、环境等观念。现有社会偏见研究主要聚焦于英语短文本任务(如句子补全、分类)。

现有痛点:(1) 短文本偏见评估无法捕捉长文本叙事中通过角色、场景、情节结构间接表达的偏见;(2) 现有偏见基准(如 StereoSet、BBQ)是静态分类任务,与真实生成场景脱节;(3) 几乎没有工作系统研究多语言叙事生成中的偏见跨语言一致性。

核心矛盾:RLHF 等安全对齐技术主要基于英语数据和西方规范开发,但模型在其他语言中的偏见表现可能完全不同——英语评估给出"安全"的结论可能在低资源语言中不成立。

本文目标:(1) 构建大规模多语言平行叙事语料库;(2) 提出系统的叙事级社会属性分布分析框架;(3) 实证研究跨语言偏见一致性。

切入角度:选择儿童故事作为受控但表达力强的叙事领域——鼓励正面和想象力丰富的内容,同时要求模型做出关于角色、环境和社会角色的结构化选择。

核心 idea:通过全排列提示设计(系统变化国籍×宗教×社会阶层×父母角色×儿童性别)在 8 种语言上生成平行故事,用分布度量而非实例级标注来分析偏见。

方法详解

整体框架

三阶段流程:(1) 提示设计与本地化:构建标准化提示模板,由母语者本地化为 8 种目标语言;(2) 大规模平行生成:用 3 个 LLM 在所有提示配置上生成故事(每配置 5 次独立采样);(3) 叙事特征提取与分布分析:用 LLM 提取器从故事中抽取角色特质、环境、文化参考,用统计度量比较分布差异。

关键设计

  1. 全排列提示设计:

    • 功能:构建受控的跨语言比较实验
    • 核心思路:系统组合 27 个国籍 × 6 个宗教 × 2 个社会阶层 × 3 个父母角色 × 3 个儿童性别 = 2,916 个独特提示配置,在 8 种语言 × 3 个模型上生成,每配置 5 次采样,总计约 35 万篇故事。语言选择覆盖无语法性别(英/中/日/韩)、有语法性别(西/俄/阿)、低资源(斯瓦希里语)
    • 设计动机:全排列设计允许分离语言媒介与文化内容的影响,避免了翻译基准可能掩盖的语言特定模式
  2. LLM-based 叙事特征提取器:

    • 功能:从长文本故事中提取结构化的社会属性表示
    • 核心思路:用 Qwen-3-14B 从每篇故事 \(S\) 中提取三维表示 \(E = (A_{\text{adj}}, V_{\text{env}}, C_{\text{cul}})\):角色描述形容词(如 brave, obedient)、环境关键词(如 forest, kitchen)、文化参考(如 menorah, dates)。800 篇人工验证达 85.6% 精度,Cohen's \(\kappa = 0.618\)
    • 设计动机:叙事偏见通过角色描述、场景设定等间接表达,需要超越表面关键词的结构化抽取
  3. 多维度分布偏见度量:

    • 功能:量化和比较跨语言的社会属性分布差异
    • 核心思路:四个互补度量:(1) 方向性偏见 \(S_C = \ln(P(C|g_m)/P(C|g_f))\) 衡量特定属性类别与性别的关联方向;(2) JSD 衡量整体分布散度;(3) 余弦相似度衡量跨语言偏见模式一致性;(4) 有效故事率(VSR)控制生成质量
    • 设计动机:单一度量无法全面刻画偏见——需要方向、幅度、跨语言一致性、生成质量多维度综合

损失函数 / 训练策略

纯评估/分析工作,不涉及模型训练。使用 vLLM 推理框架,较高采样温度鼓励叙事多样性。

实验关键数据

主实验

分析维度 关键发现 模型
方向性偏见 社群性(communality)描述在所有语言中均更偏向女性故事,智力(intellect)描述在阿拉伯语/俄语中更偏向男性 8B模型
语法性别影响 Llama-3.1-8B 在有语法性别语言中 JSD 更高(更大偏见散度),Qwen-3-8B 无显著差异 -
跨语言一致性 Qwen-3 跨语言余弦相似度高(一致),Llama-3 英语与低资源语言偏见模式差异大 -
小模型效应 1B 模型偏见方向性接近零,非因安全性好,而因词汇多样性不足回退到通用模式 Llama-3.2-1B

消融实验

配置 效果 说明
性别条件 男性→户外/活动词,女性→家庭/关系词 跨语言一致
社会阶层条件 工薪→实用/劳动词,富裕→休闲/美学词 Qwen-3 数据
低资源语言 斯瓦希里语 VSR 低、JSD 高 1B模型尤为明显

关键发现

  • 英语中观察到的偏见模式不能简单外推到其他语言,特别是低资源语言
  • 模型规模与偏见关系非单调:小模型不是"更安全",而是"更平庸"(词汇多样性瓶颈)
  • 语法性别对偏见散度的影响因模型而异,非普遍规律
  • Qwen-3 跨语言一致性高于 Llama-3,可能反映训练数据多语言覆盖的差异

亮点与洞察

  • 全排列实验设计是本文最大亮点:通过系统化地变化每个社会属性维度,可以精确分离各因素的影响。这种方法论可迁移到任何涉及多因素分析的 NLP 评估
  • "小模型偏见看似低实为能力不足"的发现非常重要:提醒不能用表面的分布均匀性来断言安全性,词汇贫乏也会产生均匀分布
  • 分布级偏见分析(而非实例级标注)更适合大规模生成场景,避免了逐样本标注的不可扩展性

局限与展望

  • 故事均由 LLM 生成,无法直接反映人类叙事中的偏见模式
  • 特征提取依赖 LLM,本身可能引入提取偏见
  • 8 种语言虽有代表性,但仍未覆盖大量低资源语言
  • 分析限于分布层面,未深入个体故事质量或对儿童的实际影响

相关工作与启发

  • vs Biased Tales (Rooein et al., 2025): 后者仅英语+少量语言,BiasedTales-ML 扩展到 8 种语言全排列设计
  • vs StereoSet/BBQ: 静态分类基准,本文通过长文本生成分析更接近真实场景的偏见表现
  • vs Yong et al., 2025: 后者研究安全干预的跨语言迁移,本文补充了非对抗场景下的表征安全分析

评分

  • 新颖性: ⭐⭐⭐⭐ 大规模多语言叙事偏见分析是新颖的研究方向,全排列设计方法论有价值
  • 实验充分度: ⭐⭐⭐⭐ 35万故事、8种语言、3个模型、多维度分析,但缺少与人类叙事的对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,可视化丰富,但讨论部分偏泛

相关论文