跳转至

USDC: A Dataset of User Stance and Dogmatism in Long Conversations

会议: ACL 2025 (Findings) arXiv: 2406.16833 代码: GitHub 领域: NLP理解 / 社会计算 关键词: stance detection, dogmatism, conversation, Reddit, LLM annotation, opinion dynamics

一句话总结

构建 USDC——首个用户级长对话立场和教条主义数据集,764 个多用户 Reddit 对话(22 子版块),用 {Mistral Large, GPT-4} × {zero/one/few-shot} 共 6 设置多数投票标注立场(5级)+教条程度(4级),并用 7 个 SLM 微调/指令微调建立基线。

研究背景与动机

  1. 领域现状:分析用户观点波动对个性化推荐、舆情监控、政治分析至关重要。已有立场检测数据集(SPINOS、MT-CDS、Twitter-stance)聚焦帖子级,将每个帖子视为独立样本。
  2. 现有痛点:(a) 不追踪同一用户跨帖子的观点演变——只看单帖无法理解用户是否改变立场;(b) 人工标注长对话极耗时——需读完整个对话才能判断用户观点;(c) 微妙的观点转变难以捕捉——用户常常隐含地改变立场。
  3. 核心矛盾:如何大规模标注长对话中用户的观点动态?人工标注成本高质量低,且受限于标注者的领域知识。
  4. 切入角度:LLM 标注——用两个强 LLM 在三种 in-context 设置下标注,6 个设置多数投票作为最终标注。LLM 不疲劳且有长程记忆,可能比人类更擅长长对话理解。
  5. 核心 idea:从帖子级到用户级的范式升级——追踪同一用户在整个对话中的观点轨迹。

方法详解

数据构建

  1. Reddit 数据收集
  2. 来源:22 个子版块,2019 年数据,初始爬取 3619 个对话
  3. 质量过滤:文本内容 + 非删除/移除 + 20-70 条评论 + 至少两个活跃用户覆盖约 50% 评论
  4. 最终:764 个长对话,每个对话提取 top-2 最活跃用户

  5. LLM 标注流程

  6. 将对话转为嵌套 JSON 格式(保持 Reddit 层级结构)
  7. 系统 prompt 包含立场和教条的定义、标注指南、标签说明
  8. 6 设置:{Mistral Large, GPT-4} × {zero-shot, one-shot, few-shot}
  9. 最终标注:多数投票;无明确多数时用 GPT-4 few-shot 作为决定性标注

  10. 两个标注任务

  11. 立场检测(5 级):强支持(SOIF)、有些支持(SIF)、不可推断(SNI)、有些反对(SGA)、强反对(SOA)——针对每个帖子
  12. 教条识别(4 级):开放对话(Open to Dialogue)、坚定但开放(Firm but Open)、灵活(Flexible)、根深蒂固(Deeply Rooted)——针对用户整体

  13. 人工验证:200 个测试对话由 3 名人类标注者标注

  14. LLM vs 人类 IAA:立场 κ=0.49,教条 κ=0.50
  15. 人类之间 IAA:立场 κ=0.57,教条 κ=0.52

SLM 微调/指令微调

  • 7 个模型:LLaMA-2-7B/chat、LLaMA-3-8B/instruct、Falcon-7B/instruct、Vicuna-7B-v.1.5
  • 4-bit 量化 + LoRA 微调
  • 立场:每帖独立样本;教条:拼接用户所有帖子为单样本

实验关键数据

分类性能(加权 F1)

方法 立场 F1 教条 F1
未微调基线 ~31% ~40%
微调最佳 (Majority Voting) 54.9 51.4
指令微调最佳 (Majority Voting) 56.2 49.2

消融:不同标注源作为训练标签

标注源 立场 F1 范围 教条 F1 范围
GPT-4 ZS/OS/FS 51-55 42-50
Mistral Large ZS/OS/FS 34-50 37-50
多数投票 54-56 43-51

关键发现

  • 多数投票标注最稳定:在所有 SLM 上,用多数投票标注训练的性能最一致
  • 立场适合指令微调(56.2)、教条适合微调(51.4)——最优训练策略与任务特性相关
  • LLaMA-3 系列表现最好:LLaMA-3-8B-instruct 在两个任务上均为最优或接近最优
  • "lost in the middle" 效应微弱:LLM 在长对话标注中表现稳定,不受对话中间位置信息丢失影响
  • 迁移学习有效:USDC 微调后在 SPINOS 上可比较或超越先前研究,验证了数据集的迁移价值
  • GPT-4 few-shot 标注质量最高:与人类标注一致性最好,因此用于多数投票平局裁决

亮点与洞察

  • 从帖子到用户级追踪观点演变——更接近真实动态。已有数据集把每帖独立,丢失了用户立场变化信息
  • 6 设置多数投票比单 LLM 更鲁棒:跨模型、跨设置的集成降低了单一模型偏差
  • LLM 长对话标注优于人类:不疲劳 + 长程记忆使 LLM 在长对话理解上有天然优势
  • 数据集覆盖广泛:22 个子版块涵盖政治、宗教、文化、经济等多主题

局限性 / 可改进方向

  • 标注一致性中等(κ~0.5):观点标注本身主观性强,但与已有数据集(Fast & Horvitz 2016 的 0.44)可比
  • 仅英语 Reddit:无法覆盖其他语言和平台(Twitter/微博等)的讨论特征
  • 仅追踪 top-2 活跃用户(覆盖 47% 帖子):忽略了其他参与者的观点
  • JSON 解析偶发错误:约 15 例 LLM 输出格式不符需手动修复

相关工作与启发

  • vs SPINOS (Sakketou et al.):帖子级独立标注 vs USDC 用户级对话轨迹
  • vs Fast & Horvitz (2016):随机抽帖 + 限制 200-300 字符 + 数据不公开 vs USDC 全对话 + 公开
  • vs MT-CDS (Niu et al.):多目标多轮立场检测 vs USDC 用户级观点动态追踪

评分

  • 新颖性: ⭐⭐⭐⭐ 用户级对话观点追踪 + LLM 多数投票标注管线
  • 实验充分度: ⭐⭐⭐⭐ 7 SLM + 200 人工验证 + 迁移学习 + 多标注源对比
  • 写作质量: ⭐⭐⭐⭐ Figure 1 案例清晰展示用户观点变化
  • 价值: ⭐⭐⭐⭐ 社会计算实用资源,对舆情分析和用户建模有直接价值