USDC: A Dataset of User Stance and Dogmatism in Long Conversations¶
会议: ACL 2025 (Findings) arXiv: 2406.16833 代码: GitHub 领域: NLP理解 / 社会计算 关键词: stance detection, dogmatism, conversation, Reddit, LLM annotation, opinion dynamics
一句话总结¶
构建 USDC——首个用户级长对话立场和教条主义数据集,764 个多用户 Reddit 对话(22 子版块),用 {Mistral Large, GPT-4} × {zero/one/few-shot} 共 6 设置多数投票标注立场(5级)+教条程度(4级),并用 7 个 SLM 微调/指令微调建立基线。
研究背景与动机¶
- 领域现状:分析用户观点波动对个性化推荐、舆情监控、政治分析至关重要。已有立场检测数据集(SPINOS、MT-CDS、Twitter-stance)聚焦帖子级,将每个帖子视为独立样本。
- 现有痛点:(a) 不追踪同一用户跨帖子的观点演变——只看单帖无法理解用户是否改变立场;(b) 人工标注长对话极耗时——需读完整个对话才能判断用户观点;(c) 微妙的观点转变难以捕捉——用户常常隐含地改变立场。
- 核心矛盾:如何大规模标注长对话中用户的观点动态?人工标注成本高质量低,且受限于标注者的领域知识。
- 切入角度:LLM 标注——用两个强 LLM 在三种 in-context 设置下标注,6 个设置多数投票作为最终标注。LLM 不疲劳且有长程记忆,可能比人类更擅长长对话理解。
- 核心 idea:从帖子级到用户级的范式升级——追踪同一用户在整个对话中的观点轨迹。
方法详解¶
数据构建¶
- Reddit 数据收集:
- 来源:22 个子版块,2019 年数据,初始爬取 3619 个对话
- 质量过滤:文本内容 + 非删除/移除 + 20-70 条评论 + 至少两个活跃用户覆盖约 50% 评论
-
最终:764 个长对话,每个对话提取 top-2 最活跃用户
-
LLM 标注流程:
- 将对话转为嵌套 JSON 格式(保持 Reddit 层级结构)
- 系统 prompt 包含立场和教条的定义、标注指南、标签说明
- 6 设置:{Mistral Large, GPT-4} × {zero-shot, one-shot, few-shot}
-
最终标注:多数投票;无明确多数时用 GPT-4 few-shot 作为决定性标注
-
两个标注任务:
- 立场检测(5 级):强支持(SOIF)、有些支持(SIF)、不可推断(SNI)、有些反对(SGA)、强反对(SOA)——针对每个帖子
-
教条识别(4 级):开放对话(Open to Dialogue)、坚定但开放(Firm but Open)、灵活(Flexible)、根深蒂固(Deeply Rooted)——针对用户整体
-
人工验证:200 个测试对话由 3 名人类标注者标注
- LLM vs 人类 IAA:立场 κ=0.49,教条 κ=0.50
- 人类之间 IAA:立场 κ=0.57,教条 κ=0.52
SLM 微调/指令微调¶
- 7 个模型:LLaMA-2-7B/chat、LLaMA-3-8B/instruct、Falcon-7B/instruct、Vicuna-7B-v.1.5
- 4-bit 量化 + LoRA 微调
- 立场:每帖独立样本;教条:拼接用户所有帖子为单样本
实验关键数据¶
分类性能(加权 F1)¶
| 方法 | 立场 F1 | 教条 F1 |
|---|---|---|
| 未微调基线 | ~31% | ~40% |
| 微调最佳 (Majority Voting) | 54.9 | 51.4 |
| 指令微调最佳 (Majority Voting) | 56.2 | 49.2 |
消融:不同标注源作为训练标签¶
| 标注源 | 立场 F1 范围 | 教条 F1 范围 |
|---|---|---|
| GPT-4 ZS/OS/FS | 51-55 | 42-50 |
| Mistral Large ZS/OS/FS | 34-50 | 37-50 |
| 多数投票 | 54-56 | 43-51 |
关键发现¶
- 多数投票标注最稳定:在所有 SLM 上,用多数投票标注训练的性能最一致
- 立场适合指令微调(56.2)、教条适合微调(51.4)——最优训练策略与任务特性相关
- LLaMA-3 系列表现最好:LLaMA-3-8B-instruct 在两个任务上均为最优或接近最优
- "lost in the middle" 效应微弱:LLM 在长对话标注中表现稳定,不受对话中间位置信息丢失影响
- 迁移学习有效:USDC 微调后在 SPINOS 上可比较或超越先前研究,验证了数据集的迁移价值
- GPT-4 few-shot 标注质量最高:与人类标注一致性最好,因此用于多数投票平局裁决
亮点与洞察¶
- 从帖子到用户级追踪观点演变——更接近真实动态。已有数据集把每帖独立,丢失了用户立场变化信息
- 6 设置多数投票比单 LLM 更鲁棒:跨模型、跨设置的集成降低了单一模型偏差
- LLM 长对话标注优于人类:不疲劳 + 长程记忆使 LLM 在长对话理解上有天然优势
- 数据集覆盖广泛:22 个子版块涵盖政治、宗教、文化、经济等多主题
局限性 / 可改进方向¶
- 标注一致性中等(κ~0.5):观点标注本身主观性强,但与已有数据集(Fast & Horvitz 2016 的 0.44)可比
- 仅英语 Reddit:无法覆盖其他语言和平台(Twitter/微博等)的讨论特征
- 仅追踪 top-2 活跃用户(覆盖 47% 帖子):忽略了其他参与者的观点
- JSON 解析偶发错误:约 15 例 LLM 输出格式不符需手动修复
相关工作与启发¶
- vs SPINOS (Sakketou et al.):帖子级独立标注 vs USDC 用户级对话轨迹
- vs Fast & Horvitz (2016):随机抽帖 + 限制 200-300 字符 + 数据不公开 vs USDC 全对话 + 公开
- vs MT-CDS (Niu et al.):多目标多轮立场检测 vs USDC 用户级观点动态追踪
评分¶
- 新颖性: ⭐⭐⭐⭐ 用户级对话观点追踪 + LLM 多数投票标注管线
- 实验充分度: ⭐⭐⭐⭐ 7 SLM + 200 人工验证 + 迁移学习 + 多标注源对比
- 写作质量: ⭐⭐⭐⭐ Figure 1 案例清晰展示用户观点变化
- 价值: ⭐⭐⭐⭐ 社会计算实用资源,对舆情分析和用户建模有直接价值