USDC: A Dataset of User Stance and Dogmatism in Long Conversations¶

会议: ACL 2025 (Findings) arXiv: 2406.16833 代码: GitHub 领域: NLP理解 / 社会计算 关键词: stance detection, dogmatism, conversation, Reddit, LLM annotation, opinion dynamics

一句话总结¶

构建 USDC——首个用户级长对话立场和教条主义数据集，764 个多用户 Reddit 对话（22 子版块），用 {Mistral Large, GPT-4} × {zero/one/few-shot} 共 6 设置多数投票标注立场(5级)+教条程度(4级)，并用 7 个 SLM 微调/指令微调建立基线。

研究背景与动机¶

领域现状：分析用户观点波动对个性化推荐、舆情监控、政治分析至关重要。已有立场检测数据集（SPINOS、MT-CDS、Twitter-stance）聚焦帖子级，将每个帖子视为独立样本。
现有痛点：(a) 不追踪同一用户跨帖子的观点演变——只看单帖无法理解用户是否改变立场；(b) 人工标注长对话极耗时——需读完整个对话才能判断用户观点；(c) 微妙的观点转变难以捕捉——用户常常隐含地改变立场。
核心矛盾：如何大规模标注长对话中用户的观点动态？人工标注成本高质量低，且受限于标注者的领域知识。
切入角度：LLM 标注——用两个强 LLM 在三种 in-context 设置下标注，6 个设置多数投票作为最终标注。LLM 不疲劳且有长程记忆，可能比人类更擅长长对话理解。
核心 idea：从帖子级到用户级的范式升级——追踪同一用户在整个对话中的观点轨迹。

方法详解¶

数据构建¶

Reddit 数据收集：
来源：22 个子版块，2019 年数据，初始爬取 3619 个对话
质量过滤：文本内容 + 非删除/移除 + 20-70 条评论 + 至少两个活跃用户覆盖约 50% 评论
最终：764 个长对话，每个对话提取 top-2 最活跃用户
LLM 标注流程：
将对话转为嵌套 JSON 格式（保持 Reddit 层级结构）
系统 prompt 包含立场和教条的定义、标注指南、标签说明
6 设置：{Mistral Large, GPT-4} × {zero-shot, one-shot, few-shot}
最终标注：多数投票；无明确多数时用 GPT-4 few-shot 作为决定性标注
两个标注任务：
立场检测（5 级）：强支持(SOIF)、有些支持(SIF)、不可推断(SNI)、有些反对(SGA)、强反对(SOA)——针对每个帖子
教条识别（4 级）：开放对话(Open to Dialogue)、坚定但开放(Firm but Open)、灵活(Flexible)、根深蒂固(Deeply Rooted)——针对用户整体
人工验证：200 个测试对话由 3 名人类标注者标注
LLM vs 人类 IAA：立场 κ=0.49，教条 κ=0.50
人类之间 IAA：立场 κ=0.57，教条 κ=0.52

SLM 微调/指令微调¶

7 个模型：LLaMA-2-7B/chat、LLaMA-3-8B/instruct、Falcon-7B/instruct、Vicuna-7B-v.1.5
4-bit 量化 + LoRA 微调
立场：每帖独立样本；教条：拼接用户所有帖子为单样本

实验关键数据¶

分类性能（加权 F1）¶

方法	立场 F1	教条 F1
未微调基线	~31%	~40%
微调最佳 (Majority Voting)	54.9	51.4
指令微调最佳 (Majority Voting)	56.2	49.2

消融：不同标注源作为训练标签¶

标注源	立场 F1 范围	教条 F1 范围
GPT-4 ZS/OS/FS	51-55	42-50
Mistral Large ZS/OS/FS	34-50	37-50
多数投票	54-56	43-51

关键发现¶

多数投票标注最稳定：在所有 SLM 上，用多数投票标注训练的性能最一致
立场适合指令微调（56.2）、教条适合微调（51.4）——最优训练策略与任务特性相关
LLaMA-3 系列表现最好：LLaMA-3-8B-instruct 在两个任务上均为最优或接近最优
"lost in the middle" 效应微弱：LLM 在长对话标注中表现稳定，不受对话中间位置信息丢失影响
迁移学习有效：USDC 微调后在 SPINOS 上可比较或超越先前研究，验证了数据集的迁移价值
GPT-4 few-shot 标注质量最高：与人类标注一致性最好，因此用于多数投票平局裁决

亮点与洞察¶

从帖子到用户级追踪观点演变——更接近真实动态。已有数据集把每帖独立，丢失了用户立场变化信息
6 设置多数投票比单 LLM 更鲁棒：跨模型、跨设置的集成降低了单一模型偏差
LLM 长对话标注优于人类：不疲劳 + 长程记忆使 LLM 在长对话理解上有天然优势
数据集覆盖广泛：22 个子版块涵盖政治、宗教、文化、经济等多主题

局限性 / 可改进方向¶

标注一致性中等（κ~0.5）：观点标注本身主观性强，但与已有数据集（Fast & Horvitz 2016 的 0.44）可比
仅英语 Reddit：无法覆盖其他语言和平台（Twitter/微博等）的讨论特征
仅追踪 top-2 活跃用户（覆盖 47% 帖子）：忽略了其他参与者的观点
JSON 解析偶发错误：约 15 例 LLM 输出格式不符需手动修复

评分¶

新颖性: ⭐⭐⭐⭐ 用户级对话观点追踪 + LLM 多数投票标注管线
实验充分度: ⭐⭐⭐⭐ 7 SLM + 200 人工验证 + 迁移学习 + 多标注源对比
写作质量: ⭐⭐⭐⭐ Figure 1 案例清晰展示用户观点变化
价值: ⭐⭐⭐⭐ 社会计算实用资源，对舆情分析和用户建模有直接价值