Donate or Create? Comparing Data Collection Strategies for Emotion-labeled Multimodal Social Media Posts¶
会议: ACL 2025
arXiv: 2505.24427
代码: 无
领域: 多模态VLM
关键词: emotion detection, data collection, multimodal, social media, donated vs created data
一句话总结¶
系统比较了两种情感标注数据的收集策略——"捐赠"真实社交媒体帖子 vs "创造"帖子——发现创造的帖子更长、更依赖文本、偏向原型化情感事件,但用创造数据训练的模型可以很好泛化到真实数据,只是需要真实数据来做靠谱的效果评估。
研究背景与动机¶
- 领域现状:情感是沟通的核心,社交媒体上作者常通过文本+图像组合表达情感。建模情感需要标注了作者意图的多模态数据集。但情感是内部心理状态,外部标注者只能近似。
- 现有痛点:两种常见的数据收集方式各有问题:(1) "创造"数据——让参与者按提示写内容,简单易行但可能不像真实数据;(2) "捐赠"数据——让用户提交真实帖子,数据更真实但涉及隐私问题且实施困难。社区对这两种策略的差异和影响缺乏定量了解。
- 核心矛盾:不清楚"创造"数据和"真实"数据到底有多大差异,这些差异是否影响模型性能和泛化能力。
- 本文要解决什么? 在相同实验框架下同时收集"创造"和"捐赠"两种多模态社交媒体帖子,多维度比较它们的差异,评估对模型的影响。
- 切入角度:三种收集策略并行——Creation(参与者创造帖子)、Donation(参与者捐赠过去的帖子)、Recent(参与者提交最近 5 条帖子后标注情感)。
- 核心 idea 一句话:首次在统一框架下定量比较创造 vs 捐赠数据的特征差异及其对多模态情感模型的影响。
方法详解¶
整体框架¶
三阶段研究:(1) 数据收集——三种策略并行收集多模态帖子 (2) 多维度数据分析——比较内容特征、标注分布、参与者人口统计 (3) 模型实验——跨源训练和测试评估泛化能力。
关键设计¶
- 三种数据收集策略:
- Creation: 参与者被提示创造一个关于引发特定情感的事件的社交媒体帖子(文本+图片),获取作者标注的情感标签。
- Donation: 参与者从自己的社交媒体提交过去发的帖子,选择与提示情感匹配的帖子并标注。
- Recent: 参与者提交最近 5 条帖子(不按情感筛选),然后标注每条的情感。避免了情感选择偏差但可能低估罕见情感。
-
设计动机:三管齐下才能区分"创造 vs 真实"的差异来源是方法本身还是其他因素(如参与者自选偏差)。
-
丰富的标注维度:
- 做什么:除情感标签外,还收集文本-图像关系(5个评分维度)、事件体验(持续时间、强度)、评估维度(熟悉度、可预测性、注意力等)。
-
设计动机:单纯比较情感标签不够,需要理解数据在多个层面的差异才能解释模型行为差异。
-
跨源模型实验设计:
- 做什么:用一种来源的数据训练,在不同来源的数据上测试。如用 Creation 训练→Donation 测试,评估跨域泛化。
- 设计动机:这是最清晰的方式来回答"创造数据训练的模型能否用于真实数据"。
实验关键数据¶
主实验(数据特征对比)¶
| 维度 | Creation (创造) | Donation (捐赠) | Recent (最近) |
|---|---|---|---|
| 帖子平均长度 | 最长 | 中等 | 最短 |
| 文本传达情感评分 | 更高 | 更低 | 更低 |
| 图像传达情感评分 | 更低 | 更高 | 更高 |
| 图像必要性 | 更低 | 更高 | 更高 |
| 情感事件原型性 | 高(典型事件) | 低(多样化事件) | 低 |
| 参与者人口统计 | 偏年轻/女性 | 偏年长 | 接近 Donation |
消融实验(跨源模型性能)¶
| 训练数据 → 测试数据 | F1 Score | 说明 |
|---|---|---|
| Creation → Creation | 较高 | 同源测试偏乐观 |
| Creation → Donation | 泛化良好 | 创造数据训练可用于真实数据 |
| Donation → Creation | 也可泛化 | 但性能不如反向 |
| Creation → Creation (效果评估) | 高估真实性能 | 不能用创造数据测试来估计真实效果 |
| Creation → Donation (效果评估) | 更准确 | 需要真实数据评估 |
关键发现¶
- 创造帖子更依赖文本,真实帖子更依赖图像:创造帖子中文本传达情感的比例更高,因为真实社交媒体中图片本身往往是情感表达的主要载体。
- 创造数据偏向原型化事件:如"难过"→亲人去世、"开心"→生日庆祝。真实数据的情感触发更多样化。
- 参与者自选偏差:愿意创造帖子 vs 愿意捐赠帖子的人在人口统计上有显著差异,这本身就是数据偏差的来源。
- 训练泛化没问题,评估需要真实数据:用创造数据训练的模型在真实数据上表现良好,但不能用创造数据的测试性能来估计在真实数据上的效果——会高估。
亮点与洞察¶
- 方法论贡献大于技术贡献:这篇论文最大价值是为 NLP 社区提供了关于数据收集策略的经验性证据。以前大家"感觉"创造数据不如真实数据,但缺乏定量比较。
- "图像更重要"的发现值得注意:真实社交媒体帖子比创造的更依赖图像传达情感,这意味着用创造数据训练的模型可能 underweight 图像特征。
- 实验设计可迁移:三种收集策略 + 跨源训练/测试 + 多维度分析的实验框架,可以直接迁移到其他主观标注任务(如讽刺检测、立场检测)。
局限性 / 可改进方向¶
- 数据规模较小,可能不足以得出普遍性结论。
- 仅关注情感检测任务,其他主观任务(如讽刺、观点)的表现可能不同。
- 缺乏模型层面的深度分析(如哪些特征在跨源泛化中最重要)。
- 参与者主要来自英语社区,跨文化适用性未验证。
相关工作与启发¶
- vs Troiano et al. (2023): 之前研究了纯文本情感创造数据 vs 标注数据的差异;本文扩展到多模态并加入捐赠真实数据的直接比较。
- vs Oprea & Magdy (2020): 提出了社交媒体数据捐赠方法;本文首次定量比较了捐赠和创造策略的差异。
评分¶
- 新颖性: ⭐⭐⭐ 问题有实际价值但技术方法较常规
- 实验充分度: ⭐⭐⭐⭐ 多维度对比分析很全面
- 写作质量: ⭐⭐⭐⭐ 清晰客观,实验设计透明
- 价值: ⭐⭐⭐⭐ 为数据收集策略提供了重要的经验性指导