跳转至

Donate or Create? Comparing Data Collection Strategies for Emotion-labeled Multimodal Social Media Posts

会议: ACL 2025
arXiv: 2505.24427
代码: 无
领域: 多模态VLM
关键词: emotion detection, data collection, multimodal, social media, donated vs created data

一句话总结

系统比较了两种情感标注数据的收集策略——"捐赠"真实社交媒体帖子 vs "创造"帖子——发现创造的帖子更长、更依赖文本、偏向原型化情感事件,但用创造数据训练的模型可以很好泛化到真实数据,只是需要真实数据来做靠谱的效果评估。

研究背景与动机

  1. 领域现状:情感是沟通的核心,社交媒体上作者常通过文本+图像组合表达情感。建模情感需要标注了作者意图的多模态数据集。但情感是内部心理状态,外部标注者只能近似。
  2. 现有痛点:两种常见的数据收集方式各有问题:(1) "创造"数据——让参与者按提示写内容,简单易行但可能不像真实数据;(2) "捐赠"数据——让用户提交真实帖子,数据更真实但涉及隐私问题且实施困难。社区对这两种策略的差异和影响缺乏定量了解。
  3. 核心矛盾:不清楚"创造"数据和"真实"数据到底有多大差异,这些差异是否影响模型性能和泛化能力。
  4. 本文要解决什么? 在相同实验框架下同时收集"创造"和"捐赠"两种多模态社交媒体帖子,多维度比较它们的差异,评估对模型的影响。
  5. 切入角度:三种收集策略并行——Creation(参与者创造帖子)、Donation(参与者捐赠过去的帖子)、Recent(参与者提交最近 5 条帖子后标注情感)。
  6. 核心 idea 一句话:首次在统一框架下定量比较创造 vs 捐赠数据的特征差异及其对多模态情感模型的影响。

方法详解

整体框架

三阶段研究:(1) 数据收集——三种策略并行收集多模态帖子 (2) 多维度数据分析——比较内容特征、标注分布、参与者人口统计 (3) 模型实验——跨源训练和测试评估泛化能力。

关键设计

  1. 三种数据收集策略:
  2. Creation: 参与者被提示创造一个关于引发特定情感的事件的社交媒体帖子(文本+图片),获取作者标注的情感标签。
  3. Donation: 参与者从自己的社交媒体提交过去发的帖子,选择与提示情感匹配的帖子并标注。
  4. Recent: 参与者提交最近 5 条帖子(不按情感筛选),然后标注每条的情感。避免了情感选择偏差但可能低估罕见情感。
  5. 设计动机:三管齐下才能区分"创造 vs 真实"的差异来源是方法本身还是其他因素(如参与者自选偏差)。

  6. 丰富的标注维度:

  7. 做什么:除情感标签外,还收集文本-图像关系(5个评分维度)、事件体验(持续时间、强度)、评估维度(熟悉度、可预测性、注意力等)。
  8. 设计动机:单纯比较情感标签不够,需要理解数据在多个层面的差异才能解释模型行为差异。

  9. 跨源模型实验设计:

  10. 做什么:用一种来源的数据训练,在不同来源的数据上测试。如用 Creation 训练→Donation 测试,评估跨域泛化。
  11. 设计动机:这是最清晰的方式来回答"创造数据训练的模型能否用于真实数据"。

实验关键数据

主实验(数据特征对比)

维度 Creation (创造) Donation (捐赠) Recent (最近)
帖子平均长度 最长 中等 最短
文本传达情感评分 更高 更低 更低
图像传达情感评分 更低 更高 更高
图像必要性 更低 更高 更高
情感事件原型性 (典型事件) 低(多样化事件)
参与者人口统计 偏年轻/女性 偏年长 接近 Donation

消融实验(跨源模型性能)

训练数据 → 测试数据 F1 Score 说明
Creation → Creation 较高 同源测试偏乐观
Creation → Donation 泛化良好 创造数据训练可用于真实数据
Donation → Creation 也可泛化 但性能不如反向
Creation → Creation (效果评估) 高估真实性能 不能用创造数据测试来估计真实效果
Creation → Donation (效果评估) 更准确 需要真实数据评估

关键发现

  • 创造帖子更依赖文本,真实帖子更依赖图像:创造帖子中文本传达情感的比例更高,因为真实社交媒体中图片本身往往是情感表达的主要载体。
  • 创造数据偏向原型化事件:如"难过"→亲人去世、"开心"→生日庆祝。真实数据的情感触发更多样化。
  • 参与者自选偏差:愿意创造帖子 vs 愿意捐赠帖子的人在人口统计上有显著差异,这本身就是数据偏差的来源。
  • 训练泛化没问题,评估需要真实数据:用创造数据训练的模型在真实数据上表现良好,但不能用创造数据的测试性能来估计在真实数据上的效果——会高估。

亮点与洞察

  • 方法论贡献大于技术贡献:这篇论文最大价值是为 NLP 社区提供了关于数据收集策略的经验性证据。以前大家"感觉"创造数据不如真实数据,但缺乏定量比较。
  • "图像更重要"的发现值得注意:真实社交媒体帖子比创造的更依赖图像传达情感,这意味着用创造数据训练的模型可能 underweight 图像特征。
  • 实验设计可迁移:三种收集策略 + 跨源训练/测试 + 多维度分析的实验框架,可以直接迁移到其他主观标注任务(如讽刺检测、立场检测)。

局限性 / 可改进方向

  • 数据规模较小,可能不足以得出普遍性结论。
  • 仅关注情感检测任务,其他主观任务(如讽刺、观点)的表现可能不同。
  • 缺乏模型层面的深度分析(如哪些特征在跨源泛化中最重要)。
  • 参与者主要来自英语社区,跨文化适用性未验证。

相关工作与启发

  • vs Troiano et al. (2023): 之前研究了纯文本情感创造数据 vs 标注数据的差异;本文扩展到多模态并加入捐赠真实数据的直接比较。
  • vs Oprea & Magdy (2020): 提出了社交媒体数据捐赠方法;本文首次定量比较了捐赠和创造策略的差异。

评分

  • 新颖性: ⭐⭐⭐ 问题有实际价值但技术方法较常规
  • 实验充分度: ⭐⭐⭐⭐ 多维度对比分析很全面
  • 写作质量: ⭐⭐⭐⭐ 清晰客观,实验设计透明
  • 价值: ⭐⭐⭐⭐ 为数据收集策略提供了重要的经验性指导