Donate or Create? Comparing Data Collection Strategies for Emotion-labeled Multimodal Social Media Posts - 📚 AI Paper Notes

跳转至

📚 AI Paper Notes

Donate or Create? Comparing Data Collection Strategies for Emotion-labeled Multimodal Social Media Posts

会议: ACL 2025
arXiv: 2505.24427
代码: 无
领域: 多模态VLM
关键词: emotion detection, data collection, multimodal, social media, donated vs created data

一句话总结¶

系统比较了两种情感标注数据的收集策略——"捐赠"真实社交媒体帖子 vs "创造"帖子——发现创造的帖子更长、更依赖文本、偏向原型化情感事件，但用创造数据训练的模型可以很好泛化到真实数据，只是需要真实数据来做靠谱的效果评估。

研究背景与动机¶

领域现状：情感是沟通的核心，社交媒体上作者常通过文本+图像组合表达情感。建模情感需要标注了作者意图的多模态数据集。但情感是内部心理状态，外部标注者只能近似。
现有痛点：两种常见的数据收集方式各有问题：(1) "创造"数据——让参与者按提示写内容，简单易行但可能不像真实数据；(2) "捐赠"数据——让用户提交真实帖子，数据更真实但涉及隐私问题且实施困难。社区对这两种策略的差异和影响缺乏定量了解。
核心矛盾：不清楚"创造"数据和"真实"数据到底有多大差异，这些差异是否影响模型性能和泛化能力。
本文要解决什么？ 在相同实验框架下同时收集"创造"和"捐赠"两种多模态社交媒体帖子，多维度比较它们的差异，评估对模型的影响。
切入角度：三种收集策略并行——Creation（参与者创造帖子）、Donation（参与者捐赠过去的帖子）、Recent（参与者提交最近 5 条帖子后标注情感）。
核心 idea 一句话：首次在统一框架下定量比较创造 vs 捐赠数据的特征差异及其对多模态情感模型的影响。

方法详解¶

整体框架¶

三阶段研究：(1) 数据收集——三种策略并行收集多模态帖子 (2) 多维度数据分析——比较内容特征、标注分布、参与者人口统计 (3) 模型实验——跨源训练和测试评估泛化能力。

关键设计¶

三种数据收集策略:
Creation: 参与者被提示创造一个关于引发特定情感的事件的社交媒体帖子（文本+图片），获取作者标注的情感标签。
Donation: 参与者从自己的社交媒体提交过去发的帖子，选择与提示情感匹配的帖子并标注。
Recent: 参与者提交最近 5 条帖子（不按情感筛选），然后标注每条的情感。避免了情感选择偏差但可能低估罕见情感。
设计动机：三管齐下才能区分"创造 vs 真实"的差异来源是方法本身还是其他因素（如参与者自选偏差）。
丰富的标注维度:
做什么：除情感标签外，还收集文本-图像关系（5个评分维度）、事件体验（持续时间、强度）、评估维度（熟悉度、可预测性、注意力等）。
设计动机：单纯比较情感标签不够，需要理解数据在多个层面的差异才能解释模型行为差异。
跨源模型实验设计:
做什么：用一种来源的数据训练，在不同来源的数据上测试。如用 Creation 训练→Donation 测试，评估跨域泛化。
设计动机：这是最清晰的方式来回答"创造数据训练的模型能否用于真实数据"。

实验关键数据¶

主实验（数据特征对比）¶

维度	Creation (创造)	Donation (捐赠)	Recent (最近)
帖子平均长度	最长	中等	最短
文本传达情感评分	更高	更低	更低
图像传达情感评分	更低	更高	更高
图像必要性	更低	更高	更高
情感事件原型性	高（典型事件）	低（多样化事件）	低
参与者人口统计	偏年轻/女性	偏年长	接近 Donation

消融实验（跨源模型性能）¶

训练数据 → 测试数据	F1 Score	说明
Creation → Creation	较高	同源测试偏乐观
Creation → Donation	泛化良好	创造数据训练可用于真实数据
Donation → Creation	也可泛化	但性能不如反向
Creation → Creation (效果评估)	高估真实性能	不能用创造数据测试来估计真实效果
Creation → Donation (效果评估)	更准确	需要真实数据评估

关键发现¶

创造帖子更依赖文本，真实帖子更依赖图像：创造帖子中文本传达情感的比例更高，因为真实社交媒体中图片本身往往是情感表达的主要载体。
创造数据偏向原型化事件：如"难过"→亲人去世、"开心"→生日庆祝。真实数据的情感触发更多样化。
参与者自选偏差：愿意创造帖子 vs 愿意捐赠帖子的人在人口统计上有显著差异，这本身就是数据偏差的来源。
训练泛化没问题，评估需要真实数据：用创造数据训练的模型在真实数据上表现良好，但不能用创造数据的测试性能来估计在真实数据上的效果——会高估。

亮点与洞察¶

方法论贡献大于技术贡献：这篇论文最大价值是为 NLP 社区提供了关于数据收集策略的经验性证据。以前大家"感觉"创造数据不如真实数据，但缺乏定量比较。
"图像更重要"的发现值得注意：真实社交媒体帖子比创造的更依赖图像传达情感，这意味着用创造数据训练的模型可能 underweight 图像特征。
实验设计可迁移：三种收集策略 + 跨源训练/测试 + 多维度分析的实验框架，可以直接迁移到其他主观标注任务（如讽刺检测、立场检测）。

局限性 / 可改进方向¶

数据规模较小，可能不足以得出普遍性结论。
仅关注情感检测任务，其他主观任务（如讽刺、观点）的表现可能不同。
缺乏模型层面的深度分析（如哪些特征在跨源泛化中最重要）。
参与者主要来自英语社区，跨文化适用性未验证。

相关工作与启发¶

vs Troiano et al. (2023): 之前研究了纯文本情感创造数据 vs 标注数据的差异；本文扩展到多模态并加入捐赠真实数据的直接比较。
vs Oprea & Magdy (2020): 提出了社交媒体数据捐赠方法；本文首次定量比较了捐赠和创造策略的差异。

评分¶

新颖性: ⭐⭐⭐ 问题有实际价值但技术方法较常规
实验充分度: ⭐⭐⭐⭐ 多维度对比分析很全面
写作质量: ⭐⭐⭐⭐ 清晰客观，实验设计透明
价值: ⭐⭐⭐⭐ 为数据收集策略提供了重要的经验性指导