Explicit and Implicit Data Augmentation for Social Event Detection¶

属性	内容
标题	Explicit and Implicit Data Augmentation for Social Event Detection
会议	ACL2025
arXiv	2509.04202
代码	github.com/congboma/SED-Aug
领域	Others / Social Event Detection
关键词	Social Event Detection, Data Augmentation, LLM, Feature Perturbation, Graph Neural Network

一句话总结¶

本文提出SED-Aug，一个结合显式（LLM文本增强）和隐式（特征空间扰动）的双重数据增强框架用于社交事件检测，在Twitter2012和Twitter2018上分别超越最优基线17.67%和15.57%的平均F1。

研究背景与动机¶

社交事件检测（SED）：从社交媒体中识别和分类重要事件，是危机管理、舆情分析和金融市场分析的重要工具
核心挑战：SED高度依赖标注数据，但标注成本高且费力，限制了模型在多样事件上下文中的泛化能力
现有方法局限：
- 图方法（如GraphHAM、ETGNN）利用了文本和结构信息，但未充分利用数据增强来提升数据多样性
- LLM擅长文本增强但不擅处理图数据
- 纯文本增强忽视了用户和事件交互的结构信息
研究空白：LLM从未被应用于SED任务的数据增强；缺乏同时覆盖文本和结构信息的双重增强框架

方法详解¶

整体框架¶

SED-Aug是一个即插即用的双重数据增强框架，分两阶段： 1. 显式增强：用LLM增强社交消息的文本内容 2. 隐式增强：在特征空间对结构融合嵌入进行扰动

处理流程：原始消息 → LLM文本增强 → 增强消息+原始消息+结构数据 → 预训练语言模型提取嵌入 → 构建社交图 → 图聚合得到结构融合嵌入 → 特征空间扰动 → 分类

显式数据增强（5种策略）¶

通过LLM生成 $m_i^k = LLM^k(m_i)$，其中 $k$ 代表不同增强类型：

策略	说明
Paraphrasing	在保持语义不变的前提下改写措辞和结构
Adding Context	增加相关上下文信息，丰富消息的理解和清晰度
Style Transfer	修改写作风格（语气、正式程度等）但保持核心含义
Keep Entity Unchanged	修改文本但保持关键实体（人名、地点、日期等）不变
Extract & Rewrite（两阶段）	先用LLM提取关键信息（关键词/实体/知识图谱），再生成新版本消息

隐式数据增强（5种扰动方法）¶

对结构融合嵌入 $g^i$ 进行扰动，训练时以概率 $\alpha$ 决定使用增强版本还是原始版本：

1. Gaussian Perturbation (GP)： $$g^i_{GP} = g^i + n_{GP}, \quad n_{GP} \sim \mathcal{N}(0, \sigma^2)$$ 直接添加固定标准差的高斯噪声。

2. Proportional Gaussian Perturbation (PGP)： $$g^i_{PGP} = g^i + n_{PGP}, \quad n_{PGP} \sim \mathcal{N}(0, \sigma^2) \cdot G$$ 噪声与特征值成比例，避免噪声相对数据规模过大或过小。

3. In-Distribution Gaussian Perturbation (IDGP)： $$g^i_{IDGP} = g^i + n_{IDGP}, \quad n_{IDGP} \sim \mathcal{N}(0, \alpha \cdot \text{std}(G)^2)$$ 噪声标准差基于输入数据自身的统计特性，自适应地匹配数据分布。

4. Clipped Gaussian Perturbation (CGP)： $$g^i_{CGP} = g^i + \text{Clip}(n_{CGP}, c), \quad n_{CGP} \sim \mathcal{N}(0, \sigma^2)$$ 将噪声截断在 $[-c, c]$ 范围内，防止极端扰动。

5. Frequency-Domain Perturbation (FDP)： $$F^i = \mathcal{F}(g^i) \rightarrow F^i_{filtered} \rightarrow F^i_{FDP} = F^i_{filtered} + n \rightarrow g^i_{FDP} = \mathcal{F}^{-1}(F^i_{FDP})$$ 傅里叶变换到频域 → 选择性保留频率分量 → 添加噪声 → 逆变换回时域。可以有针对性地增强特定频率分量。

实验¶

主实验：整体性能比较¶

方法	Kawarith6 Avg	Twitter2012 Avg	Twitter2018 Avg
TF-IDF	92.68	50.97	31.30
BERT	75.99	60.24	43.73
GraphMSE	94.35	73.87	71.46
GraphHAM	94.84	77.57	76.16
SED-Aug	98.35	91.28	88.02
提升	+3.70↑	+17.67↑	+15.57↑

SED-Aug在所有数据集上全面超越基线，尤其在Twitter2012和Twitter2018上提升巨大。

消融实验¶

显式增强方法对比： - "Keep Entity Unchanged"在所有数据集上一致表现最好（Twitter2012 Micro F1: 92.76） - "Style Transfer"效果最弱但仍有明显提升 - 保持实体信息对SED至关重要，因为实体是区分和理解事件的关键

隐式增强方法对比： - PGP在Kawarith6和Twitter2018表现最好 - CGP在Twitter2012的Micro F1最高 - 所有5种隐式方法都持续提升Macro F1，尤其在类别不平衡的Twitter2018（从82.14%→86.43%） - 隐式增强对少数类别（稀有事件）的帮助最大

显式+隐式组合： - 隐式增强与显式增强组合始终带来额外收益，无性能下降 - 即使与最弱的显式方法组合也有正向效果

Extract & Rewrite的信息类型对比¶

信息类型	Kawarith6	Twitter2012	Twitter2018
Keywords	最优	最优	第二
Entities	第二	第二	最优
Knowledge Graph	第三	第三	第三

关键词最有效，其次是实体，知识图谱效果最弱。

频域扰动模式分析¶

保留高频分量（即衰减低频）效果最好，因为低频分量包含语义结构的关键信息，保留它们并对高频噪声进行操作更合理。

低资源场景¶

训练数据比例	无增强	有增强	提升
10%	68.86	75.94	+10.29
20%	75.80	82.71	+9.12
50%	82.07	88.66	+8.03
70%	85.71	91.28	+6.50

在数据极度稀缺（10%）时增强效果最显著；无增强在30%后性能停滞，双重增强则持续提升。

可视化分析¶

直方图显示增强前后特征分布形状基本一致，仅方差略增（0.3284→0.3302），符合"不改变均值只增加多样性"的设计目标
PCA可视化显示增强点与原始点高度重叠但有细微差异

亮点与洞察¶

首次将LLM应用于SED数据增强：开辟了社交事件检测利用LLM的新方向
双重增强互补设计：显式增强丰富文本多样性，隐式增强在特征空间引入结构感知的变化，两者互补无冲突
即插即用：框架与底层SED模型解耦，可以无缝集成到任何基于图的SED方法中
对类别不平衡的有效缓解：隐式增强在不平衡数据集上效果尤为突出，显著提升少数类的识别能力
训练时增强、推理时无需LLM：LLM仅在数据准备阶段使用，推理时不产生额外开销

局限性¶

缺乏确定最优增强数据量的明确标准——增强过多可能引入噪声和冗余，过少则效果不足
LLM添加上下文信息可能引入幻觉（实验发现约6%的虚假声明）
5种显式方法 × 5种隐式方法 × 多个数据集的组合空间巨大，未能穷尽所有组合
增强效果依赖于底层LLM的质量，不同LLM可能产生不同结果

评分 ⭐⭐⭐⭐¶

优点：框架设计清晰，显式和隐式增强的设计都有充分的动机和理论支撑；实验非常全面（6个研究问题逐一回答）；提升幅度巨大（15-17%平均F1）。

不足：增强方法本身并非特别新颖（高斯扰动等较为基础）；频域扰动的设计缺乏更深入的理论分析；缺少与其他数据增强方法（如Mixup, CutMix等）的对比。