COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation¶
会议: ACL 2025
arXiv: 2506.15372
代码: https://github.com/AaryanSahu/COSMMIC
领域: 文本生成
关键词: multilingual, multimodal, Indian languages, summarization, reader comments
一句话总结¶
构建首个面向印度语言的评论感知多模态多语言数据集 COSMMIC(9 种语言、4,959 篇文章-图像对、24,484 条读者评论),提出评论过滤(IndicBERT)和图像分类(CLIP)增强方案,用 GPT-4 和 LLama3 建立摘要和标题生成的基准。
研究背景与动机¶
- 领域现状:在线内容融合文本、图片和用户评论。读者感知的评论摘要(RACBS)利用用户交互生成更相关的摘要。但面向印度语言的多语言、评论感知、多模态数据集几乎为空白。
- 现有痛点:现有数据集多为纯文本或不含评论的多模态,且集中于英语/中文。印度语言(覆盖全球 1/6 人口)的 NLG 资源严重不足。
- 核心矛盾:评论包含丰富的用户洞察但也有大量噪声;图片有文本补充作用但也可能是冗余的——如何筛选有用的评论和图片来增强摘要?
方法详解¶
整体框架¶
DailyHunt 新闻爬取 → 9 语言文本/图片/评论提取 → 人工摘要编写 → 四种配置评估:(1) 纯文本 (2) 文本+评论 (3) 文本+图片 (4) 文本+评论+图片。附加:IndicBERT 评论过滤器 + 多语言 CLIP 图像分类器。
关键设计¶
- 评论过滤 (IndicBERT):
- 训练分类器将评论分为"信息性"和"噪声",只保留信息性评论。
-
设计动机:75%+ 的评论是噪声(重复、无关、攻击性),直接输入会降低摘要质量。
-
图像分类 (多语言 CLIP):
- 基于阈值将图像分为"补充型"(强化文本内容)和"互补型"(提供额外上下文)。
-
设计动机:不同类型的图片对摘要的贡献不同,分类后可差异化利用。
-
数据集特色:
- 9 种主要印度语言:Bengali, Hindi, Gujarati, Marathi, Malayalam, Odia, Tamil, Telugu, Kannada。
- 4,959 篇文章-图像对 + 24,484 条读者评论 + 人工摘要。
- 仅含 2024 年新闻(老文章评论太少)。
实验关键数据¶
主实验¶
| 配置 | ROUGE-1 | ROUGE-L | BLEU | 说明 |
|---|---|---|---|---|
| 仅文本 | 基线 | 基线 | 基线 | - |
| 文本+所有评论 | 略降 | 略降 | 略降 | 噪声评论有害 |
| 文本+过滤评论 | 提升 | 提升 | 提升 | 过滤有效 |
| 文本+图片 | 提升 | 提升 | 提升 | 视觉信息有帮助 |
| 文本+过滤评论+图片 | 最优 | 最优 | 最优 | 三者结合最优 |
关键发现¶
- 噪声评论有害,过滤后有益:直接加入所有评论反而降低质量,用 IndicBERT 过滤后明显提升。
- 图片一致性有帮助:补充型图片比互补型图片更能提升摘要质量。
- Marathi 评论最活跃:最高的评论量和密度,反映了较高的用户参与度。
- GPT-4 在多数语言上优于 LLama3:但 LLama3 在部分低资源语言上表现相当。
亮点与洞察¶
- 首个同时具有文本+图片+评论的印度语言数据集:填补了重要空白。
- 评论过滤是 RACBS 的关键环节:这一发现对其他语言的评论感知摘要同样适用。
局限性 / 可改进方向¶
- 每语言仅 500-650 篇文章,规模偏小。
- 评论质量因语言和话题差异大。
- 仅用 DailyHunt 一个来源,可能有平台偏差。
相关工作与启发¶
- vs M3LS: M3LS 是最大的多语言多模态摘要数据集但无评论;COSMMIC 补充了评论维度。
- vs RAMDS: RAMDS 有评论但仅英文 450 篇;COSMMIC 覆盖 9 种印度语言。
评分¶
- 新颖性: ⭐⭐⭐ 数据集贡献为主,方法较常规
- 实验充分度: ⭐⭐⭐ 多配置对比,但模型选择有限
- 写作质量: ⭐⭐⭐ 数据集描述详细
- 价值: ⭐⭐⭐⭐ 填补印度语言 NLG 资源空白