跳转至

COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation

会议: ACL 2025
arXiv: 2506.15372
代码: https://github.com/AaryanSahu/COSMMIC
领域: 文本生成
关键词: multilingual, multimodal, Indian languages, summarization, reader comments

一句话总结

构建首个面向印度语言的评论感知多模态多语言数据集 COSMMIC(9 种语言、4,959 篇文章-图像对、24,484 条读者评论),提出评论过滤(IndicBERT)和图像分类(CLIP)增强方案,用 GPT-4 和 LLama3 建立摘要和标题生成的基准。

研究背景与动机

  1. 领域现状:在线内容融合文本、图片和用户评论。读者感知的评论摘要(RACBS)利用用户交互生成更相关的摘要。但面向印度语言的多语言、评论感知、多模态数据集几乎为空白。
  2. 现有痛点:现有数据集多为纯文本或不含评论的多模态,且集中于英语/中文。印度语言(覆盖全球 1/6 人口)的 NLG 资源严重不足。
  3. 核心矛盾:评论包含丰富的用户洞察但也有大量噪声;图片有文本补充作用但也可能是冗余的——如何筛选有用的评论和图片来增强摘要?

方法详解

整体框架

DailyHunt 新闻爬取 → 9 语言文本/图片/评论提取 → 人工摘要编写 → 四种配置评估:(1) 纯文本 (2) 文本+评论 (3) 文本+图片 (4) 文本+评论+图片。附加:IndicBERT 评论过滤器 + 多语言 CLIP 图像分类器。

关键设计

  1. 评论过滤 (IndicBERT):
  2. 训练分类器将评论分为"信息性"和"噪声",只保留信息性评论。
  3. 设计动机:75%+ 的评论是噪声(重复、无关、攻击性),直接输入会降低摘要质量。

  4. 图像分类 (多语言 CLIP):

  5. 基于阈值将图像分为"补充型"(强化文本内容)和"互补型"(提供额外上下文)。
  6. 设计动机:不同类型的图片对摘要的贡献不同,分类后可差异化利用。

  7. 数据集特色:

  8. 9 种主要印度语言:Bengali, Hindi, Gujarati, Marathi, Malayalam, Odia, Tamil, Telugu, Kannada。
  9. 4,959 篇文章-图像对 + 24,484 条读者评论 + 人工摘要。
  10. 仅含 2024 年新闻(老文章评论太少)。

实验关键数据

主实验

配置 ROUGE-1 ROUGE-L BLEU 说明
仅文本 基线 基线 基线 -
文本+所有评论 略降 略降 略降 噪声评论有害
文本+过滤评论 提升 提升 提升 过滤有效
文本+图片 提升 提升 提升 视觉信息有帮助
文本+过滤评论+图片 最优 最优 最优 三者结合最优

关键发现

  • 噪声评论有害,过滤后有益:直接加入所有评论反而降低质量,用 IndicBERT 过滤后明显提升。
  • 图片一致性有帮助:补充型图片比互补型图片更能提升摘要质量。
  • Marathi 评论最活跃:最高的评论量和密度,反映了较高的用户参与度。
  • GPT-4 在多数语言上优于 LLama3:但 LLama3 在部分低资源语言上表现相当。

亮点与洞察

  • 首个同时具有文本+图片+评论的印度语言数据集:填补了重要空白。
  • 评论过滤是 RACBS 的关键环节:这一发现对其他语言的评论感知摘要同样适用。

局限性 / 可改进方向

  • 每语言仅 500-650 篇文章,规模偏小。
  • 评论质量因语言和话题差异大。
  • 仅用 DailyHunt 一个来源,可能有平台偏差。

相关工作与启发

  • vs M3LS: M3LS 是最大的多语言多模态摘要数据集但无评论;COSMMIC 补充了评论维度。
  • vs RAMDS: RAMDS 有评论但仅英文 450 篇;COSMMIC 覆盖 9 种印度语言。

评分

  • 新颖性: ⭐⭐⭐ 数据集贡献为主,方法较常规
  • 实验充分度: ⭐⭐⭐ 多配置对比,但模型选择有限
  • 写作质量: ⭐⭐⭐ 数据集描述详细
  • 价值: ⭐⭐⭐⭐ 填补印度语言 NLG 资源空白