COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus for Summarization and Headline Generation¶

会议: ACL 2025
arXiv: 2506.15372
代码: https://github.com/AaryanSahu/COSMMIC
领域: 文本生成
关键词: multilingual, multimodal, Indian languages, summarization, reader comments

一句话总结¶

构建首个面向印度语言的评论感知多模态多语言数据集 COSMMIC（9 种语言、4,959 篇文章-图像对、24,484 条读者评论），提出评论过滤（IndicBERT）和图像分类（CLIP）增强方案，用 GPT-4 和 LLama3 建立摘要和标题生成的基准。

研究背景与动机¶

领域现状：在线内容融合文本、图片和用户评论。读者感知的评论摘要（RACBS）利用用户交互生成更相关的摘要。但面向印度语言的多语言、评论感知、多模态数据集几乎为空白。
现有痛点：现有数据集多为纯文本或不含评论的多模态，且集中于英语/中文。印度语言（覆盖全球 1/6 人口）的 NLG 资源严重不足。
核心矛盾：评论包含丰富的用户洞察但也有大量噪声；图片有文本补充作用但也可能是冗余的——如何筛选有用的评论和图片来增强摘要？

方法详解¶

整体框架¶

DailyHunt 新闻爬取 → 9 语言文本/图片/评论提取 → 人工摘要编写 → 四种配置评估：(1) 纯文本 (2) 文本+评论 (3) 文本+图片 (4) 文本+评论+图片。附加：IndicBERT 评论过滤器 + 多语言 CLIP 图像分类器。

关键设计¶

评论过滤 (IndicBERT):
训练分类器将评论分为"信息性"和"噪声"，只保留信息性评论。
设计动机：75%+ 的评论是噪声（重复、无关、攻击性），直接输入会降低摘要质量。
图像分类 (多语言 CLIP):
基于阈值将图像分为"补充型"（强化文本内容）和"互补型"（提供额外上下文）。
设计动机：不同类型的图片对摘要的贡献不同，分类后可差异化利用。
数据集特色:
9 种主要印度语言：Bengali, Hindi, Gujarati, Marathi, Malayalam, Odia, Tamil, Telugu, Kannada。
4,959 篇文章-图像对 + 24,484 条读者评论 + 人工摘要。
仅含 2024 年新闻（老文章评论太少）。

实验关键数据¶

主实验¶

配置	ROUGE-1	ROUGE-L	BLEU	说明
仅文本	基线	基线	基线	-
文本+所有评论	略降	略降	略降	噪声评论有害
文本+过滤评论	提升	提升	提升	过滤有效
文本+图片	提升	提升	提升	视觉信息有帮助
文本+过滤评论+图片	最优	最优	最优	三者结合最优

关键发现¶

噪声评论有害，过滤后有益：直接加入所有评论反而降低质量，用 IndicBERT 过滤后明显提升。
图片一致性有帮助：补充型图片比互补型图片更能提升摘要质量。
Marathi 评论最活跃：最高的评论量和密度，反映了较高的用户参与度。
GPT-4 在多数语言上优于 LLama3：但 LLama3 在部分低资源语言上表现相当。

亮点与洞察¶

首个同时具有文本+图片+评论的印度语言数据集：填补了重要空白。
评论过滤是 RACBS 的关键环节：这一发现对其他语言的评论感知摘要同样适用。

局限性 / 可改进方向¶

每语言仅 500-650 篇文章，规模偏小。
评论质量因语言和话题差异大。
仅用 DailyHunt 一个来源，可能有平台偏差。

评分¶

新颖性: ⭐⭐⭐ 数据集贡献为主，方法较常规
实验充分度: ⭐⭐⭐ 多配置对比，但模型选择有限
写作质量: ⭐⭐⭐ 数据集描述详细
价值: ⭐⭐⭐⭐ 填补印度语言 NLG 资源空白