COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus¶

会议: ACL 2025
arXiv: 2506.15372
代码: 无
领域: 多语言 / 多模态
关键词: 印度语言, 多模态, 评论感知, 摘要生成, 标题生成

一句话总结¶

构建首个面向印度语言的评论感知多模态多语言数据集COSMMIC——覆盖9种印度语言、4,959篇文章-图像对、24,484条读者评论，提出评论过滤（IndicBERT）和图像分类（CLIP）增强方案，用GPT-4和LLaMA3建立摘要和标题生成基准。

研究背景与动机¶

领域现状: 读者评论包含对文章的反应/情感/补充信息，可增强摘要和标题生成质量，但现有数据集几乎都是英语。现有痛点: 无面向印度语言的评论感知多模态数据集；现有多语言摘要资源未结合读者评论和配图。核心矛盾: 印度有数十亿互联网用户使用多种语言——但NLP资源严重匮乏。本文目标: 构建首个同时覆盖多语言+多模态+评论感知的印度语言数据集。切入角度: 从印度主流新闻网站爬取文章+图像+评论。核心idea: 评论不仅是噪声——经过质量过滤后可提供有价值的上下文信号增强生成任务。

方法详解¶

整体框架¶

数据构建：9种语言新闻网站爬取→评论质量过滤（IndicBERT分类）→图像相关性过滤（CLIP匹配）→GPT-4/LLaMA3摘要和标题基准。

关键设计¶

9语言数据爬取与标准化:
- 功能：从印度主流新闻网站爬取9种语言的文章-图像-评论三元组
- 核心思路：覆盖Hindi/Bengali/Tamil/Telugu/Marathi/Gujarati/Kannada/Malayalam/Odia，每种语言400-600篇文章
- 设计动机：印度是世界上语言多样性最高的国家之一，覆盖9种主要语言确保代表性
评论质量过滤（IndicBERT）:
- 功能：用IndicBERT分类器过滤低质量/无关评论
- 核心思路：训练二分类器判断评论是否与文章相关且有信息价值，保留高质量评论
- 设计动机：原始评论中大量是垃圾/无关/低质——不过滤直接使用会引入噪声降低生成质量
图像相关性过滤（CLIP）:
- 功能：用CLIP判断文章配图是否与文章内容相关
- 核心思路：计算图像和文章文本的CLIP相似度，过滤不相关图像
- 设计动机：新闻配图有时是广告或无关图片——保留相关图像才能发挥多模态增强效果

损失函数 / 训练策略¶

IndicBERT评论过滤器用二分类交叉熵训练。基准实验用GPT-4和LLaMA3进行零/少样本摘要和标题生成。

实验关键数据¶

主实验¶

摘要生成ROUGE分数（跨9语言平均）：

模型	输入	ROUGE-1	ROUGE-2	ROUGE-L
GPT-4	文章	32.5	12.1	28.3
GPT-4	文章+评论	35.2	14.3	30.8
LLaMA3	文章	28.7	9.8	24.5
LLaMA3	文章+评论	31.4	11.5	27.1

消融实验¶

评论过滤的影响：

评论质量	ROUGE-L变化
无评论	baseline
+全部评论（未过滤）	+1.2
+过滤后评论	+2.5

关键发现¶

评论确实提升摘要质量: 加入评论后ROUGE-L平均提升2.5个点
评论过滤至关重要: 过滤后评论比未过滤提升翻倍
GPT-4显著优于LLaMA3: 在低资源语言上差距更大
图像配合评论的多模态效果有限: 纯文本+评论已足够

亮点与洞察¶

首个同时覆盖三维度的印度语言数据集: 多语言+多模态+评论感知
评论过滤方法论: 证明了"评论不等于噪声——过滤后的评论是有价值的信号"
9种语言覆盖: 为低资源印度语言NLP研究提供基础设施
GPT-4 vs LLaMA3基准: 为后续工作提供参考点

局限与展望¶

未覆盖所有印度语言（如Punjabi/Assamese等）
评论数量在不同语言间分布不均
基准实验主要是零/少样本，未做微调
图像的多模态增强效果有限

评分¶

新颖性: ⭐⭐⭐ 数据集构建类工作，创新在三维融合
实验充分度: ⭐⭐⭐ 基准实验较基础
写作质量: ⭐⭐⭐ 数据构建描述清晰
价值: ⭐⭐⭐⭐ 为低资源印度语言NLP研究填补空白