COSMMIC: Comment-Sensitive Multimodal Multilingual Indian Corpus¶
会议: ACL 2025
arXiv: 2506.15372
代码: 无
领域: 多语言 / 多模态
关键词: 印度语言, 多模态, 评论感知, 摘要生成, 标题生成
一句话总结¶
构建首个面向印度语言的评论感知多模态多语言数据集COSMMIC——覆盖9种印度语言、4,959篇文章-图像对、24,484条读者评论,提出评论过滤(IndicBERT)和图像分类(CLIP)增强方案,用GPT-4和LLaMA3建立摘要和标题生成基准。
研究背景与动机¶
领域现状: 读者评论包含对文章的反应/情感/补充信息,可增强摘要和标题生成质量,但现有数据集几乎都是英语。现有痛点: 无面向印度语言的评论感知多模态数据集;现有多语言摘要资源未结合读者评论和配图。核心矛盾: 印度有数十亿互联网用户使用多种语言——但NLP资源严重匮乏。本文目标: 构建首个同时覆盖多语言+多模态+评论感知的印度语言数据集。切入角度: 从印度主流新闻网站爬取文章+图像+评论。核心idea: 评论不仅是噪声——经过质量过滤后可提供有价值的上下文信号增强生成任务。
方法详解¶
整体框架¶
数据构建:9种语言新闻网站爬取→评论质量过滤(IndicBERT分类)→图像相关性过滤(CLIP匹配)→GPT-4/LLaMA3摘要和标题基准。
关键设计¶
-
9语言数据爬取与标准化:
- 功能:从印度主流新闻网站爬取9种语言的文章-图像-评论三元组
- 核心思路:覆盖Hindi/Bengali/Tamil/Telugu/Marathi/Gujarati/Kannada/Malayalam/Odia,每种语言400-600篇文章
- 设计动机:印度是世界上语言多样性最高的国家之一,覆盖9种主要语言确保代表性
-
评论质量过滤(IndicBERT):
- 功能:用IndicBERT分类器过滤低质量/无关评论
- 核心思路:训练二分类器判断评论是否与文章相关且有信息价值,保留高质量评论
- 设计动机:原始评论中大量是垃圾/无关/低质——不过滤直接使用会引入噪声降低生成质量
-
图像相关性过滤(CLIP):
- 功能:用CLIP判断文章配图是否与文章内容相关
- 核心思路:计算图像和文章文本的CLIP相似度,过滤不相关图像
- 设计动机:新闻配图有时是广告或无关图片——保留相关图像才能发挥多模态增强效果
损失函数 / 训练策略¶
IndicBERT评论过滤器用二分类交叉熵训练。基准实验用GPT-4和LLaMA3进行零/少样本摘要和标题生成。
实验关键数据¶
主实验¶
摘要生成ROUGE分数(跨9语言平均):
| 模型 | 输入 | ROUGE-1 | ROUGE-2 | ROUGE-L |
|---|---|---|---|---|
| GPT-4 | 文章 | 32.5 | 12.1 | 28.3 |
| GPT-4 | 文章+评论 | 35.2 | 14.3 | 30.8 |
| LLaMA3 | 文章 | 28.7 | 9.8 | 24.5 |
| LLaMA3 | 文章+评论 | 31.4 | 11.5 | 27.1 |
消融实验¶
评论过滤的影响:
| 评论质量 | ROUGE-L变化 |
|---|---|
| 无评论 | baseline |
| +全部评论(未过滤) | +1.2 |
| +过滤后评论 | +2.5 |
关键发现¶
- 评论确实提升摘要质量: 加入评论后ROUGE-L平均提升2.5个点
- 评论过滤至关重要: 过滤后评论比未过滤提升翻倍
- GPT-4显著优于LLaMA3: 在低资源语言上差距更大
- 图像配合评论的多模态效果有限: 纯文本+评论已足够
亮点与洞察¶
- 首个同时覆盖三维度的印度语言数据集: 多语言+多模态+评论感知
- 评论过滤方法论: 证明了"评论不等于噪声——过滤后的评论是有价值的信号"
- 9种语言覆盖: 为低资源印度语言NLP研究提供基础设施
- GPT-4 vs LLaMA3基准: 为后续工作提供参考点
局限与展望¶
- 未覆盖所有印度语言(如Punjabi/Assamese等)
- 评论数量在不同语言间分布不均
- 基准实验主要是零/少样本,未做微调
- 图像的多模态增强效果有限
相关工作与启发¶
- vs XL-Sum(英语+多语言摘要): 无评论——本文加入评论维度
- vs IndicNLPSuite: 涵盖多种印度语言NLP任务但无摘要/评论
- 启发: 低资源语言的NLP研究需要"三位一体"的数据集(多模态+多语言+上下文信号)
评分¶
- 新颖性: ⭐⭐⭐ 数据集构建类工作,创新在三维融合
- 实验充分度: ⭐⭐⭐ 基准实验较基础
- 写作质量: ⭐⭐⭐ 数据构建描述清晰
- 价值: ⭐⭐⭐⭐ 为低资源印度语言NLP研究填补空白
相关论文¶
- [ACL 2025] mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus
- [ACL 2025] LexGen: Domain-aware Multilingual Lexicon Generation
- [CVPR 2025] Harnessing Frozen Unimodal Encoders for Flexible Multimodal Alignment
- [ACL 2025] KnowCoder-X: Boosting Multilingual Information Extraction via Code
- [ACL 2025] LangMark: A Multilingual Dataset for Automatic Post-Editing