WXImpactBench: A Disruptive Weather Impact Understanding Benchmark for Evaluating Large Language Models¶

会议/期刊: ACL 2025
arXiv: 2505.20249
代码: GitHub
领域: LLM评估 / 气候文本理解
关键词: benchmark, weather impact, LLM evaluation, multi-label classification, question answering

一句话总结¶

提出首个面向极端天气影响理解的LLM评估基准WXImpactBench，包含四阶段数据构建流水线和两个评估任务（多标签分类与排序问答），系统性评估了多个LLM在气候适应领域的能力。

研究背景与动机¶

问题定义：气候变化适应需要理解极端天气对社会的影响，LLM在此领域的有效性尚未被探索。
现有不足：现有气候相关数据多来自结构化气象记录，存在日常缺失问题；且这些数据可能已包含在LLM预训练中，导致评估偏差。
关键挑战：历史报纸中存在气候术语的多义性（如"blizzard"既指暴风雪也指运动队名），OCR数字化后的文本噪声严重影响下游任务。
本文方案：从历史报纸中构建高质量极端天气影响数据集，设计WXImpactBench基准，通过多标签分类和排序问答两个任务评估LLM。

方法详解¶

整体框架¶

四阶段数据构建流水线 + 两任务评估框架： 1. 语料收集：从专有档案机构获取两个时期的数字化报纸文本 2. Post-OCR纠错：使用GPT-4o进行OCR文本纠错，达到与人工标注高度一致的BLEU/ROUGE分数 3. 主题感知文章选择：通过LDA主题建模从53,521篇文章中筛选，经三位领域专家人工审核得到350篇高质量样本 4. 人工标签标注：定义六类脆弱性相关影响（基础设施、政治、金融、生态、农业、人类健康），三位标注员进行多标签二值标注

关键设计¶

多标签分类任务：测试LLM区分六类天气影响的能力，使用row-wise accuracy作为严格指标（要求同时正确分类六个标签）
排序问答任务：为每篇文章生成伪问题，构建100篇候选文章池（1正例+99负例），评估LLM的检索排序能力，为RAG系统开发奠基
混合上下文版本：将长文本切分为约250 token的片段并独立标注，形成1,386个样本用于评估长上下文影响

损失函数/评估指标¶

分类任务：\(\mathcal{L}(\hat{\mathcal{Y}}_t, \mathcal{Y}_t) = -\sum_{i=1}^{6} y_i \log \hat{y}_i\)
分类指标：F1-score、Accuracy、Row-wise Accuracy
排序任务指标：Hit@1、nDCG@5、Recall@5、MRR

实验¶

主实验结果¶

模型	Infrastructure	Political	Financial	Ecological	Agricultural	Human Health	Average
GPT-4o	80.94	58.46	65.82	46.81	70.33	73.23	65.93
DeepSeek-V3-671B	81.87	44.44	60.91	36.00	61.74	65.20	58.03
Mistral-24B-IT	79.12	47.18	59.64	44.90	67.74	66.88	60.91
Gemma-2-9b-IT	77.42	43.33	54.60	42.16	55.60	61.82	55.82

Zero-shot F1-score（混合上下文版本），↑表示相比长上下文版本的提升。

消融实验¶

设置	影响
长上下文 vs 混合上下文	混合上下文平均提升2.38 F1，说明LLM在短文本上表现更好
Zero-shot vs One-shot	One-shot整体提升，但部分模型（如Mixtral）出现不稳定
历史 vs 现代文本	现代文本普遍表现更好，历史叙事风格增加理解难度

关键发现¶

GPT-4o在多数类别中表现最佳，但所有模型在生态和政治影响识别上均较弱
模型规模并非决定性因素：DeepSeek-V3（671B）在某些类别不如Mistral-24B
混合上下文版本普遍优于长上下文版本，表明当前LLM在长文本理解上仍有提升空间
Row-wise accuracy极低（最高仅~30%），说明同时准确分类六类影响极具挑战性

亮点¶

首个极端天气影响理解的LLM评估基准，填补了气候NLP领域的空白
四阶段数据构建流水线设计精巧，结合了OCR纠错、LDA主题建模和领域专家标注
评估任务设计兼顾分类和检索两大应用场景，为气候RAG系统开发提供基础

局限性¶

数据集规模较小（350篇文章），可能限制评估的统计显著性
仅覆盖英文报纸，缺乏多语言评估
排序问答任务的伪问题由LLM生成，可能引入偏差
六类影响分类体系可能无法覆盖所有天气影响类型

评分¶

维度	分数
新颖性	⭐⭐⭐⭐
技术深度	⭐⭐⭐
实验充分度	⭐⭐⭐⭐
写作质量	⭐⭐⭐⭐
实用价值	⭐⭐⭐⭐