Cross-Modal Rationale Transfer for Explainable Humanitarian Classification¶

日期: 2026-03-19
arXiv: 2603.18611
代码: GitHub
领域: 多模态/VLM
关键词: 跨模态理据迁移, 危机分类, 可解释性, ViLT, 社交媒体

一句话总结¶

提出 VLTCrisis，一个可解释的多模态危机推文分类框架：先用 ViLT 编码器联合学习文本理据（有监督）和图像理据（通过跨模态对齐零样本迁移），再仅基于提取的理据进行分类，实现 interpretable-by-design。在 CrisisMMD 上 Macro-F1 比 baseline 高 2-35%，零样本泛化到新数据集达 80% 准确率。

研究背景与动机¶

领域现状: 危机事件中社交媒体信息的分类（如基础设施损坏、受灾人员、救援行动）对态势感知至关重要。已有多模态分类方法关注性能优化，但决策过程不透明。
现有痛点: (a) 已有可解释方法主要是事后解释（posthoc），容易被欺骗；(b) interpretable-by-design 的方法仅限文本模态，难以扩展到图像；(c) 图像理据标注成本极高且定义模糊（什么算图像中的"证据"？），无人尝试跨模态零样本迁移理据。
核心矛盾: 需要同时在文本和图像上提供可解释的分类证据，但图像理据标注不可行——必须找到无需图像理据标注的方案。
切入角度: 利用文本-图像在危机推文中的语义对齐特性，将已标注的文本理据通过跨模态迁移自动生成图像理据热力图。

方法详解¶

整体框架¶

两阶段 pipeline： 1. 理据提取阶段：ViLT 编码文本+图像 → 多任务学习（文本理据预测 + 辅助分类 + 图像理据迁移） 2. 分类阶段：仅用提取的理据（掩码后的文本+图像）重新输入 ViLT 分类 → interpretable-by-design

关键设计¶

文本理据提取器:
- 做什么：token 级二分类，预测每个 token 是否为理据
- 核心思路：ViLT 编码后接 GRU 层捕获 token 依赖 + FC-Sigmoid 层。训练用加权 BCE loss \(Loss_r = -\sum_{j=1}^n \frac{n}{n_j} BCE(y_j, p_j)\) 处理理据/非理据 token 不平衡
- 辅助任务：同时用 pooler output + Softmax 做推文分类（交叉熵 loss），联合训练使理据更面向任务
- 总 loss：\(Loss = Loss_l + \alpha Loss_r\)
图像理据提取器（跨模态迁移）:
- 做什么：无需图像理据标注，从文本理据零样本迁移生成图像 patch 级热力图
- 核心思路：用 IPOT（Inexact Proximal Optimal Transport）计算预测的文本理据 token 嵌入与图像 patch 嵌入之间的对齐分数：\(h_k = \max_{t_j, y'_j=1}(IPOT(e_k, e_{t_j}))\)
- 设计动机：危机推文中文本和图像通常语义对齐（如"桥塌了"配桥损坏的图），文本理据天然指向图像中的对应区域。IPOT 比余弦相似度更精确地建模最优传输匹配
理据驱动的分类（第二阶段）:
- 做什么：仅基于提取的理据进行最终分类
- 核心思路：用 * 替换非理据文本 token，用热力图模糊非理据图像 patch，将掩码后的输入送入 ViLT 分类
- 设计动机：确保模型决策完全基于可解释的证据（interpretable-by-design），去除理据后性能应大幅下降

实验关键数据¶

主实验（CrisisMMD 人道主义分类）¶

方法	类型	Macro-F1
CNNT (文本)	单模态	0.47
LLORA (LLaMA微调)	单模态	0.56
Multi-DNN	多模态	0.73
CrisisKAN	多模态	0.74
VLTCrisis (本文)	多模态+可解释	0.76

可解释性验证¶

配置	Macro-F1	说明
Full model	0.76	基于理据分类
去除理据	0.37	性能暴跌 51%，证明理据确实是决策依据
仅文本理据	0.70	文本贡献大
仅图像理据	0.64	图像互补

零样本泛化¶

在新的、未见过的危机数据集上零样本准确率约 80%，证明学到的理据模式可迁移。

人类评估¶

图像理据质量：VLTCrisis 生成的图像理据 patch 比 baseline 好 12%（人类标注员评估）。

亮点与洞察¶

跨模态理据迁移是核心创新：从文本理据到图像理据的零样本迁移，完全省去图像理据标注——这个思路可迁移到其他需要多模态解释的场景
Interpretable-by-design：第二阶段仅用理据分类的设计非常干净，去除理据后 51% 的性能下降证明了 faithfulness
IPOT 作为跨模态对齐工具：最优传输方法可用于任何需要精确跨模态匹配的场景

局限性 / 可改进方向¶

假设文本与图像语义对齐——非危机领域的社交媒体可能不成立
仅在 CrisisMMD（单一数据集）上验证，数据规模有限（约 8000 条）
ViLT 作为编码器较老，换用更强的 VLM（如 LLaVA）可能效果更好
图像理据仅是 patch 级热力图，不够精细（像素级标注会更好）

评分¶

新颖性: ⭐⭐⭐⭐ 跨模态理据迁移是新问题，IPOT 对齐方案简洁有效
实验充分度: ⭐⭐⭐ 消融全面但数据集单一
写作质量: ⭐⭐⭐⭐ 问题定义清晰，两阶段设计直观
价值: ⭐⭐⭐⭐ 对可解释 AI 和危机管理都有实用价值