跳转至

Cross-Modal Rationale Transfer for Explainable Humanitarian Classification

日期: 2026-03-19
arXiv: 2603.18611
代码: GitHub
领域: 多模态/VLM
关键词: 跨模态理据迁移, 危机分类, 可解释性, ViLT, 社交媒体

一句话总结

提出 VLTCrisis,一个可解释的多模态危机推文分类框架:先用 ViLT 编码器联合学习文本理据(有监督)和图像理据(通过跨模态对齐零样本迁移),再仅基于提取的理据进行分类,实现 interpretable-by-design。在 CrisisMMD 上 Macro-F1 比 baseline 高 2-35%,零样本泛化到新数据集达 80% 准确率。

研究背景与动机

  1. 领域现状: 危机事件中社交媒体信息的分类(如基础设施损坏、受灾人员、救援行动)对态势感知至关重要。已有多模态分类方法关注性能优化,但决策过程不透明。

  2. 现有痛点: (a) 已有可解释方法主要是事后解释(posthoc),容易被欺骗;(b) interpretable-by-design 的方法仅限文本模态,难以扩展到图像;(c) 图像理据标注成本极高且定义模糊(什么算图像中的"证据"?),无人尝试跨模态零样本迁移理据。

  3. 核心矛盾: 需要同时在文本和图像上提供可解释的分类证据,但图像理据标注不可行——必须找到无需图像理据标注的方案。

  4. 切入角度: 利用文本-图像在危机推文中的语义对齐特性,将已标注的文本理据通过跨模态迁移自动生成图像理据热力图。

方法详解

整体框架

两阶段 pipeline: 1. 理据提取阶段:ViLT 编码文本+图像 → 多任务学习(文本理据预测 + 辅助分类 + 图像理据迁移) 2. 分类阶段:仅用提取的理据(掩码后的文本+图像)重新输入 ViLT 分类 → interpretable-by-design

关键设计

  1. 文本理据提取器:

    • 做什么:token 级二分类,预测每个 token 是否为理据
    • 核心思路:ViLT 编码后接 GRU 层捕获 token 依赖 + FC-Sigmoid 层。训练用加权 BCE loss \(Loss_r = -\sum_{j=1}^n \frac{n}{n_j} BCE(y_j, p_j)\) 处理理据/非理据 token 不平衡
    • 辅助任务:同时用 pooler output + Softmax 做推文分类(交叉熵 loss),联合训练使理据更面向任务
    • 总 loss:\(Loss = Loss_l + \alpha Loss_r\)
  2. 图像理据提取器(跨模态迁移):

    • 做什么:无需图像理据标注,从文本理据零样本迁移生成图像 patch 级热力图
    • 核心思路:用 IPOT(Inexact Proximal Optimal Transport)计算预测的文本理据 token 嵌入与图像 patch 嵌入之间的对齐分数:\(h_k = \max_{t_j, y'_j=1}(IPOT(e_k, e_{t_j}))\)
    • 设计动机:危机推文中文本和图像通常语义对齐(如"桥塌了"配桥损坏的图),文本理据天然指向图像中的对应区域。IPOT 比余弦相似度更精确地建模最优传输匹配
  3. 理据驱动的分类(第二阶段):

    • 做什么:仅基于提取的理据进行最终分类
    • 核心思路:用 * 替换非理据文本 token,用热力图模糊非理据图像 patch,将掩码后的输入送入 ViLT 分类
    • 设计动机:确保模型决策完全基于可解释的证据(interpretable-by-design),去除理据后性能应大幅下降

实验关键数据

主实验(CrisisMMD 人道主义分类)

方法 类型 Macro-F1
CNNT (文本) 单模态 0.47
LLORA (LLaMA微调) 单模态 0.56
Multi-DNN 多模态 0.73
CrisisKAN 多模态 0.74
VLTCrisis (本文) 多模态+可解释 0.76

可解释性验证

配置 Macro-F1 说明
Full model 0.76 基于理据分类
去除理据 0.37 性能暴跌 51%,证明理据确实是决策依据
仅文本理据 0.70 文本贡献大
仅图像理据 0.64 图像互补

零样本泛化

在新的、未见过的危机数据集上零样本准确率约 80%,证明学到的理据模式可迁移。

人类评估

图像理据质量:VLTCrisis 生成的图像理据 patch 比 baseline 好 12%(人类标注员评估)。

亮点与洞察

  • 跨模态理据迁移是核心创新:从文本理据到图像理据的零样本迁移,完全省去图像理据标注——这个思路可迁移到其他需要多模态解释的场景
  • Interpretable-by-design:第二阶段仅用理据分类的设计非常干净,去除理据后 51% 的性能下降证明了 faithfulness
  • IPOT 作为跨模态对齐工具:最优传输方法可用于任何需要精确跨模态匹配的场景

局限性 / 可改进方向

  • 假设文本与图像语义对齐——非危机领域的社交媒体可能不成立
  • 仅在 CrisisMMD(单一数据集)上验证,数据规模有限(约 8000 条)
  • ViLT 作为编码器较老,换用更强的 VLM(如 LLaVA)可能效果更好
  • 图像理据仅是 patch 级热力图,不够精细(像素级标注会更好)

相关工作与启发

  • vs RACLC: 他们只做文本可解释分类,本文扩展到多模态
  • vs CrisisKAN: 用attention权重做可解释性(posthoc),不如本文的 interpretable-by-design 可靠
  • vs LLM-based 方法: LLM 微调虽然性能不差,但计算成本高且数据集小容易过拟合

评分

  • 新颖性: ⭐⭐⭐⭐ 跨模态理据迁移是新问题,IPOT 对齐方案简洁有效
  • 实验充分度: ⭐⭐⭐ 消融全面但数据集单一
  • 写作质量: ⭐⭐⭐⭐ 问题定义清晰,两阶段设计直观
  • 价值: ⭐⭐⭐⭐ 对可解释 AI 和危机管理都有实用价值