跳转至

Reasoning-Driven Multimodal LLM for Domain Generalization

会议: ICLR 2026
arXiv: 2602.23777
单位: 西安电子科技大学 / 微软亚洲研究院 领域: 域泛化 / 多模态推理

一句话总结

提出 RD-MLDG——首个将 MLLM 推理链引入域泛化的框架。构建 DomainBed-Reasoning 数据集,系统分析推理监督的两大挑战(优化困难 + 推理模式不匹配),通过 MTCT(多任务交叉训练)与 SARR(自对齐推理正则化)协同解决,在 4 个标准 DG 基准上以 86.89% 的平均准确率大幅超越 GPT-4o(83.46%)和所有 CLIP/ViT 方法。

研究动机

现有域泛化方法(IRM、CORAL、MixStyle、SWAD 等)聚焦于特征级不变性——通过对齐不同域的潜在表示来提升泛化。CLIP 系方法引入了多模态表示但仍局限于特征级对齐。问题在于:特征级不变性无法捕捉更高层的跨域共性。

MLLM 展现出强大推理能力,推理链可以将分类过程显式拆解为可解释、域不变的步骤(例如不同域的"打印机"图片虽视觉差异巨大,但其推理链中类别相关部分高度一致)。然而直接用推理链做监督,性能反而不如直接标签监督——这一矛盾促使本文深入分析并设计新框架。

方法详解

1. DomainBed-Reasoning 数据集构建

在 DomainBed 四个数据集(PACS/VLCS/OfficeHome/TerraInc)上,用 GPT-4o 为每个样本生成 5 阶段推理链:

SUMMARY → CAPTION → REASONING → REFLECTION → CONCLUSION

关键设计:(1) 不提供 ground-truth 标签,迫使推理基于视觉证据;(2) 增加 REFLECTION 阶段做自检(相比 LLaVA-CoT 的 4 阶段减少无效生成);(3) 拒绝采样:每样本生成多条候选,仅保留包含所有组件且结论一致的推理链。

2. 两大挑战的系统分析

挑战一:推理监督的优化鸿沟。 在 TerraInc 上用 InternVL3-8B 实验:zero-shot 下加推理链比 no-thinking 提升 +43.28%p(ground-truth token 概率),但 SFT 后推理链反而比直接标签监督低 0.93%p。原因是推理链 SFT 仅使 1.88%p 的 token 从低概率移至高概率(直接标签 SFT 为 +43.38%p),收敛更慢、分类 token 的高置信比例更低(86.33% vs 92.23%)。

挑战二:推理模式不匹配。 GPT-4o 推理 vs InternVL3-8B 自身推理存在风格差异:GPT-4o 的推理包含丰富上下文描述(背景、视角),SFT 后 token 概率仅提升 +1.88%p;而用自生成推理做 SFT 提升达 +29.74%p,但内容更简单、信息量更少。两种推理链优化的 top-15 最大熵减 token 也完全不同——GPT-4o 侧重描述性细节,自生成侧重类别相关词。

3. RD-MLDG 框架

阶段一 — MTCT(Multi-Task Cross-Training):解决挑战一。对每个训练图像同时构建两个 prompt:

  • 分类路径(no-thinking):直接预测标签 → 提供稳定训练信号
  • 推理路径:输入推理链 → 丰富的语义信号

联合优化损失 \(\mathcal{L}_{\text{MTCT}}\),其中推理链损失按 token 长度归一化以防长链主导梯度。分类路径作为"锚"引导推理路径优化,防止在复杂推理序列上过拟合。

阶段二 — SARR(Self-Aligned Reasoning Regularization):解决挑战二。MTCT 训练后,让模型自行生成推理链,仅保留 <CONCLUSION> 与 ground-truth 标签匹配的推理链作为新的监督信号,然后重新进行 MTCT 训练。迭代 \(N\) 轮(实验设 \(N=3\)),逐步将 GPT-4o 风格的推理替换为模型自身风格,在语义丰富性与可优化性之间取得平衡。

实现细节:InternVL3-8B 基础模型,LoRA rank 8(同时插入视觉编码器和语言解码器),每阶段 3 epoch,batch size 128,lr 5e-4,AdamW,4× A100 80GB。

实验结果

主实验:DomainBed 标准基准 SOTA 对比

方法 骨干 PACS VLCS OfficeHome TerraInc 平均
CORAL ResNet-50 86.20 78.80 68.70 47.60 70.33
SMOS ResNet-50 89.40 79.80 71.60 55.40 74.05
SWAD ViT-B/16 91.30 79.40 76.90 45.40 73.25
CLIP ViT-B/16 96.20 81.70 82.00 33.40 73.33
SIMPLE+ ViT-B/16 99.00 82.70 87.70 59.00 82.10
CLIP-LoRA ViT-B/16 97.10 83.10 83.90 55.70 79.95
DGCLDTP ViT-B/16 97.03 84.79 87.65 63.27 83.19
GPT-4o MLLM 97.83 85.41 90.12 60.49 83.46
InternVL3-8B MLLM 96.26 85.67 85.10 46.84 78.47
RD-MLDG MLLM 98.13 87.03 91.73 70.65 86.89

RD-MLDG 平均准确率 86.89%,超越 GPT-4o +3.43%p,超越最强 CLIP 方法 DGCLDTP +3.70%p。尤其在 TerraInc 上提升惊人——从 InternVL3-8B 的 46.84% 提升到 70.65%(+23.81%p),甚至超越 GPT-4o 的 60.49% 达 +10.16%p。

消融实验(InternVL3-8B,OfficeHome / TerraInc)

配置 OfficeHome \(\Delta\) TerraInc \(\Delta\)
Zero-shot 85.10 46.84
+ CLS only(直接分类) 89.39 66.69
+ Reasoning only(基线) 88.76 64.56
+ MTCT 90.58 +1.81 67.19 +2.63
+ SARR 90.91 +2.14 65.29 +0.73
+ MTCT + SARR(完整) 91.73 +2.97 70.65 +6.09

关键发现:(1) 仅用推理链(Reasoning only)反而比直接分类(CLS only)低 0.63%p / 2.13%p,验证了挑战一;(2) MTCT 单独即带来显著提升;(3) MTCT + SARR 联合效果远超各自单独使用,尤其在 TerraInc 上提升达 +6.09%p。

SARR 自标注轮数分析

在 TerraInc 上,\(N=1\) 时准确率 70.06%,\(N=2\) 时 70.59%(\(p<0.01\) 显著),\(N=3\) 时 70.65%(与 \(N=2\) 差异不显著 \(p\approx0.07\)),\(N>3\) 后稳定在 70.50%~70.60%。token 概率分布也在前 2-3 轮即收敛。

MTCT 的 token 级分析

MTCT 后类别 token 的高置信比例(>0.75)从 86.33% 提升至 90.23%,低置信比例(<0.25)从 7.59% 降至 3.19%。虽然 GPT-4o 推理链的所有 token 仍有 19.33% 停留在低概率区(语义细节难以完全拟合),但分类所需的关键 token 获得了显著增强。

亮点与不足

亮点

  • "过程级不变性"的全新视角:从特征级不变性跃升到推理过程级不变性,推理链中类别相关的推理步骤在不同域之间天然一致
  • 问题驱动的方法设计:先系统分析两大挑战(优化困难 + 模式不匹配),再各有针对性地设计 MTCT 和 SARR,逻辑严密
  • TerraInc 上效果炸裂:相比基础模型 +23.81%p,相比 GPT-4o +10.16%p,说明推理链对域变化剧烈的场景尤其有效

局限

  • 依赖 GPT-4o 生成初始推理链,数据构建成本不低
  • 仅验证了分类任务,推理驱动 DG 能否推广到检测/分割等任务尚不清楚
  • 4× A100 的训练开销对广泛复现有一定门槛

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首个推理驱动域泛化框架 + DomainBed-Reasoning 数据集
  • 实验充分度: ⭐⭐⭐⭐⭐ 4 个 DG 基准 + 双模型消融 + token 级分析 + 参数敏感性
  • 写作质量: ⭐⭐⭐⭐⭐ 挑战发现→分析→方法→验证的完整逻辑闭环
  • 价值: ⭐⭐⭐⭐⭐ 为域泛化开辟推理驱动新范式

相关论文