Reasoning-Driven Multimodal LLM for Domain Generalization¶
会议: ICLR 2026
arXiv: 2602.23777
单位: 西安电子科技大学 / 微软亚洲研究院
领域: 域泛化 / 多模态推理
一句话总结¶
提出 RD-MLDG——首个将 MLLM 推理链引入域泛化的框架。构建 DomainBed-Reasoning 数据集,系统分析推理监督的两大挑战(优化困难 + 推理模式不匹配),通过 MTCT(多任务交叉训练)与 SARR(自对齐推理正则化)协同解决,在 4 个标准 DG 基准上以 86.89% 的平均准确率大幅超越 GPT-4o(83.46%)和所有 CLIP/ViT 方法。
研究动机¶
现有域泛化方法(IRM、CORAL、MixStyle、SWAD 等)聚焦于特征级不变性——通过对齐不同域的潜在表示来提升泛化。CLIP 系方法引入了多模态表示但仍局限于特征级对齐。问题在于:特征级不变性无法捕捉更高层的跨域共性。
MLLM 展现出强大推理能力,推理链可以将分类过程显式拆解为可解释、域不变的步骤(例如不同域的"打印机"图片虽视觉差异巨大,但其推理链中类别相关部分高度一致)。然而直接用推理链做监督,性能反而不如直接标签监督——这一矛盾促使本文深入分析并设计新框架。
方法详解¶
1. DomainBed-Reasoning 数据集构建¶
在 DomainBed 四个数据集(PACS/VLCS/OfficeHome/TerraInc)上,用 GPT-4o 为每个样本生成 5 阶段推理链:
SUMMARY → CAPTION → REASONING → REFLECTION → CONCLUSION
关键设计:(1) 不提供 ground-truth 标签,迫使推理基于视觉证据;(2) 增加 REFLECTION 阶段做自检(相比 LLaVA-CoT 的 4 阶段减少无效生成);(3) 拒绝采样:每样本生成多条候选,仅保留包含所有组件且结论一致的推理链。
2. 两大挑战的系统分析¶
挑战一:推理监督的优化鸿沟。 在 TerraInc 上用 InternVL3-8B 实验:zero-shot 下加推理链比 no-thinking 提升 +43.28%p(ground-truth token 概率),但 SFT 后推理链反而比直接标签监督低 0.93%p。原因是推理链 SFT 仅使 1.88%p 的 token 从低概率移至高概率(直接标签 SFT 为 +43.38%p),收敛更慢、分类 token 的高置信比例更低(86.33% vs 92.23%)。
挑战二:推理模式不匹配。 GPT-4o 推理 vs InternVL3-8B 自身推理存在风格差异:GPT-4o 的推理包含丰富上下文描述(背景、视角),SFT 后 token 概率仅提升 +1.88%p;而用自生成推理做 SFT 提升达 +29.74%p,但内容更简单、信息量更少。两种推理链优化的 top-15 最大熵减 token 也完全不同——GPT-4o 侧重描述性细节,自生成侧重类别相关词。
3. RD-MLDG 框架¶
阶段一 — MTCT(Multi-Task Cross-Training):解决挑战一。对每个训练图像同时构建两个 prompt:
- 分类路径(no-thinking):直接预测标签 → 提供稳定训练信号
- 推理路径:输入推理链 → 丰富的语义信号
联合优化损失 \(\mathcal{L}_{\text{MTCT}}\),其中推理链损失按 token 长度归一化以防长链主导梯度。分类路径作为"锚"引导推理路径优化,防止在复杂推理序列上过拟合。
阶段二 — SARR(Self-Aligned Reasoning Regularization):解决挑战二。MTCT 训练后,让模型自行生成推理链,仅保留 <CONCLUSION> 与 ground-truth 标签匹配的推理链作为新的监督信号,然后重新进行 MTCT 训练。迭代 \(N\) 轮(实验设 \(N=3\)),逐步将 GPT-4o 风格的推理替换为模型自身风格,在语义丰富性与可优化性之间取得平衡。
实现细节:InternVL3-8B 基础模型,LoRA rank 8(同时插入视觉编码器和语言解码器),每阶段 3 epoch,batch size 128,lr 5e-4,AdamW,4× A100 80GB。
实验结果¶
主实验:DomainBed 标准基准 SOTA 对比¶
| 方法 | 骨干 | PACS | VLCS | OfficeHome | TerraInc | 平均 |
|---|---|---|---|---|---|---|
| CORAL | ResNet-50 | 86.20 | 78.80 | 68.70 | 47.60 | 70.33 |
| SMOS | ResNet-50 | 89.40 | 79.80 | 71.60 | 55.40 | 74.05 |
| SWAD | ViT-B/16 | 91.30 | 79.40 | 76.90 | 45.40 | 73.25 |
| CLIP | ViT-B/16 | 96.20 | 81.70 | 82.00 | 33.40 | 73.33 |
| SIMPLE+ | ViT-B/16 | 99.00 | 82.70 | 87.70 | 59.00 | 82.10 |
| CLIP-LoRA | ViT-B/16 | 97.10 | 83.10 | 83.90 | 55.70 | 79.95 |
| DGCLDTP | ViT-B/16 | 97.03 | 84.79 | 87.65 | 63.27 | 83.19 |
| GPT-4o | MLLM | 97.83 | 85.41 | 90.12 | 60.49 | 83.46 |
| InternVL3-8B | MLLM | 96.26 | 85.67 | 85.10 | 46.84 | 78.47 |
| RD-MLDG | MLLM | 98.13 | 87.03 | 91.73 | 70.65 | 86.89 |
RD-MLDG 平均准确率 86.89%,超越 GPT-4o +3.43%p,超越最强 CLIP 方法 DGCLDTP +3.70%p。尤其在 TerraInc 上提升惊人——从 InternVL3-8B 的 46.84% 提升到 70.65%(+23.81%p),甚至超越 GPT-4o 的 60.49% 达 +10.16%p。
消融实验(InternVL3-8B,OfficeHome / TerraInc)¶
| 配置 | OfficeHome | \(\Delta\) | TerraInc | \(\Delta\) |
|---|---|---|---|---|
| Zero-shot | 85.10 | — | 46.84 | — |
| + CLS only(直接分类) | 89.39 | — | 66.69 | — |
| + Reasoning only(基线) | 88.76 | — | 64.56 | — |
| + MTCT | 90.58 | +1.81 | 67.19 | +2.63 |
| + SARR | 90.91 | +2.14 | 65.29 | +0.73 |
| + MTCT + SARR(完整) | 91.73 | +2.97 | 70.65 | +6.09 |
关键发现:(1) 仅用推理链(Reasoning only)反而比直接分类(CLS only)低 0.63%p / 2.13%p,验证了挑战一;(2) MTCT 单独即带来显著提升;(3) MTCT + SARR 联合效果远超各自单独使用,尤其在 TerraInc 上提升达 +6.09%p。
SARR 自标注轮数分析¶
在 TerraInc 上,\(N=1\) 时准确率 70.06%,\(N=2\) 时 70.59%(\(p<0.01\) 显著),\(N=3\) 时 70.65%(与 \(N=2\) 差异不显著 \(p\approx0.07\)),\(N>3\) 后稳定在 70.50%~70.60%。token 概率分布也在前 2-3 轮即收敛。
MTCT 的 token 级分析¶
MTCT 后类别 token 的高置信比例(>0.75)从 86.33% 提升至 90.23%,低置信比例(<0.25)从 7.59% 降至 3.19%。虽然 GPT-4o 推理链的所有 token 仍有 19.33% 停留在低概率区(语义细节难以完全拟合),但分类所需的关键 token 获得了显著增强。
亮点与不足¶
亮点:
- "过程级不变性"的全新视角:从特征级不变性跃升到推理过程级不变性,推理链中类别相关的推理步骤在不同域之间天然一致
- 问题驱动的方法设计:先系统分析两大挑战(优化困难 + 模式不匹配),再各有针对性地设计 MTCT 和 SARR,逻辑严密
- TerraInc 上效果炸裂:相比基础模型 +23.81%p,相比 GPT-4o +10.16%p,说明推理链对域变化剧烈的场景尤其有效
局限:
- 依赖 GPT-4o 生成初始推理链,数据构建成本不低
- 仅验证了分类任务,推理驱动 DG 能否推广到检测/分割等任务尚不清楚
- 4× A100 的训练开销对广泛复现有一定门槛
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首个推理驱动域泛化框架 + DomainBed-Reasoning 数据集
- 实验充分度: ⭐⭐⭐⭐⭐ 4 个 DG 基准 + 双模型消融 + token 级分析 + 参数敏感性
- 写作质量: ⭐⭐⭐⭐⭐ 挑战发现→分析→方法→验证的完整逻辑闭环
- 价值: ⭐⭐⭐⭐⭐ 为域泛化开辟推理驱动新范式
相关论文¶
- [CVPR 2026] Towards Multimodal Domain Generalization with Few Labels
- [ACL 2025] Table Understanding and (Multimodal) LLMs: A Cross-Domain Case Study on Scientific Tables
- [ICLR 2026] WebDS: An End-to-End Benchmark for Web-based Data Science
- [ICLR 2026] Why Reinforcement Fine-Tuning Preserves Prior Knowledge Better: A Data Perspective
- [ICLR 2026] Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play