Reasoning-Driven Multimodal LLM for Domain Generalization¶

会议: ICLR 2026
arXiv: 2602.23777
单位: 西安电子科技大学 / 微软亚洲研究院领域: 域泛化 / 多模态推理

一句话总结¶

提出 RD-MLDG——首个将 MLLM 推理链引入域泛化的框架。构建 DomainBed-Reasoning 数据集，系统分析推理监督的两大挑战（优化困难 + 推理模式不匹配），通过 MTCT（多任务交叉训练）与 SARR（自对齐推理正则化）协同解决，在 4 个标准 DG 基准上以 86.89% 的平均准确率大幅超越 GPT-4o（83.46%）和所有 CLIP/ViT 方法。

研究动机¶

现有域泛化方法（IRM、CORAL、MixStyle、SWAD 等）聚焦于特征级不变性——通过对齐不同域的潜在表示来提升泛化。CLIP 系方法引入了多模态表示但仍局限于特征级对齐。问题在于：特征级不变性无法捕捉更高层的跨域共性。

MLLM 展现出强大推理能力，推理链可以将分类过程显式拆解为可解释、域不变的步骤（例如不同域的"打印机"图片虽视觉差异巨大，但其推理链中类别相关部分高度一致）。然而直接用推理链做监督，性能反而不如直接标签监督——这一矛盾促使本文深入分析并设计新框架。

方法详解¶

1. DomainBed-Reasoning 数据集构建¶

在 DomainBed 四个数据集（PACS/VLCS/OfficeHome/TerraInc）上，用 GPT-4o 为每个样本生成 5 阶段推理链：

SUMMARY → CAPTION → REASONING → REFLECTION → CONCLUSION

关键设计：(1) 不提供 ground-truth 标签，迫使推理基于视觉证据；(2) 增加 REFLECTION 阶段做自检（相比 LLaVA-CoT 的 4 阶段减少无效生成）；(3) 拒绝采样：每样本生成多条候选，仅保留包含所有组件且结论一致的推理链。

2. 两大挑战的系统分析¶

挑战一：推理监督的优化鸿沟。 在 TerraInc 上用 InternVL3-8B 实验：zero-shot 下加推理链比 no-thinking 提升 +43.28%p（ground-truth token 概率），但 SFT 后推理链反而比直接标签监督低 0.93%p。原因是推理链 SFT 仅使 1.88%p 的 token 从低概率移至高概率（直接标签 SFT 为 +43.38%p），收敛更慢、分类 token 的高置信比例更低（86.33% vs 92.23%）。

挑战二：推理模式不匹配。 GPT-4o 推理 vs InternVL3-8B 自身推理存在风格差异：GPT-4o 的推理包含丰富上下文描述（背景、视角），SFT 后 token 概率仅提升 +1.88%p；而用自生成推理做 SFT 提升达 +29.74%p，但内容更简单、信息量更少。两种推理链优化的 top-15 最大熵减 token 也完全不同——GPT-4o 侧重描述性细节，自生成侧重类别相关词。

3. RD-MLDG 框架¶

阶段一 — MTCT（Multi-Task Cross-Training）：解决挑战一。对每个训练图像同时构建两个 prompt：

分类路径（no-thinking）：直接预测标签 → 提供稳定训练信号
推理路径：输入推理链 → 丰富的语义信号

联合优化损失 \(\mathcal{L}_{\text{MTCT}}\)，其中推理链损失按 token 长度归一化以防长链主导梯度。分类路径作为"锚"引导推理路径优化，防止在复杂推理序列上过拟合。

阶段二 — SARR（Self-Aligned Reasoning Regularization）：解决挑战二。MTCT 训练后，让模型自行生成推理链，仅保留 <CONCLUSION> 与 ground-truth 标签匹配的推理链作为新的监督信号，然后重新进行 MTCT 训练。迭代 \(N\) 轮（实验设 \(N=3\)），逐步将 GPT-4o 风格的推理替换为模型自身风格，在语义丰富性与可优化性之间取得平衡。

实现细节：InternVL3-8B 基础模型，LoRA rank 8（同时插入视觉编码器和语言解码器），每阶段 3 epoch，batch size 128，lr 5e-4，AdamW，4× A100 80GB。

实验结果¶

主实验：DomainBed 标准基准 SOTA 对比¶

方法	骨干	PACS	VLCS	OfficeHome	TerraInc	平均
CORAL	ResNet-50	86.20	78.80	68.70	47.60	70.33
SMOS	ResNet-50	89.40	79.80	71.60	55.40	74.05
SWAD	ViT-B/16	91.30	79.40	76.90	45.40	73.25
CLIP	ViT-B/16	96.20	81.70	82.00	33.40	73.33
SIMPLE+	ViT-B/16	99.00	82.70	87.70	59.00	82.10
CLIP-LoRA	ViT-B/16	97.10	83.10	83.90	55.70	79.95
DGCLDTP	ViT-B/16	97.03	84.79	87.65	63.27	83.19
GPT-4o	MLLM	97.83	85.41	90.12	60.49	83.46
InternVL3-8B	MLLM	96.26	85.67	85.10	46.84	78.47
RD-MLDG	MLLM	98.13	87.03	91.73	70.65	86.89

RD-MLDG 平均准确率 86.89%，超越 GPT-4o +3.43%p，超越最强 CLIP 方法 DGCLDTP +3.70%p。尤其在 TerraInc 上提升惊人——从 InternVL3-8B 的 46.84% 提升到 70.65%（+23.81%p），甚至超越 GPT-4o 的 60.49% 达 +10.16%p。

消融实验（InternVL3-8B，OfficeHome / TerraInc）¶

配置	OfficeHome	\(\Delta\)	TerraInc	\(\Delta\)
Zero-shot	85.10	—	46.84	—
+ CLS only（直接分类）	89.39	—	66.69	—
+ Reasoning only（基线）	88.76	—	64.56	—
+ MTCT	90.58	+1.81	67.19	+2.63
+ SARR	90.91	+2.14	65.29	+0.73
+ MTCT + SARR（完整）	91.73	+2.97	70.65	+6.09

关键发现：(1) 仅用推理链（Reasoning only）反而比直接分类（CLS only）低 0.63%p / 2.13%p，验证了挑战一；(2) MTCT 单独即带来显著提升；(3) MTCT + SARR 联合效果远超各自单独使用，尤其在 TerraInc 上提升达 +6.09%p。

SARR 自标注轮数分析¶

在 TerraInc 上，\(N=1\) 时准确率 70.06%，\(N=2\) 时 70.59%（\(p<0.01\) 显著），\(N=3\) 时 70.65%（与 \(N=2\) 差异不显著 \(p\approx0.07\)），\(N>3\) 后稳定在 70.50%~70.60%。token 概率分布也在前 2-3 轮即收敛。

MTCT 的 token 级分析¶

MTCT 后类别 token 的高置信比例（>0.75）从 86.33% 提升至 90.23%，低置信比例（<0.25）从 7.59% 降至 3.19%。虽然 GPT-4o 推理链的所有 token 仍有 19.33% 停留在低概率区（语义细节难以完全拟合），但分类所需的关键 token 获得了显著增强。

亮点与不足¶

亮点：

"过程级不变性"的全新视角：从特征级不变性跃升到推理过程级不变性，推理链中类别相关的推理步骤在不同域之间天然一致
问题驱动的方法设计：先系统分析两大挑战（优化困难 + 模式不匹配），再各有针对性地设计 MTCT 和 SARR，逻辑严密
TerraInc 上效果炸裂：相比基础模型 +23.81%p，相比 GPT-4o +10.16%p，说明推理链对域变化剧烈的场景尤其有效

局限：

依赖 GPT-4o 生成初始推理链，数据构建成本不低
仅验证了分类任务，推理驱动 DG 能否推广到检测/分割等任务尚不清楚
4× A100 的训练开销对广泛复现有一定门槛

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个推理驱动域泛化框架 + DomainBed-Reasoning 数据集
实验充分度: ⭐⭐⭐⭐⭐ 4 个 DG 基准 + 双模型消融 + token 级分析 + 参数敏感性
写作质量: ⭐⭐⭐⭐⭐ 挑战发现→分析→方法→验证的完整逻辑闭环
价值: ⭐⭐⭐⭐⭐ 为域泛化开辟推理驱动新范式