SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction¶

日期: 2026-03-19
arXiv: 2603.18774
代码: GitHub
领域: 3D视觉
关键词: RGB-热成像融合, 3D重建, VGGT适配, LoRA微调, 跨模态位姿估计

一句话总结¶

提出 SEAR，用 LoRA 适配器+模态专用 camera token+混合批处理策略，以不到 5% 参数量将 VGGT 几何基础模型适配到 RGB-热成像联合 3D 重建，仅需 ~15K 配对图像训练即在 AUC@30 上超越 SOTA 29%+。

研究背景与动机¶

领域现状: VGGT 等前馈式视觉几何模型可以从稀疏 RGB 输入单次推理估计相机位姿和场景重建。但它们只支持 RGB 输入。
现有痛点: (a) 热成像对低光照/浓烟等恶劣环境至关重要（基础设施检测、夜间重建），但 VGGT 不支持；(b) 直接将 RGB+热成像混合输入 VGGT 会产生两个不对齐的独立重建；(c) 多模态大规模重训练计算上不可行，RGB-热成像配对数据也很稀缺。
核心矛盾: VGGT 对单独的 RGB 或单独的热成像都能工作，但混合输入时无法对齐两种模态——问题不在单模态理解，而在跨模态一致性。
切入角度: 既然单模态已经 OK，跨模态对齐应该只需要轻量微调——不需要全量重训。
核心 idea: LoRA 适配（冻结 VGGT 主体）+ 可学习热成像 camera token（区分模态）+ 无配对批处理（防止依赖 RGB-热像素对应的捷径）。

方法详解¶

整体框架¶

在 VGGT (1B参数) 上做 PEFT： 1. DINOv2 作为两种模态的 tokenizer（冻结） 2. 为热成像引入独立的 camera token（用 RGB token 初始化） 3. 在 24 层交替注意力模块的所有线性层加 LoRA（r=64, α=128） 4. 使用无配对混合批处理训练

关键设计¶

LoRA 跨模态适配:
- 做什么：在冻结 VGGT 上加 ~50M 可训练参数（<5%）
- 核心思路：LoRA 加在交替注意力（frame-wise + global）的所有线性层上，保留预训练 RGB 知识的同时学习跨模态对齐
- 设计动机：全量微调 1B 模型成本高且可能灾难性遗忘 RGB 能力
热成像专用 Camera Token:
- 做什么：为热成像模态引入独立的可学习 token
- 核心思路：VGGT 原有 2 个 camera token（第一帧+后续帧），为热成像复制并独立学习。用 RGB token 权重初始化保持早期稳定
- 设计动机：DINOv2 提取的 RGB 和热成像特征分布不同——独立 token 让模型学习模态特定的相机内外参编码
无配对混合批处理:
- 做什么：训练时确保同一 batch 中的 RGB 和热成像图像没有共享位姿
- 核心思路：从同一场景随机采样 RGB 和热成像图像，随机混合比例 \(\tau \sim U(0,1)\)，但不保证配对关系
- 设计动机：如果 batch 中存在 RGB-热配对（同一视角），模型可能学到基于像素对应的捷径而非真正的跨模态几何对齐

训练细节¶

训练数据：66 个场景 ~15,000 对 RGB+热图像（5 个公开数据集聚合）
100 epoch，单张 A100 约 2 天
13 个不同种子训练取平均（应对数值不稳定性）

实验关键数据¶

位姿估计¶

方法	AUC@30 (公开数据集)	AUC@30 (SEAR数据集)
SEAR	70.0	62.8
MINIMA_ROMA	41.0	48.2
VGGT (原始)	分裂重建	分裂重建

+29% AUC@30 提升，同时保持高配准率。

关键发现¶

发现	说明
<5% 参数量即可对齐	LoRA r=64 ~50M 参数足够
推理速度无损	与原 VGGT 推理时间几乎相同
低光/浓烟环境可用	热成像在 RGB 失败的场景下仍能贡献有效信息
无配对批处理关键	有配对时模型走捷径，最终泛化差

消融实验¶

配置	AUC@30
完整 SEAR	最高
无热 camera token	下降
无 LoRA	大幅下降
有配对批处理	下降（学到捷径）
无数据增强	下降

亮点与洞察¶

"单模态已行，跨模态只需微调"的洞察：VGGT 对 RGB 和热成像分别都能做合理重建——说明几何先验已在，只缺模态对齐。这个洞察使得轻量适配成为可能。
无配对训练的反直觉设计：直觉上配对数据（同位姿的 RGB+热）应该更好，但实际配对导致捷径学习。无配对反而迫使模型学真正的跨模态几何关系。
极致数据效率：15K 配对图像（远少于 VGGT 的 RGB 预训练数据），单 A100 两天——学术界可复现。
新数据集贡献：9 个场景，含不同光照/视角的 RGB-热轨迹——填补了跨空间多模态重建基准的空白。

局限性 / 可改进方向¶

仅适配 VGGT：方法论通用但只在 VGGT 上验证——DUSt3R、MASt3R 等其他几何模型上效果未知
热成像分辨率低：FLIR One Pro LT 分辨率有限，高分辨率热成像效果可能不同
地面真值依赖 VGGT：除 RF 数据集外，ground truth 位姿由 VGGT 在 RGB 上估计——存在循环偏差风险

评分¶

新颖性: ⭐⭐⭐⭐ LoRA+camera token 的组合简洁高效，无配对训练设计巧妙
实验充分度: ⭐⭐⭐⭐⭐ 6 基线 + 新数据集 + 低光/浓烟极端场景 + 消融 + 13 种子平均
写作质量: ⭐⭐⭐⭐ 清晰系统，数据集描述详细
价值: ⭐⭐⭐⭐ 对多模态 3D 重建有直接实用意义，极致数据效率