跳转至

SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction

日期: 2026-03-20
arXiv: 2603.18774
代码: 无
领域: 3D视觉 / 多模态VLM
关键词: RGB-thermal reconstruction, cross-modal 3D, LoRA adaptation, camera pose estimation, VGGT

一句话总结

提出 SEAR,通过轻量 LoRA 微调(仅 ~5% 参数可训练)将预训练 VGGT 模型适配到 RGB+热成像跨模态 3D 重建,无需配对/同步数据,在位姿估计上 AUC@30 达 70.0(vs COLMAP 57.6),推理速度 200× 快于 MINIMA_ROMA,且在烟雾遮挡等极端条件下保持鲁棒。

研究背景与动机

  1. 领域现状: 从多视图图像进行 3D 重建已有成熟方案(DUSt3R、MASt3R、VGGT),但这些方法假设输入为同一模态(RGB)。热成像在烟雾/低光/恶劣环境中有独特优势,但 RGB-热成像跨模态重建面临巨大挑战。

  2. 现有痛点: (a) RGB 和热成像之间存在巨大的域差距——纹理/颜色信息在热成像中缺失;(b) 获取精确的 RGB-T 配对数据成本极高;(c) 传统特征匹配方法(如 COLMAP + MINIMA)在跨模态场景下匹配率低且速度慢。

  3. 核心 idea: 不需要配对数据——只需约 15K 张 RGB-T 图像对,用 LoRA + 可学习热成像相机 token 适配预训练几何 Transformer,使其在保持 RGB 能力的同时学会跨模态的几何理解。

方法详解

关键设计

  1. LoRA-based 轻量适配:

    • 在冻结的 VGGT backbone 上添加 LoRA adapter(~50M 可训练参数,仅 5%)
    • 保持了预训练模型学到的丰富几何先验,同时学习 RGB-T 跨模态映射
  2. 可学习热成像相机 token:

    • 从 RGB 相机 token 初始化,学习热成像模态特定的特征
    • 让模型能区分 RGB 和热成像输入,适配不同模态的统计特性
  3. 独立批采样:

    • 训练时 RGB 和热成像不要求配对——随机独立采样
    • 强迫模型学习跨模态的视角间关系,而非依赖像素级对应
    • 不对称数据增强:RGB 和热成像用不同的增强策略

实验关键数据

相机位姿估计

方法 AUC@30 RRA@30 RTA@30 速度(FPS)
COLMAP 57.6 82.5 74.6 -
MINIMA_ROMA 41.0 68.3 63.0 0.05
SEAR 70.0 90.6 87.6 10.46

点云重建

方法 Chamfer ↓ PCC (完整性) ↓ PCA (准确性) ↓
COLMAP 1.42 1.20 1.64
MASt3R 0.46 0.27 0.66
SEAR 0.27 0.06 0.47

关键发现

  • 仅需 ~15K RGB-T 图像对训练,100 epoch 在单张 A100 上 2 天完成
  • 200× 快于传统匹配方法(MINIMA_ROMA),几乎匹配 VGGT 原生推理速度
  • 在烟雾遮挡和极端光照变化场景下保持 100% 注册率
  • 独立批采样的设计使模型不依赖配对数据,极大降低了数据需求

亮点与洞察

  • 极简高效:LoRA + 可学习模态 token 的组合是适配预训练几何模型到新模态的最轻量方案——可直接推广到其他跨模态场景(如 RGB+事件相机、RGB+SAR)
  • 不需要配对数据是最大亮点:消除了跨模态 3D 重建的数据瓶颈
  • 工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力

  • 可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力

  • 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升

局限性 / 可改进方向

  • 主要在室内/小场景验证,大规模室外场景(如自动驾驶)的效果待测
  • 热成像分辨率通常远低于 RGB,分辨率不匹配的影响未分析
  • 只适配了热成像一种新模态,多模态(RGB+T+深度)联合适配的扩展性未验证
  • 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
  • 更大规模和更多样化数据上的泛化能力需要进一步验证

  • 消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力

  • 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入

评分

  • 新颖性: ⭐⭐⭐⭐ 首次将几何 Transformer 用 LoRA 适配到 RGB-T 跨模态重建
  • 实验充分度: ⭐⭐⭐⭐ 位姿+点云+速度+鲁棒性多维评估
  • 价值: ⭐⭐⭐⭐ 为消防/搜救/夜视等场景提供了实用的 3D 重建方案