跳转至

SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction

日期: 2026-03-19
arXiv: 2603.18774
代码: GitHub
领域: 3D视觉
关键词: RGB-热成像融合, 3D重建, VGGT适配, LoRA微调, 跨模态位姿估计

一句话总结

提出 SEAR,用 LoRA 适配器+模态专用 camera token+混合批处理策略,以不到 5% 参数量将 VGGT 几何基础模型适配到 RGB-热成像联合 3D 重建,仅需 ~15K 配对图像训练即在 AUC@30 上超越 SOTA 29%+。

研究背景与动机

  1. 领域现状: VGGT 等前馈式视觉几何模型可以从稀疏 RGB 输入单次推理估计相机位姿和场景重建。但它们只支持 RGB 输入。

  2. 现有痛点: (a) 热成像对低光照/浓烟等恶劣环境至关重要(基础设施检测、夜间重建),但 VGGT 不支持;(b) 直接将 RGB+热成像混合输入 VGGT 会产生两个不对齐的独立重建;(c) 多模态大规模重训练计算上不可行,RGB-热成像配对数据也很稀缺。

  3. 核心矛盾: VGGT 对单独的 RGB 或单独的热成像都能工作,但混合输入时无法对齐两种模态——问题不在单模态理解,而在跨模态一致性。

  4. 切入角度: 既然单模态已经 OK,跨模态对齐应该只需要轻量微调——不需要全量重训。

  5. 核心 idea: LoRA 适配(冻结 VGGT 主体)+ 可学习热成像 camera token(区分模态)+ 无配对批处理(防止依赖 RGB-热像素对应的捷径)。

方法详解

整体框架

在 VGGT (1B参数) 上做 PEFT: 1. DINOv2 作为两种模态的 tokenizer(冻结) 2. 为热成像引入独立的 camera token(用 RGB token 初始化) 3. 在 24 层交替注意力模块的所有线性层加 LoRA(r=64, α=128) 4. 使用无配对混合批处理训练

关键设计

  1. LoRA 跨模态适配:

    • 做什么:在冻结 VGGT 上加 ~50M 可训练参数(<5%)
    • 核心思路:LoRA 加在交替注意力(frame-wise + global)的所有线性层上,保留预训练 RGB 知识的同时学习跨模态对齐
    • 设计动机:全量微调 1B 模型成本高且可能灾难性遗忘 RGB 能力
  2. 热成像专用 Camera Token:

    • 做什么:为热成像模态引入独立的可学习 token
    • 核心思路:VGGT 原有 2 个 camera token(第一帧+后续帧),为热成像复制并独立学习。用 RGB token 权重初始化保持早期稳定
    • 设计动机:DINOv2 提取的 RGB 和热成像特征分布不同——独立 token 让模型学习模态特定的相机内外参编码
  3. 无配对混合批处理:

    • 做什么:训练时确保同一 batch 中的 RGB 和热成像图像没有共享位姿
    • 核心思路:从同一场景随机采样 RGB 和热成像图像,随机混合比例 \(\tau \sim U(0,1)\),但不保证配对关系
    • 设计动机:如果 batch 中存在 RGB-热配对(同一视角),模型可能学到基于像素对应的捷径而非真正的跨模态几何对齐

训练细节

  • 训练数据:66 个场景 ~15,000 对 RGB+热图像(5 个公开数据集聚合)
  • 100 epoch,单张 A100 约 2 天
  • 13 个不同种子训练取平均(应对数值不稳定性)

实验关键数据

位姿估计

方法 AUC@30 (公开数据集) AUC@30 (SEAR数据集)
SEAR 70.0 62.8
MINIMA_ROMA 41.0 48.2
VGGT (原始) 分裂重建 分裂重建

+29% AUC@30 提升,同时保持高配准率。

关键发现

发现 说明
<5% 参数量即可对齐 LoRA r=64 ~50M 参数足够
推理速度无损 与原 VGGT 推理时间几乎相同
低光/浓烟环境可用 热成像在 RGB 失败的场景下仍能贡献有效信息
无配对批处理关键 有配对时模型走捷径,最终泛化差

消融实验

配置 AUC@30
完整 SEAR 最高
无热 camera token 下降
无 LoRA 大幅下降
有配对批处理 下降(学到捷径)
无数据增强 下降

亮点与洞察

  • "单模态已行,跨模态只需微调"的洞察:VGGT 对 RGB 和热成像分别都能做合理重建——说明几何先验已在,只缺模态对齐。这个洞察使得轻量适配成为可能。
  • 无配对训练的反直觉设计:直觉上配对数据(同位姿的 RGB+热)应该更好,但实际配对导致捷径学习。无配对反而迫使模型学真正的跨模态几何关系。
  • 极致数据效率:15K 配对图像(远少于 VGGT 的 RGB 预训练数据),单 A100 两天——学术界可复现。
  • 新数据集贡献:9 个场景,含不同光照/视角的 RGB-热轨迹——填补了跨空间多模态重建基准的空白。

局限性 / 可改进方向

  • 仅适配 VGGT:方法论通用但只在 VGGT 上验证——DUSt3R、MASt3R 等其他几何模型上效果未知
  • 热成像分辨率低:FLIR One Pro LT 分辨率有限,高分辨率热成像效果可能不同
  • 地面真值依赖 VGGT:除 RF 数据集外,ground truth 位姿由 VGGT 在 RGB 上估计——存在循环偏差风险

相关工作与启发

  • vs VGGT 原始: 直接混合 RGB+热输入会产生两个不对齐的重建,SEAR 用 <5% 参数修复了这一gap
  • vs COLMAP: COLMAP 在跨模态配准率极低,虽然配准成功时指标好,但大量场景直接失败
  • 启发:这种"冻结大模型 + LoRA 适配新模态"的范式可扩展到其他模态(深度、LiDAR、事件相机等)

评分

  • 新颖性: ⭐⭐⭐⭐ LoRA+camera token 的组合简洁高效,无配对训练设计巧妙
  • 实验充分度: ⭐⭐⭐⭐⭐ 6 基线 + 新数据集 + 低光/浓烟极端场景 + 消融 + 13 种子平均
  • 写作质量: ⭐⭐⭐⭐ 清晰系统,数据集描述详细
  • 价值: ⭐⭐⭐⭐ 对多模态 3D 重建有直接实用意义,极致数据效率