SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction¶
日期: 2026-03-19
arXiv: 2603.18774
代码: GitHub
领域: 3D视觉
关键词: RGB-热成像融合, 3D重建, VGGT适配, LoRA微调, 跨模态位姿估计
一句话总结¶
提出 SEAR,用 LoRA 适配器+模态专用 camera token+混合批处理策略,以不到 5% 参数量将 VGGT 几何基础模型适配到 RGB-热成像联合 3D 重建,仅需 ~15K 配对图像训练即在 AUC@30 上超越 SOTA 29%+。
研究背景与动机¶
-
领域现状: VGGT 等前馈式视觉几何模型可以从稀疏 RGB 输入单次推理估计相机位姿和场景重建。但它们只支持 RGB 输入。
-
现有痛点: (a) 热成像对低光照/浓烟等恶劣环境至关重要(基础设施检测、夜间重建),但 VGGT 不支持;(b) 直接将 RGB+热成像混合输入 VGGT 会产生两个不对齐的独立重建;(c) 多模态大规模重训练计算上不可行,RGB-热成像配对数据也很稀缺。
-
核心矛盾: VGGT 对单独的 RGB 或单独的热成像都能工作,但混合输入时无法对齐两种模态——问题不在单模态理解,而在跨模态一致性。
-
切入角度: 既然单模态已经 OK,跨模态对齐应该只需要轻量微调——不需要全量重训。
-
核心 idea: LoRA 适配(冻结 VGGT 主体)+ 可学习热成像 camera token(区分模态)+ 无配对批处理(防止依赖 RGB-热像素对应的捷径)。
方法详解¶
整体框架¶
在 VGGT (1B参数) 上做 PEFT: 1. DINOv2 作为两种模态的 tokenizer(冻结) 2. 为热成像引入独立的 camera token(用 RGB token 初始化) 3. 在 24 层交替注意力模块的所有线性层加 LoRA(r=64, α=128) 4. 使用无配对混合批处理训练
关键设计¶
-
LoRA 跨模态适配:
- 做什么:在冻结 VGGT 上加 ~50M 可训练参数(<5%)
- 核心思路:LoRA 加在交替注意力(frame-wise + global)的所有线性层上,保留预训练 RGB 知识的同时学习跨模态对齐
- 设计动机:全量微调 1B 模型成本高且可能灾难性遗忘 RGB 能力
-
热成像专用 Camera Token:
- 做什么:为热成像模态引入独立的可学习 token
- 核心思路:VGGT 原有 2 个 camera token(第一帧+后续帧),为热成像复制并独立学习。用 RGB token 权重初始化保持早期稳定
- 设计动机:DINOv2 提取的 RGB 和热成像特征分布不同——独立 token 让模型学习模态特定的相机内外参编码
-
无配对混合批处理:
- 做什么:训练时确保同一 batch 中的 RGB 和热成像图像没有共享位姿
- 核心思路:从同一场景随机采样 RGB 和热成像图像,随机混合比例 \(\tau \sim U(0,1)\),但不保证配对关系
- 设计动机:如果 batch 中存在 RGB-热配对(同一视角),模型可能学到基于像素对应的捷径而非真正的跨模态几何对齐
训练细节¶
- 训练数据:66 个场景 ~15,000 对 RGB+热图像(5 个公开数据集聚合)
- 100 epoch,单张 A100 约 2 天
- 13 个不同种子训练取平均(应对数值不稳定性)
实验关键数据¶
位姿估计¶
| 方法 | AUC@30 (公开数据集) | AUC@30 (SEAR数据集) |
|---|---|---|
| SEAR | 70.0 | 62.8 |
| MINIMA_ROMA | 41.0 | 48.2 |
| VGGT (原始) | 分裂重建 | 分裂重建 |
+29% AUC@30 提升,同时保持高配准率。
关键发现¶
| 发现 | 说明 |
|---|---|
| <5% 参数量即可对齐 | LoRA r=64 ~50M 参数足够 |
| 推理速度无损 | 与原 VGGT 推理时间几乎相同 |
| 低光/浓烟环境可用 | 热成像在 RGB 失败的场景下仍能贡献有效信息 |
| 无配对批处理关键 | 有配对时模型走捷径,最终泛化差 |
消融实验¶
| 配置 | AUC@30 |
|---|---|
| 完整 SEAR | 最高 |
| 无热 camera token | 下降 |
| 无 LoRA | 大幅下降 |
| 有配对批处理 | 下降(学到捷径) |
| 无数据增强 | 下降 |
亮点与洞察¶
- "单模态已行,跨模态只需微调"的洞察:VGGT 对 RGB 和热成像分别都能做合理重建——说明几何先验已在,只缺模态对齐。这个洞察使得轻量适配成为可能。
- 无配对训练的反直觉设计:直觉上配对数据(同位姿的 RGB+热)应该更好,但实际配对导致捷径学习。无配对反而迫使模型学真正的跨模态几何关系。
- 极致数据效率:15K 配对图像(远少于 VGGT 的 RGB 预训练数据),单 A100 两天——学术界可复现。
- 新数据集贡献:9 个场景,含不同光照/视角的 RGB-热轨迹——填补了跨空间多模态重建基准的空白。
局限性 / 可改进方向¶
- 仅适配 VGGT:方法论通用但只在 VGGT 上验证——DUSt3R、MASt3R 等其他几何模型上效果未知
- 热成像分辨率低:FLIR One Pro LT 分辨率有限,高分辨率热成像效果可能不同
- 地面真值依赖 VGGT:除 RF 数据集外,ground truth 位姿由 VGGT 在 RGB 上估计——存在循环偏差风险
相关工作与启发¶
- vs VGGT 原始: 直接混合 RGB+热输入会产生两个不对齐的重建,SEAR 用 <5% 参数修复了这一gap
- vs COLMAP: COLMAP 在跨模态配准率极低,虽然配准成功时指标好,但大量场景直接失败
- 启发:这种"冻结大模型 + LoRA 适配新模态"的范式可扩展到其他模态(深度、LiDAR、事件相机等)
评分¶
- 新颖性: ⭐⭐⭐⭐ LoRA+camera token 的组合简洁高效,无配对训练设计巧妙
- 实验充分度: ⭐⭐⭐⭐⭐ 6 基线 + 新数据集 + 低光/浓烟极端场景 + 消融 + 13 种子平均
- 写作质量: ⭐⭐⭐⭐ 清晰系统,数据集描述详细
- 价值: ⭐⭐⭐⭐ 对多模态 3D 重建有直接实用意义,极致数据效率