SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction¶
日期: 2026-03-20
arXiv: 2603.18774
代码: 无
领域: 3D视觉 / 多模态VLM
关键词: RGB-thermal reconstruction, cross-modal 3D, LoRA adaptation, camera pose estimation, VGGT
一句话总结¶
提出 SEAR,通过轻量 LoRA 微调(仅 ~5% 参数可训练)将预训练 VGGT 模型适配到 RGB+热成像跨模态 3D 重建,无需配对/同步数据,在位姿估计上 AUC@30 达 70.0(vs COLMAP 57.6),推理速度 200× 快于 MINIMA_ROMA,且在烟雾遮挡等极端条件下保持鲁棒。
研究背景与动机¶
-
领域现状: 从多视图图像进行 3D 重建已有成熟方案(DUSt3R、MASt3R、VGGT),但这些方法假设输入为同一模态(RGB)。热成像在烟雾/低光/恶劣环境中有独特优势,但 RGB-热成像跨模态重建面临巨大挑战。
-
现有痛点: (a) RGB 和热成像之间存在巨大的域差距——纹理/颜色信息在热成像中缺失;(b) 获取精确的 RGB-T 配对数据成本极高;(c) 传统特征匹配方法(如 COLMAP + MINIMA)在跨模态场景下匹配率低且速度慢。
-
核心 idea: 不需要配对数据——只需约 15K 张 RGB-T 图像对,用 LoRA + 可学习热成像相机 token 适配预训练几何 Transformer,使其在保持 RGB 能力的同时学会跨模态的几何理解。
方法详解¶
关键设计¶
-
LoRA-based 轻量适配:
- 在冻结的 VGGT backbone 上添加 LoRA adapter(~50M 可训练参数,仅 5%)
- 保持了预训练模型学到的丰富几何先验,同时学习 RGB-T 跨模态映射
-
可学习热成像相机 token:
- 从 RGB 相机 token 初始化,学习热成像模态特定的特征
- 让模型能区分 RGB 和热成像输入,适配不同模态的统计特性
-
独立批采样:
- 训练时 RGB 和热成像不要求配对——随机独立采样
- 强迫模型学习跨模态的视角间关系,而非依赖像素级对应
- 不对称数据增强:RGB 和热成像用不同的增强策略
实验关键数据¶
相机位姿估计¶
| 方法 | AUC@30 | RRA@30 | RTA@30 | 速度(FPS) |
|---|---|---|---|---|
| COLMAP | 57.6 | 82.5 | 74.6 | - |
| MINIMA_ROMA | 41.0 | 68.3 | 63.0 | 0.05 |
| SEAR | 70.0 | 90.6 | 87.6 | 10.46 |
点云重建¶
| 方法 | Chamfer ↓ | PCC (完整性) ↓ | PCA (准确性) ↓ |
|---|---|---|---|
| COLMAP | 1.42 | 1.20 | 1.64 |
| MASt3R | 0.46 | 0.27 | 0.66 |
| SEAR | 0.27 | 0.06 | 0.47 |
关键发现¶
- 仅需 ~15K RGB-T 图像对训练,100 epoch 在单张 A100 上 2 天完成
- 200× 快于传统匹配方法(MINIMA_ROMA),几乎匹配 VGGT 原生推理速度
- 在烟雾遮挡和极端光照变化场景下保持 100% 注册率
- 独立批采样的设计使模型不依赖配对数据,极大降低了数据需求
亮点与洞察¶
- 极简高效:LoRA + 可学习模态 token 的组合是适配预训练几何模型到新模态的最轻量方案——可直接推广到其他跨模态场景(如 RGB+事件相机、RGB+SAR)
- 不需要配对数据是最大亮点:消除了跨模态 3D 重建的数据瓶颈
-
工程实现考量:该方法的计算开销可控,在标准 GPU 上可以合理时间内完成训练和推理,具有实际部署潜力
-
可复现性:建议关注作者后续是否开源代码和数据,这将极大影响该工作的实际影响力
- 后续研究方向:将该方法与最新的基础模型(如更大规模的视觉/语言模型)结合,可能带来进一步的性能提升
局限性 / 可改进方向¶
- 主要在室内/小场景验证,大规模室外场景(如自动驾驶)的效果待测
- 热成像分辨率通常远低于 RGB,分辨率不匹配的影响未分析
- 只适配了热成像一种新模态,多模态(RGB+T+深度)联合适配的扩展性未验证
- 与其他 SOTA 方法的公平对比需要统一实验设置,当前对比可能存在实现差异
-
更大规模和更多样化数据上的泛化能力需要进一步验证
-
消融实验的完整性可进一步提升,对各超参数的敏感性分析将增强结论的说服力
- 计算效率分析(FLOPs、延迟、内存占用)应作为标准评估维度纳入
评分¶
- 新颖性: ⭐⭐⭐⭐ 首次将几何 Transformer 用 LoRA 适配到 RGB-T 跨模态重建
- 实验充分度: ⭐⭐⭐⭐ 位姿+点云+速度+鲁棒性多维评估
- 价值: ⭐⭐⭐⭐ 为消防/搜救/夜视等场景提供了实用的 3D 重建方案