SEAR: Simple and Efficient Adaptation of Visual Geometric Transformers for RGB+Thermal 3D Reconstruction¶

日期: 2026-03-20
arXiv: 2603.18774
代码: 无
领域: 3D视觉 / 多模态VLM
关键词: RGB-thermal reconstruction, cross-modal 3D, LoRA adaptation, camera pose estimation, VGGT

一句话总结¶

提出 SEAR，通过轻量 LoRA 微调（仅 ~5% 参数可训练）将预训练 VGGT 模型适配到 RGB+热成像跨模态 3D 重建，无需配对/同步数据，在位姿估计上 AUC@30 达 70.0（vs COLMAP 57.6），推理速度 200× 快于 MINIMA_ROMA，且在烟雾遮挡等极端条件下保持鲁棒。

研究背景与动机¶

领域现状: 从多视图图像进行 3D 重建已有成熟方案（DUSt3R、MASt3R、VGGT），但这些方法假设输入为同一模态（RGB）。热成像在烟雾/低光/恶劣环境中有独特优势，但 RGB-热成像跨模态重建面临巨大挑战。
现有痛点: (a) RGB 和热成像之间存在巨大的域差距——纹理/颜色信息在热成像中缺失；(b) 获取精确的 RGB-T 配对数据成本极高；(c) 传统特征匹配方法（如 COLMAP + MINIMA）在跨模态场景下匹配率低且速度慢。
核心 idea: 不需要配对数据——只需约 15K 张 RGB-T 图像对，用 LoRA + 可学习热成像相机 token 适配预训练几何 Transformer，使其在保持 RGB 能力的同时学会跨模态的几何理解。

方法详解¶

关键设计¶

LoRA-based 轻量适配:
- 在冻结的 VGGT backbone 上添加 LoRA adapter（~50M 可训练参数，仅 5%）
- 保持了预训练模型学到的丰富几何先验，同时学习 RGB-T 跨模态映射
可学习热成像相机 token:
- 从 RGB 相机 token 初始化，学习热成像模态特定的特征
- 让模型能区分 RGB 和热成像输入，适配不同模态的统计特性
独立批采样:
- 训练时 RGB 和热成像不要求配对——随机独立采样
- 强迫模型学习跨模态的视角间关系，而非依赖像素级对应
- 不对称数据增强：RGB 和热成像用不同的增强策略

实验关键数据¶

相机位姿估计¶

方法	AUC@30	RRA@30	RTA@30	速度(FPS)
COLMAP	57.6	82.5	74.6	-
MINIMA_ROMA	41.0	68.3	63.0	0.05
SEAR	70.0	90.6	87.6	10.46

点云重建¶

方法	Chamfer ↓	PCC (完整性) ↓	PCA (准确性) ↓
COLMAP	1.42	1.20	1.64
MASt3R	0.46	0.27	0.66
SEAR	0.27	0.06	0.47

关键发现¶

仅需 ~15K RGB-T 图像对训练，100 epoch 在单张 A100 上 2 天完成
200× 快于传统匹配方法（MINIMA_ROMA），几乎匹配 VGGT 原生推理速度
在烟雾遮挡和极端光照变化场景下保持 100% 注册率
独立批采样的设计使模型不依赖配对数据，极大降低了数据需求

亮点与洞察¶

极简高效：LoRA + 可学习模态 token 的组合是适配预训练几何模型到新模态的最轻量方案——可直接推广到其他跨模态场景（如 RGB+事件相机、RGB+SAR）
不需要配对数据是最大亮点：消除了跨模态 3D 重建的数据瓶颈
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力
可复现性：建议关注作者后续是否开源代码和数据，这将极大影响该工作的实际影响力
后续研究方向：将该方法与最新的基础模型（如更大规模的视觉/语言模型）结合，可能带来进一步的性能提升

局限性 / 可改进方向¶

主要在室内/小场景验证，大规模室外场景（如自动驾驶）的效果待测
热成像分辨率通常远低于 RGB，分辨率不匹配的影响未分析
只适配了热成像一种新模态，多模态（RGB+T+深度）联合适配的扩展性未验证
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐⭐ 首次将几何 Transformer 用 LoRA 适配到 RGB-T 跨模态重建
实验充分度: ⭐⭐⭐⭐ 位姿+点云+速度+鲁棒性多维评估
价值: ⭐⭐⭐⭐ 为消防/搜救/夜视等场景提供了实用的 3D 重建方案