InCaRPose: In-Cabin Relative Camera Pose Estimation Model and Dataset¶

会议: CVPR 2026
arXiv: 2604.03814
代码: https://github.com/felixstillger/InCaRPose
领域: 自动驾驶 / 3D视觉
关键词: 相机位姿估计, 车内感知, 鱼眼相机, 合成到真实迁移, Transformer

一句话总结¶

本文提出 InCaRPose，一个基于冻结 ViT 骨干和 Transformer 解码器的车内相对相机位姿估计模型，仅在合成数据上训练即可泛化到真实车内环境，实现绝对度量级翻译预测和实时推理（>45 FPS），同时发布了配套的真实世界高畸变车内测试数据集 In-Cabin-Pose。

研究背景与动机¶

领域现状：相机外参标定是计算机视觉的基础任务。在汽车车内监控（ICAM）场景中，相机用于驾驶员监控、乘员姿态感知和安全气囊控制。现有方法依赖几何特征匹配和对极几何，或者大规模训练的深度学习模型。

现有痛点：车内环境有几个独特挑战：(1) 后视镜安装的相机会随驾驶员调节而频繁改变外参；(2) 车内相机通常使用广角/鱼眼镜头，带来严重畸变；(3) 相机工作在近红外（NIR）光谱，与常见 RGB 图像不同；(4) 安全气囊控制需要在碰撞后 15-50ms 内获得乘员位置，需要绝对度量级的翻译估计和实时推理。现有的 Reloc3r 等方法只能预测翻译方向而非绝对距离，且需要大规模训练数据。

核心矛盾：现有通用位姿估计模型要么需要大量训练数据和特定相机内参，要么只提供无尺度的翻译方向，无法满足车内安全应用对"小数据训练 + 绝对度量翻译 + 鱼眼畸变处理 + 实时推理"的综合需求。

本文目标 (1) 仅用合成数据训练就能在真实车内环境中准确估计相对位姿；(2) 直接处理高畸变鱼眼图像，无需去畸变；(3) 预测绝对度量级翻译；(4) 实时推理以支持时间敏感的安全应用。

切入角度：将问题重新表述为参考-相对位姿估计（reference-relative pose estimation），避免依赖特定车辆坐标系。利用冻结的自监督 ViT 骨干（DINOv3）提取域不变特征，以小量合成数据训练即可跨域迁移。

核心 idea：用冻结 DINOv3 骨干 + Transformer 交叉注意力解码器 + 轻量预测头，在合成车内数据上训练实现真实车内的度量级相对位姿估计。

方法详解¶

整体框架¶

输入为参考视图和目标视图两张图像，通过冻结的 ViT 骨干提取 patch 级特征，送入 Transformer 交叉注意力解码器融合两视图信息，最后通过 MLP 预测头回归相对旋转和翻译。骨干完全冻结，仅训练解码器和预测头。可选地预测双向位姿以增强几何一致性监督。

关键设计¶

冻结 ViT 骨干与参考-相对公式化:
- 功能：提取域不变特征并消除车辆特定的坐标系依赖
- 核心思路：使用 DINOv3（或 DINOv2、DUNE）作为冻结特征提取器，对两张图像分别提取 patch 级潜在特征。位姿估计被重新表述为：给定标定参考位姿 \(T_{v1}\)，估计相对变换 \(T_{rel}\) 使得 \(T_{v2} = T_{v1} \cdot T_{rel}\)。训练时 \(T_{rel} = T_{v1}^{-1} T_{v2}\)。这种参考-相对公式化是车辆无关的，无需为每种车型重新训练
- 设计动机：冻结骨干有两个好处：(1) 保持预训练获得的鲁棒跨域特征表示；(2) 防止随机初始化组件的噪声梯度在早期训练阶段破坏精细特征。参考-相对公式化则消除了全局车辆坐标系的需求
Transformer 交叉注意力解码器:
- 功能：融合两个视图的空间特征以捕获几何关系
- 核心思路：骨干 tokens 经线性投影后输入多层解码器块。每个块包含自注意力（精炼特征）和交叉注意力（跨视图关注），加上 LayerNorm 和残差连接。引入 2D RoPE（旋转位置编码）为查询和键注入空间位置信息，避免学习位置 token（在有限训练数据下更可靠）。使用 12 个注意力头，MLP 扩展比 4
- 设计动机：交叉注意力是捕获两视图间空间关系的关键。2D RoPE 相比学习的位置编码在小数据场景下泛化更好。残差卷积瓶颈用于降维和特征融合
多输出表示与双向预测:
- 功能：支持灵活的位姿表示并提供更强的监督信号
- 核心思路：支持五种位姿参数化：旋转向量、内蕴/外蕴欧拉角（6D）、四元数（7D）、旋转矩阵（12D）。后处理保证有效旋转：四元数归一化，旋转矩阵通过 SVD 正交化并确保 \(\det = +1\)。训练时启用双向预测（同时预测正向和反向相对位姿），无需图像顺序增强。推理时可关闭双向预测以最大化速度
- 设计动机：双向预测强制网络学习双向相机变换关系，提供一致性约束作为额外监督信号。经实验四元数表示效果最好

损失函数 / 训练策略¶

使用 AdamW 优化器，学习率 \(1 \times 10^{-6}\)，权重衰减 \(1 \times 10^{-5}\)，batch size 8。合成训练数据来自 Blender 渲染的 11 辆不同车辆（8 训练 3 验证），随机放置人偶和物品，均匀采样旋转（±80° x/y, ±50° z）和翻译（±20cm 各轴），约 5000 纯旋转对和 1500 旋转+翻译对。使用 ColorJitter 数据增强防止过拟合，鱼眼图像直接处理不去畸变（缩放+零填充保持完整视场角）。

实验关键数据¶

主实验¶

In-Cabin-Pose 真实数据集:

模型	旋转误差 (°) Median	翻译误差 (m) Median	方向误差 (°) Median
InCaRPose-Small224	4.43	0.08	37.74
InCaRPose-Base224	3.55	0.09	42.45
InCaRPose-Large224	2.75	0.07	23.46
Reloc3r224 (未去畸变)	12.73	–	76.79
Reloc3r512 (去畸变)	3.23	–	13.05
SIFT Matching (去畸变)	4.83	–	28.30

7-Scenes 室内数据集:

模型	旋转误差 (°) Mean	翻译误差 (m) Median
RelPoseNet	9.30	0.21
Relformer	6.27	0.18
RelPoseGNN	5.20	0.17
Reloc3r224	7.96	–
InCaRPose-Large224	2.55	0.13

消融实验¶

配置	旋转 Mean (°)	翻译 Mean (m)	说明
InCaRPose-Small	6.11	0.11	最快但精度较低
InCaRPose-Base	4.91	0.12	中等
InCaRPose-Large	4.15	0.10	最佳精度
DINOv3-Base	4.91	0.12	标准骨干
DUNE-Base504	3.87	0.12	DUNE 骨干略优

推理速度（RTX 4090 单卡）:

配置	FPS
InCaRPose-Small224	~70
InCaRPose-Base224	~67
InCaRPose-Large224	>45

关键发现¶

InCaRPose-Large 在真实车内数据上旋转误差仅 2.75°，翻译误差 0.07m，在仅使用合成训练数据的情况下实现了出色的合成到真实迁移
在 7-Scenes 上平均旋转误差 2.55°，比 Reloc3r 的 7.96° 低 65%，且提供度量翻译
冻结骨干是关键：DINOv3 的预训练特征具有强跨域泛化能力
更大骨干对高畸变图像的改善更显著（车内数据 small→large 从 6.11° 降到 4.15°），而在 7-Scenes 标准图像上差异较小
所有配置都保持实时性能（>45 FPS），Small/Base 接近 70 FPS

亮点与洞察¶

合成数据训练+真实泛化：仅用约 6500 合成图像对就在真实车内环境中取得了优秀表现，这得益于冻结 DINOv3 骨干的域不变特征。这种"冻结基础模型 + 轻量任务头"的模式在数据稀缺场景下极具参考价值
端到端鱼眼处理：不去畸变直接处理鱼眼图像是务实的设计——边缘区域的几何线索对位姿估计很重要，去畸变会丢失信息。且在实际部署中省去了去畸变的计算开销
参考-相对公式化的通用性：避免了车辆特定坐标系的问题，使同一个模型可以跨车型部署，这对量产级应用非常重要

局限与展望¶

翻译方向误差仍然较大（中值 23.46°），特别是 z 轴方向的极端运动下翻译估计仍具挑战性
真实测试数据集仅来自单一车辆内部，跨车型泛化能力有待更多验证
当前支持的翻译范围限于车内摄像头的调整范围（±20cm），大范围位移场景未验证
未来可以探索多帧时序信息的利用或与 IMU 的融合

评分¶

新颖性: ⭐⭐⭐ 方法层面创新有限（冻结骨干+Transformer+MLP），贡献主要在问题定义和数据集
实验充分度: ⭐⭐⭐⭐ 真实车内数据集、7-Scenes、Cambridge Landmarks 三个数据集验证，速度分析详细
写作质量: ⭐⭐⭐⭐ 问题动机阐述清晰，工程细节充分
价值: ⭐⭐⭐⭐ 数据集和问题定义对车内感知社区有直接价值，满足实际安全需求