Revisiting Shape from Polarization in the Era of Vision Foundation Models¶

日期: 2026-03-05
arXiv: 2603.04817
代码: 无（暂未公开）
领域: 3D视觉
关键词: polarization imaging, surface normal estimation, DINOv3, sensor-aware augmentation, lightweight model

一句话总结¶

证明偏振线索 + 轻量模型（34M）+ DINOv3 先验可以超越纯 RGB 的视觉基础模型（282M），在物体级法向估计上减少 33× 数据或 8× 参数的同时提升精度。

研究背景与动机¶

领域现状：Shape from Polarization（SfP）利用偏振光信息估计表面法向，传统方法依赖物理模型，深度学习方法正在兴起。
现有痛点：(1) 纯 RGB VFM（如 MoGe2）虽然通用但在物体级精细法向估计上仍有不足；(2) 偏振相机数据稀缺，训练数据集小；(3) 如何有效融合物理先验（偏振）和学习先验（VFM）。
核心矛盾：大模型+大数据 vs 小模型+物理先验——后者能否更高效地超越前者？
切入角度：利用 DINOv3 视觉先验来引导偏振信息的利用，在小数据集上训练轻量模型。

方法详解¶

整体框架¶

输入偏振图像（4 个偏振角度） → 提取偏振线索（AoLP、DoLP等） → DINOv3 特征提取 → 轻量解码器预测法向 → 传感器感知数据增强。基于 1954 个 3D 扫描物体的数据集训练。

关键设计¶

DINOv3 先验集成：
- 使用 DINOv3 作为冻结特征提取器提供几何先验
- 偏振线索（方位角、偏振度）作为额外输入通道
- 小型解码头在偏振数据上微调
传感器感知数据增强：
- 关键发现：在偏振原始数据（预处理前）上做增强比后处理后增强效果好得多
- 因为偏振量（AoLP、DoLP）是非线性变换的结果，后处理增强会破坏物理一致性
轻量架构设计：
- 仅 34M 参数（vs 纯 RGB VFM 的 282M）
- 核心观点：物理传感器信息（偏振）弥补了模型规模的不足

实验关键数据¶

主实验¶

方法	参数量	MAE↓	数据需求
SfPUEL (先前SOTA)	~50M	12.01°	完整
MoGe2 (RGB VFM)	282M	12.76°	大规模
本文 (偏振+DINOv3)	34M	9.95°	1/33 数据

关键对比¶

配置	MAE	说明
偏振 only	11.2°	偏振线索本身有价值
DINOv3 only (RGB)	12.76°	VFM 作为基线
偏振 + DINOv3	9.95°	互补效果显著
预处理后增强	11.5°	增强效果受损
预处理前增强	9.95°	保持物理一致性

关键发现¶

偏振 + VFM 先验互补性极强：MAE 从 12.76° 降至 9.95°（22% 提升）
8× 参数减少（34M vs 282M）同时性能更好
传感器感知增强关键：预处理前增强 >> 后处理后增强
仅需 1/33 训练数据即可达到 competitive 性能

亮点与洞察¶

物理先验 + 学习先验的最佳示范：偏振提供了 RGB 无法获得的表面信息，VFM 提供了几何先验，两者互补而非替代
小模型+正确传感器 > 大模型+通用传感器：对部署场景的启示——选择正确的传感器比堆参数更有效
传感器感知增强：在物理传感器数据上做增强需要考虑传感器特性，这个洞察可推广到其他非 RGB 模态

局限性 / 可改进方向¶

偏振相机成本高于普通 RGB 相机
仅评估物体级法向估计，场景级应用未验证
透明/半透明物体的偏振信号复杂，处理不足
数据集相对小（1954 物体）

评分¶

新颖性: ⭐⭐⭐⭐ VFM 时代重新审视偏振的角度新颖
实验充分度: ⭐⭐⭐⭐ 对比充分，消融清晰
写作质量: ⭐⭐⭐⭐ 论证有说服力
价值: ⭐⭐⭐⭐ 对传感器选型和多模态融合有启发