跳转至

Revisiting Shape from Polarization in the Era of Vision Foundation Models

日期: 2026-03-05
arXiv: 2603.04817
代码: 无(暂未公开)
领域: 3D视觉
关键词: polarization imaging, surface normal estimation, DINOv3, sensor-aware augmentation, lightweight model

一句话总结

证明偏振线索 + 轻量模型(34M)+ DINOv3 先验可以超越纯 RGB 的视觉基础模型(282M),在物体级法向估计上减少 33× 数据或 8× 参数的同时提升精度。

研究背景与动机

  1. 领域现状:Shape from Polarization(SfP)利用偏振光信息估计表面法向,传统方法依赖物理模型,深度学习方法正在兴起。
  2. 现有痛点:(1) 纯 RGB VFM(如 MoGe2)虽然通用但在物体级精细法向估计上仍有不足;(2) 偏振相机数据稀缺,训练数据集小;(3) 如何有效融合物理先验(偏振)和学习先验(VFM)。
  3. 核心矛盾:大模型+大数据 vs 小模型+物理先验——后者能否更高效地超越前者?
  4. 切入角度:利用 DINOv3 视觉先验来引导偏振信息的利用,在小数据集上训练轻量模型。

方法详解

整体框架

输入偏振图像(4 个偏振角度) → 提取偏振线索(AoLP、DoLP等) → DINOv3 特征提取 → 轻量解码器预测法向 → 传感器感知数据增强。基于 1954 个 3D 扫描物体的数据集训练。

关键设计

  1. DINOv3 先验集成

    • 使用 DINOv3 作为冻结特征提取器提供几何先验
    • 偏振线索(方位角、偏振度)作为额外输入通道
    • 小型解码头在偏振数据上微调
  2. 传感器感知数据增强

    • 关键发现:在偏振原始数据(预处理前)上做增强比后处理后增强效果好得多
    • 因为偏振量(AoLP、DoLP)是非线性变换的结果,后处理增强会破坏物理一致性
  3. 轻量架构设计

    • 仅 34M 参数(vs 纯 RGB VFM 的 282M)
    • 核心观点:物理传感器信息(偏振)弥补了模型规模的不足

实验关键数据

主实验

方法 参数量 MAE↓ 数据需求
SfPUEL (先前SOTA) ~50M 12.01° 完整
MoGe2 (RGB VFM) 282M 12.76° 大规模
本文 (偏振+DINOv3) 34M 9.95° 1/33 数据

关键对比

配置 MAE 说明
偏振 only 11.2° 偏振线索本身有价值
DINOv3 only (RGB) 12.76° VFM 作为基线
偏振 + DINOv3 9.95° 互补效果显著
预处理后增强 11.5° 增强效果受损
预处理前增强 9.95° 保持物理一致性

关键发现

  • 偏振 + VFM 先验互补性极强:MAE 从 12.76° 降至 9.95°(22% 提升)
  • 8× 参数减少(34M vs 282M)同时性能更好
  • 传感器感知增强关键:预处理前增强 >> 后处理后增强
  • 仅需 1/33 训练数据即可达到 competitive 性能

亮点与洞察

  • 物理先验 + 学习先验的最佳示范:偏振提供了 RGB 无法获得的表面信息,VFM 提供了几何先验,两者互补而非替代
  • 小模型+正确传感器 > 大模型+通用传感器:对部署场景的启示——选择正确的传感器比堆参数更有效
  • 传感器感知增强:在物理传感器数据上做增强需要考虑传感器特性,这个洞察可推广到其他非 RGB 模态

局限性 / 可改进方向

  • 偏振相机成本高于普通 RGB 相机
  • 仅评估物体级法向估计,场景级应用未验证
  • 透明/半透明物体的偏振信号复杂,处理不足
  • 数据集相对小(1954 物体)

评分

  • 新颖性: ⭐⭐⭐⭐ VFM 时代重新审视偏振的角度新颖
  • 实验充分度: ⭐⭐⭐⭐ 对比充分,消融清晰
  • 写作质量: ⭐⭐⭐⭐ 论证有说服力
  • 价值: ⭐⭐⭐⭐ 对传感器选型和多模态融合有启发