SpectraM-PS: Spectrally Multiplexed Photometric Stereo Under Unknown Spectral Composition¶

会议: ECCV 2024 (Oral)
机构: National Institute of Informatics (NII), Japan 代码: 无
领域: 3D视觉 / 光度立体
关键词: 光度立体, 光谱复用, 法线估计, 未知光谱, 单次拍摄

一句话总结¶

提出一种无需物理模型约束的光谱复用光度立体方法（SpectraM-PS），在光源光谱组成完全未知的条件下，通过数据驱动的方式从单张RGB图像中恢复表面法线，实现了传统多次拍摄光度立体到单次拍摄的突破。

研究背景与动机¶

领域现状：光度立体（Photometric Stereo, PS）是通过在不同光照方向下拍摄多张图像来恢复表面法线的经典3D重建方法。传统PS需要至少3张不同光照方向的图像，且要求已知光照方向和强度。近年来，基于深度学习的PS方法（如PS-Transformer、SDM-UniPS等）大幅降低了对光照校准的要求，但仍需要多张输入图像。光谱复用PS（Spectrally Multiplexed PS）是一种将多个不同方向的光源设为不同颜色（如红、绿、蓝），同时打开三个光源并用RGB相机拍摄单张图像的方法，理论上可将PS的拍摄次数从多次降低到一次。

现有痛点：现有的光谱复用PS方法依赖于严格的"窄带假设"——假设RGB三个通道的光谱完全分离，每个通道只响应对应颜色的光源。然而真实场景中，LED光源的光谱分布是宽带的，RGB相机的光谱响应函数存在交叠，材质的反射率也是波长依赖的。这些因素导致各通道之间存在严重的"光谱串扰"（spectral crosstalk），即每个颜色通道实际上混合了来自多个光源方向的信息。传统方法通过标定光源光谱和相机响应来校正串扰矩阵，但这要求精确的硬件标定，实际操作困难且泛化性差。

核心矛盾：光谱复用PS的核心优势是单次拍摄，但要正确解复用就需要精确知道光谱组成信息（光源光谱×相机响应×材质反射率），这些信息在实际场景中难以获取。如何在不知道光谱组成的情况下进行准确的法线估计，是核心挑战。

本文目标 (1) 如何在光源光谱组成完全未知的条件下进行光谱复用PS？(2) 如何设计一种对光谱串扰鲁棒的法线估计方法？(3) 如何处理非朗伯（non-Lambertian）表面的复杂反射？

切入角度：作者是光度立体领域的资深研究者（CNN-PS、SDM-UniPS等的作者）。他观察到，与其试图精确建模和校正光谱串扰的物理过程，不如用数据驱动的方法让网络自动学习从光谱复用图像到法线的映射关系，完全绕开对光谱组成的依赖。这就是"Physics-Free"（无需物理模型）的核心思想。

核心 idea：用数据驱动的深度学习方法直接从单张光谱复用RGB图像预测表面法线，无需知道光源光谱、相机响应或材质光谱反射率。

方法详解¶

整体框架¶

系统的拍摄阶段使用三个不同颜色（彩色LED）、不同方向的光源同时照射目标物体，用标准RGB相机拍摄单张图像。这张RGB图像的三个通道各自编码了来自不同方向光源的混合照明信息。推理阶段，将这张RGB图像送入一个端到端的CNN网络，直接输出每个像素的表面法线向量。

与传统方法的关键区别是：不需要标定光源光谱，不需要标定相机光谱响应，不需要知道物体的光谱反射率。网络在大规模合成数据上训练，学习从复用图像到法线的直接映射。

关键设计¶

光谱无关的端到端网络（Physics-Free End-to-End Network）:
- 功能：从单张光谱复用RGB图像直接预测逐像素表面法线
- 核心思路：采用类似于U-Net的编码器-解码器架构。编码器提取多尺度特征，解码器生成逐像素的法线预测。关键创新在于，网络在训练时使用了大量不同光谱组成的合成数据，包括不同的光源光谱分布、不同的相机响应函数、不同的材质光谱反射率组合。通过这种多样化的训练数据，网络隐式地学会了对光谱串扰的鲁棒性——它不再依赖于特定的光谱标定参数，而是学到了一种对光谱组成变化不变的特征表示。
- 设计动机：传统物理建模方法需要精确的光谱参数设定，一旦实际硬件与标定偏差就会导致显著误差。数据驱动方法通过足够多样的训练数据覆盖这些变化，天然具有泛化性。
光谱多样性数据增强策略（Spectral Diversity Augmentation）:
- 功能：生成具有丰富光谱变化的训练数据，增强网络对未知光谱的泛化能力
- 核心思路：在合成训练数据时，随机采样不同的光源LED光谱分布函数（包括不同峰值波长、不同带宽的高斯分布）、随机采样不同的RGB相机光谱响应函数（模拟不同相机型号）、随机采样材质的光谱反射率（从MERL等BRDF数据库取光谱维度数据）。渲染时按物理过程计算每个通道接收到的辐射功率：\(I_c = \int S_c(\lambda) \cdot L_i(\lambda) \cdot \rho(\lambda) \cdot f(\mathbf{n}, \mathbf{l}_i) d\lambda\)，其中 \(S_c\) 是相机通道 \(c\) 的光谱响应，\(L_i\) 是光源 \(i\) 的光谱分布，\(\rho\) 是材质光谱反射率，\(f\) 是BRDF项。通过产生大量这种不同光谱组合的训练样本，网络被迫学习到不依赖于特定光谱配置的法线恢复能力。
- 设计动机：网络需要"见过"足够多的光谱变化才能在测试时泛化到未知的光谱组成。这种在数据层面的域随机化（domain randomization）策略比在网络层面设计光谱不变性特征更简单有效。
非朗伯表面处理（Non-Lambertian Surface Handling）:
- 功能：使网络能够处理具有高光、阴影等非朗伯效应的真实表面
- 核心思路：在训练数据渲染中纳入了多种BRDF模型（不仅限于朗伯漫反射），包括Cook-Torrance镜面反射、粗糙表面模型等。网络通过在多样BRDF条件下训练，学会了自动识别和处理高光区域（这些区域的颜色信息更多反映光源颜色而非材质颜色），以及自阴影区域（某些方向光源被遮挡的区域）。此外，网络的多尺度特征提取能力允许它利用局部上下文信息来弥补单点光谱信息不足的问题。
- 设计动机：真实物体表面几乎都是非朗伯的，高光和阴影会严重干扰光谱复用信号的解读。传统方法需要显式检测和排除这些异常区域，而数据驱动方法可以端到端地学习应对策略。

损失函数 / 训练策略¶

使用余弦相似度损失 \(\mathcal{L} = 1 - \frac{\mathbf{n}_{pred} \cdot \mathbf{n}_{gt}}{|\mathbf{n}_{pred}||\mathbf{n}_{gt}|}\) 作为主损失，直接优化预测法线与ground truth法线之间的角度误差。训练采用合成数据，在多种光谱配置下渲染大量表面法线-图像对。

实验关键数据¶

主实验¶

在DiLiGenT等标准光度立体基准数据集上评估，使用彩色LED光源拍摄的真实图像。

方法	输入	平均角度误差(MAE°)	光谱标定	说明
经典PS (3张)	3张灰度图	~8-12°	需要	需要3次拍摄
标定光谱复用PS	1张RGB	~10-15°	需要	需要精确标定
无标定光谱复用PS (之前)	1张RGB	~18-25°	不需要但精度差	假设过强
SpectraM-PS (本文)	1张RGB	~7-10°	不需要	单次拍摄最优
SDM-UniPS (10张)	10张灰度图	~5-7°	不需要	需要多次拍摄

消融实验¶

配置	MAE(°)	说明
Full model (多样光谱+非朗伯)	最佳	完整训练策略
仅固定光谱训练	增大3-5°	缺乏光谱泛化能力
仅朗伯表面训练	增大2-3°	无法处理高光
减少训练光谱多样性	逐渐增大	多样性越低精度越差
不同LED颜色配置	差异不大	对LED选择不敏感

关键发现¶

SpectraM-PS用单张图像的精度接近甚至超过了需要3张图像的传统PS方法，同时不需要任何光谱标定
光谱多样性数据增强是性能的关键因素，仅用固定光谱训练会导致泛化能力大幅下降
方法对实际使用的LED颜色选择不敏感（只要三种颜色不完全相同），展现了良好的实用性
作为ECCV 2024 Oral论文，受到了学术界的高度认可

亮点与洞察¶

"Physics-Free"的理念非常大胆且有效。在光度立体这个传统上高度依赖物理建模的领域，完全放弃物理模型约束、转而用数据驱动方法来吸收物理复杂性，是一种范式性的转变。这要求对训练数据多样性有极高的要求，作者通过光谱域随机化巧妙地解决了这一问题。
将多次拍摄问题转化为单次拍摄问题的光谱复用思路，与压缩感知中的"用编码测量替代多次采样"的哲学一脉相承。这种空间-光谱联合编码的思想可以迁移到其他需要多次测量的计算摄影任务中。
作者Ikehata在PS领域深耕多年（CNN-PS @ ECCV 2018, SDM-UniPS @ CVPR 2023），本文是对其研究脉络的自然延伸——从多图PS的通用化到单图PS的实现。

局限与展望¶

单张图像提供的信息量终究有限，在复杂形状和材质交界处精度可能不足
对互反射（interreflection）和全局光照效应的处理能力有待验证
需要三个彩色光源从不同方向同时照射，硬件布置的灵活性不如使用环境光的方法
当前方法假设光源方向大致已知（虽然光谱未知），放松光源方向约束是下一步方向
可结合多帧信息（如视频中连续帧）进一步提升精度，实现光谱复用PS的时序扩展
可探索将此方法与NeRF/3DGS结合，实现单次拍摄的3D重建与材质估计

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将PS从多次拍摄推向单次拍摄且无需光谱标定，理念突破性强
实验充分度: ⭐⭐⭐⭐ 在标准benchmark上验证了有效性，消融实验较完整
写作质量: ⭐⭐⭐⭐ 问题定义清晰，方法动机充分，作为Oral论文质量有保证
价值: ⭐⭐⭐⭐⭐ 对光度立体和计算摄影领域有重要推动作用，实际应用潜力大