A Real-world Display Inverse Rendering Dataset¶

会议: ICCV 2025
arXiv: 2508.14411
代码: https://michaelcsj.github.io/DIR/
领域: 计算机视觉 / 逆渲染
关键词: 逆渲染, 显示器-相机系统, OLAT照明, 偏振成像, 光度立体

一句话总结¶

本文构建了首个基于LCD显示器-相机系统的真实世界逆渲染数据集，包含16个不同材质物体在OLAT照明模式下的立体偏振图像及高精度几何真值，并提出了一个简单有效的显示器逆渲染基线方法，超越了现有逆渲染方法。

研究背景与动机¶

领域现状：逆渲染旨在从图像中恢复几何和反射率，现有方法依赖不同的成像系统——光照台（light stage）提供高质量多光源样本但造价高昂、体积庞大；闪光摄影需要多次移动相机；而显示器作为光源具有可编程、高分辨率、紧凑的优势
显示器-相机系统的独特优势：每个像素可作为可编程点光源；LCD发出偏振光，天然支持漫反射/镜面反射分离
核心矛盾：尽管显示器系统优势明显，却没有公开的实际数据集供研究。现有逆渲染数据集全部使用光照台、抓取机器人或自然光照等其他系统采集，无法评估显示器系统特有的挑战（近场照明、低信噪比、限制的光-视角采样等）
本文贡献：填补这一空白——构建系统、采集数据、提供基准、验证方法

方法详解¶

整体框架¶

工作分为四个部分：（1）构建并标定LCD显示器+立体偏振相机系统；（2）采集16个物体在144个OLAT照明下的偏振图像；（3）提供结构光扫描的几何真值；（4）提出基线逆渲染方法并评估现有方法。

关键设计¶

显示器-相机成像系统:
- 功能：构建由Samsung Odyssey Ark LCD显示器和两台FLIR偏振RGB相机组成的成像系统
- 核心参数：显示器最大亮度600 cd/m²，每像素输出仅0.06 mcd；将显示像素分组为144个超像素（\(16 \times 9\)），每个超像素由 \(240 \times 240\) 个显示像素组成
- 标定内容：（a）显示器背光 \(B_i\) 的空间变化建模；（b）非线性响应 \(\gamma\) 的标定；（c）相机内外参标定；（d）超像素相对位置估计
- 光强模型：\(L_i = s(P_i + B_i)^\gamma\)，其中 \(s\) 是全局缩放因子
数据采集与处理:
- 功能：采集16个不同材质物体在OLAT照明下的偏振图像，并获取几何真值
- 材质覆盖：树脂、陶瓷、金属漆、木材、黏土、塑料、青铜、石膏等
- 偏振处理：将四个角度的偏振图像转换为Stokes向量 \(s_0, s_1, s_2\)，分离镜面反射 \(I_{\text{specular}} = \sqrt{s_1^2 + s_2^2}\) 和漫反射 \(I_{\text{diffuse}} = s_0 - I_{\text{specular}}\)
- 几何真值：使用EinScan SP V2高精度3D扫描仪（精度0.05mm），通过互信息法将扫描网格与图像对齐
图像形成模型与任意照明合成:
- 功能：利用非相干光传输的线性叠加性，支持任意显示模式下的图像合成
- 核心公式：\(I(\mathcal{P}) = \text{clip}(\sum_{i=1}^{N} I_i \cdot s(P_i + B_i)^\gamma + \epsilon)\)
- 设计动机：研究者可以合成任意照明模式的图像，并调整噪声水平，无需重新采集
基线逆渲染方法:
- 功能：提出一个简单有效的显示器逆渲染基线
- 流程：（a）用解析RGB光度立体法估计法线图；（b）用RAFT stereo估计深度图；（c）基于Cook-Torrance BRDF的基底BRDF表示，用可微渲染迭代优化法线和反射率
- 关键技巧：用基底BRDF加权求和来建模空间变化BRDF，以应对受限的光-视角采样
- 运行时间：仅需150秒完成优化

损失函数 / 训练策略¶

基线方法：最小化渲染图像与输入图像间的RMSE误差
显示器标定：优化全局标量 \(s\)、空间背光 \(B_i\) 和非线性指数 \(\gamma\)，使渲染OLAT图像与采集图像匹配

实验关键数据¶

主实验（逆渲染评估）¶

方法	照明模式	PSNR ↑	SSIM ↑	MAE (法线) ↓
SRSH	OLAT	41.28	0.9895	25.25°
DPIR	OLAT	34.30	0.9790	41.09°
IIR	OLAT	38.20	0.9850	38.38°
本文基线	OLAT	39.33	0.9821	20.94°
本文基线	Multiplexed	37.27	0.9766	23.97°

消融实验（光度立体评估 - 法线重建MAE）¶

方法	类型	Elephant	Owl	Cat	Pig	平均
Woodham	标定	27.02	26.60	21.05	17.02	~23°
PS-FCN	标定	20.26	15.17	10.61	15.80	~15°
SDM-UniPS	非标定	18.83	14.37	9.70	15.33	~15°
UniPS	非标定	25.14	17.34	19.69	25.77	~22°

关键发现¶

SDM-UniPS在OLAT照明下表现最好，144张OLAT图像提供了充足的法线重建信息
本文基线在显示器逆渲染中全面超越现有方法，能有效处理近场照明和背光挑战
仅用2张复用照明模式即可实现合理的法线重建，但逆渲染精度仍不及144张OLAT
使用偏振分离的漫反射图像可提升法线重建精度，但效果因方法而异
光衰减建模至关重要——不建模时PSNR从39.78降至37.43

亮点与洞察¶

首创性：第一个面向显示器-相机系统的真实世界逆渲染数据集，填补了重要的研究空白
完善的系统标定：对背光、非线性、几何进行全面标定，使数据集具有高度可用性
偏振分离：利用LCD偏振特性实现漫反射/镜面反射分离，为后续研究提供独特优势
光-视角分析：通过Rusinkiewicz坐标系分析了采样覆盖范围，揭示了显示器系统在θ_h方向采样充分但θ_d方向受限的特点
合成能力：基于光传输线性性，支持任意照明模式和噪声级别的图像合成

局限与展望¶

显示器单像素亮度极低（0.06 mcd），需要超像素分组才可用，限制了照明分辨率
当超像素过小（低于240×240）时拍摄图像太暗无法使用
光-视角采样范围有限，特别在 \(\theta_d\) 方向覆盖不足
仅支持单视角+OLAT的采集方式，缺乏多视角同时采集的能力
物体数量（16个）和材质多样性仍可扩展

评分¶

新颖性: ⭐⭐⭐⭐ 首个显示器逆渲染数据集，填补空白
实验充分度: ⭐⭐⭐⭐⭐ 评估了大量光度立体和逆渲染方法，多维度消融
写作质量: ⭐⭐⭐⭐ 系统构建和数据集描述详实
价值: ⭐⭐⭐⭐ 为显示器逆渲染研究提供了标准化基准