Monocular Normal Estimation via Shading Sequence Estimation¶

会议: ICLR 2026 (Oral)
arXiv: 2602.09929
代码: GitHub
领域: 图像生成 / 3D视觉
关键词: 法线估计, 着色序列, 视频生成模型, 最小二乘求解, 单目3D重建

一句话总结¶

本文提出了RoSE方法，将单目法线估计问题重新定义为着色序列（Shading Sequence）估计问题，利用图像到视频（Image-to-Video）生成模型预测多光照下的着色序列，再通过简单的最小二乘法将着色序列转换为法线图，在真实世界基准数据集上达到SOTA性能。

研究背景与动机¶

单目法线估计旨在从单张任意光照下的RGB图像估计物体的法线图（Normal Map），这是3D重建和渲染的关键中间表示。现有方法面临的核心问题是3D错位（3D Misalignment）：

表面看似正确但几何失真: 现有深度模型直接预测法线图，估计结果在视觉上看起来合理，但重建出的3D表面经常与真实几何细节不匹配

原因分析 —— 颜色变化过于微妙: 法线图中不同几何结构的差异仅通过相对微弱的颜色变化来反映。模型难以从这些微妙的颜色差异中准确区分和重建不同的几何结构

直接预测范式的局限: 当前的"输入RGB → 直接输出Normal Map"范式强迫模型在一步推理中同时完成光照解耦和几何推断，任务难度过高

本文的核心洞察是：着色序列（多光照下的明暗变化序列）对几何信息更加敏感。不同的表面法线方向在不同光照方向下会产生截然不同的明暗模式，这比单张法线图中的颜色差异要显著得多。因此，先估计着色序列，再从着色序列恢复法线，可以有效缓解3D错位问题。

方法详解¶

整体框架¶

RoSE的pipeline包含三个阶段：

预处理: 将输入RGB图像转换为灰度图像
着色序列生成: 利用视频扩散模型将灰度输入生成为多光照下的着色序列
法线求解: 通过最小二乘法从着色序列解析求解法线图

关键设计¶

着色序列重构范式（Shading Sequence Reformulation）:
- 核心思想: 将法线估计从"单张图像→法线图"的直接映射，重构为"单张图像→着色序列→法线图"的两阶段过程
- 着色序列定义: 一组在不同已知光照方向 \(\{l_1, l_2, ..., l_K\}\) 下物体的明暗图像序列
- 物理基础: 根据朗伯反射模型，像素亮度 \(I_k = \rho \cdot (n \cdot l_k)\)，其中 \(\rho\) 是反射率，\(n\) 是法线，\(l_k\) 是光照方向
- 几何敏感性: 不同法线方向的点在多光照序列中会产生截然不同的亮度变化模式，这比单张法线图中的RGB差异更易于区分
- 设计动机: 利用多光照的"放大效应"使几何信息更容易被模型捕获
视频扩散模型生成着色序列（Video Diffusion Model for Shading Generation）:
- 利用图像到视频（Image-to-Video，I2V）生成模型来预测着色序列：将灰度输入作为"首帧"，生成后续帧对应不同光照下的着色图
- 特征引导:
  - CLIP编码器: 提取图像的语义特征，提供全局物体理解
  - VAE编码器: 提取图像的细粒度纹理和结构特征
- 两种特征互补地引导视频扩散模型生成一致且准确的着色序列
- 训练策略: 训练视频扩散模型，同时冻结CLIP和VAE编码器
- 设计动机: I2V生成模型天然擅长生成时间一致的序列，这与着色序列的连续性要求完美匹配
最小二乘法线求解（OLS Normal Solver）:
- 给定 \(K\) 帧着色序列和对应的光照方向，法线估计转化为一个简单的线性方程组：\(I = L \cdot n\)
- 其中 \(I \in \mathbb{R}^K\) 是着色值向量，\(L \in \mathbb{R}^{K \times 3}\) 是光照方向矩阵，\(n \in \mathbb{R}^3\) 是法线方向
- 通过普通最小二乘法（OLS）解析求解：\(n = (L^T L)^{-1} L^T I\)
- 核心优势: 求解过程完全解析，无需额外学习，计算量极小，且数学上保证最优
- 设计动机: 将学习的困难部分（着色估计）和简单的部分（线性求解）清晰分离
MultiShade合成数据集:
- 专门构建的大规模合成训练数据集
- 包含多样化的3D形状、材质和光照条件
- 每个样本包含：物体图像 + 多光照着色序列 + 真实法线图
- 设计动机:
  - 真实世界的多光照法线数据极难获取
  - 合成数据可以提供完美的ground truth
  - 多样化的训练条件增强模型的泛化性和鲁棒性

损失函数 / 训练策略¶

视频扩散模型使用标准的去噪损失进行训练
训练数据来自MultiShade合成数据集
CLIP和VAE编码器保持冻结，只训练视频扩散模型
推理时的法线求解是纯解析过程，无需训练

实验关键数据¶

主实验¶

数据集	指标	RoSE	之前SOTA	说明
DiLiGenT	Mean Angular Error (MAE)↓	SOTA	-	真实世界物体法线估计基准
DiLiGenT-102	MAE↓	SOTA	-	更大规模的真实基准
Apple/Google数据集	MAE↓	SOTA	-	工业级物体扫描数据
复杂物体场景	MAE↓	SOTA	-	具有复杂几何和材质的物体

消融实验¶

配置	关键指标	说明
直接预测法线 vs 着色序列	着色序列显著更优	验证了核心范式创新的有效性
无CLIP引导	性能下降	语义特征对生成质量重要
无VAE引导	性能下降	纹理细节特征不可或缺
着色序列帧数K	最优K存在	帧数过少信息不足，过多增加生成难度
不同视频生成主干	性能差异	基础模型能力影响最终效果
真实数据 vs 合成数据训练	合成更优	MultiShade数据集的多样性是关键

关键发现¶

范式突破有效: 着色序列范式显著优于直接预测法线的传统范式，验证了"间接但更易于学习"的路线
3D错位问题缓解: RoSE重建的表面几何与真实几何的对齐度明显优于基线方法
视频生成模型的新用途: 将I2V模型用于结构化物理序列生成是一个新颖且有效的方向
解析求解的可靠性: OLS求解器的解析特性避免了额外学习可能带来的误差累积
合成训练的泛化性: 在MultiShade合成数据上训练的模型可以良好泛化到真实世界数据
ICLR Oral认可: 作为Oral论文，其范式创新得到了研究社区的高度认可

亮点与洞察¶

范式级创新: 不是在现有的"直接预测"框架上修补，而是提出了全新的"着色序列+解析求解"范式，这是本文最大的贡献
物理直觉与深度学习的完美融合: 利用朗伯反射模型的物理先验来设计学习目标，让深度模型学习"更容易学的东西"
优雅的问题分解: 将一个困难的端到端学习问题分解为"学习+解析求解"两步，各自利用最适合的工具
生成模型的跨界应用: 将视频生成模型创造性地应用于3D几何估计任务，开辟了生成模型在3D视觉中的新应用方向
简洁的Pipeline: 尽管涉及视频扩散模型等复杂组件，整体pipeline的逻辑链条清晰简洁

局限与展望¶

朗伯假设: 着色模型基于朗伯反射假设，对高光、透明或半透明材质的处理能力有限
推理速度: 视频扩散模型的推理需要多步采样，速度可能较慢
光照方向假设: 需要预设光照方向序列，这些方向的选择可能影响估计质量
物体级约束: 目前主要针对物体级（object-level）的法线估计，场景级（scene-level）的扩展需要更多工作
合成-真实域差距: 虽然泛化效果良好，MultiShade数据集与真实世界之间仍存在域差距
遮挡和自阴影: 对复杂遮挡关系和自阴影的处理可能不够完善
分辨率限制: 视频扩散模型的生成分辨率可能限制法线图的细节程度

评分¶

新颖性: ⭐⭐⭐⭐⭐
实验充分度: ⭐⭐⭐⭐
写作质量: ⭐⭐⭐⭐⭐
价值: ⭐⭐⭐⭐⭐