跳转至

GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis

会议: CVPR 2026
arXiv: 2603.01010
代码: 待确认
领域: 3D视觉 / 新视角合成
关键词: 流匹配, 测地线, 概率密度, Data-to-Data, 新视角合成

一句话总结

提出Data-to-Data Flow Matching直接学习视角间确定性变换,并引入概率密度测地线正则化使流路径沿数据流形高密度区域传播,在NVS中实现更好的跨视角一致性和几何保真度。

背景与动机

扩散模型做NVS依赖噪声到数据的随机转换,模糊确定性结构。标准CFM用线性插值,可能穿越低密度区域产生不真实中间状态。NVS中视角变换本质是确定性的——需要数据到数据的框架。

核心问题

(1) 视角变换是确定性的→需Data-to-Data而非Noise-to-Data;(2) 线性插值路径不一定在流形上→需测地线约束。

方法详解

整体框架

源+目标VAE编码 → U-Net速度网络(Plücker射线+CLIP条件)→ 沿ODE生成目标视图。

关键设计

  1. D2D Flow Matching: 直接在\((x_0,x_1)\)间学流,\(x_t=(1-t)x_0+tx_1+\sigma\epsilon\)
  2. 概率密度测地线: 度量\(G(x)=p(x)^{-2}I\)使路径偏好高密度区域;用预训练扩散score作密度代理
  3. 变分蒸馏: 师生架构——教师在DDIM-F空间做测地线优化,学生蒸馏到VAE空间,使FM训练与score解耦

损失函数 / 训练策略

D2D: \(\|v_\theta(x_t,t) - (x_1-x_0)\|^2\);测地线:Euler-Lagrange残差最小化;AdamW, batch=256

实验关键数据

设置 FID↓ CLIP-S↑ SSIM↑
D2D-FM (100NFE) 5.43 89.0 0.863
Naive FM 5.51 88.9 0.862
测地线FM (LVIS) 10.40 92.3 0.877
线性FM (LVIS) 11.81 94.3 0.874

消融实验要点

  • 测地线AOFM=13.70 vs 线性1.04——测地线路径有真实视角旋转
  • D2D-FM在10NFE加速推理时优势明显

亮点 / 我学到了什么

  • 视角变换是确定性的→D2D-FM比N2D-FM更自然
  • 概率密度测地线数学优美,用扩散score作密度代理是精巧的工程选择
  • AOFM作为插值质量指标比PPL更有意义

局限性 / 可改进方向

  • 多阶段训练复杂,可扩展性有限(作者承认)
  • 测地线优化依赖预训练扩散模型质量

与相关工作的对比

vs Zero-1-to-3: FID显著领先;vs MFM: 分阶段更高效;vs FMBoost: 加入测地线约束

与我的研究方向的关联

D2D-FM范式和测地线正则化可迁移到配对数据生成任务

评分

  • 新颖性: ⭐⭐⭐⭐⭐ D2D-FM+概率密度测地线在NVS领域开创性
  • 实验充分度: ⭐⭐⭐⭐ Objaverse/GSO充分,缺真实场景大规模验证
  • 写作质量: ⭐⭐⭐⭐ 数学严谨但较密集
  • 对我的价值: ⭐⭐⭐ 流匹配和测地线正则化有跨领域价值