Easy3E: Feed-Forward 3D Asset Editing via Rectified Voxel Flow¶
会议: CVPR 2026 arXiv: 2602.21499 代码: 待确认 领域: 3D视觉 关键词: 3D编辑, 前馈式生成, 体素流, Flow Matching, 纹理优化
一句话总结¶
提出基于 TRELLIS 3D 生成骨干的前馈式 3D 资产编辑框架,通过 Voxel FlowEdit 在稀疏体素潜空间中实现全局一致的几何形变,并结合法线引导的多视角纹理精修恢复高频细节。
研究背景与动机¶
现有 3D 编辑方法可分为两大类:(1) 2D-lifting 管线(如 Instruct-NeRF2NeRF),通过 2D 编辑图像监督 3D 表示的逐场景迭代优化,计算开销大且依赖多视角覆盖,大幅几何编辑时容易崩溃;(2) 多视角扩散模型,虽提升了跨视角一致性,但仍在 2D 特征空间隐式推理 3D 结构,难以处理拓扑/体积变化。
近年出现的 3D 原生生成模型(如 TRELLIS、LRM)直接学习结构化 3D 潜空间,为前馈式编辑提供了新范式。但面临两大挑战: - 缺乏成对 3D 编辑数据,需将 2D 无训练编辑方法适配到 3D 潜空间,而许多 2D 方法依赖 cross-attention 等不可迁移的组件 - 压缩的 3D 特征导致高频纹理丢失,外观保真度不足
方法详解¶
整体框架¶
Easy3E 构建在 TRELLIS 生成骨干之上,分两个阶段:几何编辑和纹理精修。
输入:源 3D 资产 \(\mathcal{A}_{\text{src}}\)、3D 区域掩码 \(\mathcal{M}\)、由 2D 编辑得到的目标视角图 \(I^{\text{tgt}}\)。 输出:编辑后的 3D 资产。
流程:先用 Voxel FlowEdit 在稀疏体素潜空间做全局几何形变 → SLAT Repainting 精修局部潜特征 → 解码生成 mesh → 法线引导多视角生成 恢复高保真纹理。
关键设计¶
-
Structured Latent (SLAT) 表示:3D 资产表示为 \(\mathbf{Z}=(\mathcal{V}, \{\mathbf{z}_{\mathbf{p}}\}_{\mathbf{p}\in\mathcal{V}})\),其中 \(\mathcal{V}\) 是与 mesh 表面相交的活跃体素集合,\(\mathbf{z}_{\mathbf{p}}\) 是由 DINOv2 多视角特征投影融合得到的局部潜特征。TRELLIS 使用两个 rectified flow transformer 分别预测体素结构和潜特征场。这种表示显式编码几何,为直接在 3D 潜空间做编辑提供了基础。
-
Voxel FlowEdit(稀疏体素编辑):核心创新。在体素结构的 3D VAE 潜空间中,构建从源到目标的连续编辑轨迹。受 FlowEdit 启发,编辑速度场定义为源/目标条件下速度差:
$\(\mathbf{v}_{\text{edit}}(\mathbf{x}_t, t) = \mathbf{v}_{\theta}(\mathbf{x}^{\text{tgt}}_t, t \mid I^{\text{tgt}}) - \mathbf{v}_{\theta}(\mathbf{x}^{\text{src}}_t, t \mid I^{\text{src}})\)$
但直接积分 ODE 会因离散化误差导致轨迹漂移和结构崩塌。为此引入 Guided Flow Regularization: - 轮廓引导 \(\mathbf{G}_{\text{sil}}\):基于目标轮廓的 BCE 损失梯度,将演化结构对齐到目标轮廓 - 轨迹一致性校正 \(\boldsymbol{\xi}_{\text{traj}}\):将偏离的潜状态投射回流形
最终更新:\(\mathrm{d}\mathbf{x}_t = \mathcal{M}_\ell \odot \big[\mathbf{v}_{\text{edit}} + \Gamma\boldsymbol{\xi}_{\text{traj}} - \eta\mathbf{G}_{\text{sil}}\big]\mathrm{d}t\)
其中 \(\mathcal{M}_\ell\) 限制更新仅作用于可编辑区域,\(\Gamma=0.1\), \(\eta=0.2\) 控制各项权重。
- SLAT Repainting(潜空间重绘):在编辑后的体素 \(\mathcal{V}_{\text{tgt}}\) 上精修局部潜特征。可编辑区域用目标条件速度场更新,非编辑区域回放源分布的前向扩散轨迹以保持一致性:
$\(\mathbf{z}_{k-1} = \mathcal{M}_z \odot [\mathbf{z}_k + \Delta t \cdot \mathbf{v}_\theta(\mathbf{z}_k, t_k \mid I^{\text{tgt}})] + (1-\mathcal{M}_z) \odot [(1-t_k)\mathbf{z}^{\text{src}} + t_k\boldsymbol{\epsilon}_k]\)$
使用柔化掩码 \(\widetilde{\mathcal{M}_z}=\text{blur}(\mathcal{M}_z; \sigma_b)\) 避免接缝伪影。
- 法线引导纹理精修:可选模块,解决压缩 3D 表示高频纹理丢失问题。
- Control Branch:冻结的 ControlNet + 可训练 Ctrl-Adapter,输入编辑 mesh 各视角法线图,提取多尺度几何控制特征
- Generation Branch:基于 ERA3D 多视角扩散架构,以编辑图 \(I^{\text{tgt}}\) 为上下文,在控制特征引导下生成 6 个几何一致辅助视角
- Texture Fusion:可见性感知、掩码加权融合到 UV 纹理
损失函数 / 训练策略¶
- Voxel FlowEdit 是 无训练 的,利用预训练 TRELLIS 的速度场进行推理
- ODE 离散化为 25 步采样,CFG 目标侧 5–15,源侧固定 5
- 编辑速度 \(\mathbf{v}_{\text{edit}}\) 在 \(n_{\text{avg}} \in \{2,4\}\) 个噪声样本上平均以提高稳定性
- Ctrl-Adapter 在 Objaverse 子集上训练(6 视角 \(512 \times 512\) + 法线图),仅更新 Adapter 参数,ControlNet 和 ERA3D 骨干冻结
实验关键数据¶
主实验¶
评估集:100 个 3D 资产(Sketchfab + NPHM + THuman2.1 + Objaverse),覆盖人头、人体、物体。
| 方法 | CLIP-T ↑ | DINO-I ↑ | LPIPS ↓ | FID ↓ |
|---|---|---|---|---|
| TRELLIS | 0.323 | 0.895 | 0.243 | 45.8 |
| MVEdit | 0.267 | 0.851 | 0.282 | 67.6 |
| Vox-E | 0.266 | 0.734 | 0.673 | 90.3 |
| Instant3DiT | 0.285 | 0.874 | 0.286 | 49.7 |
| Easy3E | 0.326 | 0.952 | 0.138 | 25.8 |
Easy3E 在所有指标上全面领先:FID 比次优 TRELLIS 降低 43.7%,LPIPS 降低 43.2%。
消融实验¶
| 配置 | 效果 | 说明 |
|---|---|---|
| 无 Flow Guidance (\(\mathbf{G}_{\text{sil}}\) + \(\boldsymbol{\xi}_{\text{traj}}\)) | 结构崩塌+过度保留源结构 | 两项需联合使用,单独启用导致不平衡更新 |
| 无 Texture Refinement | 编辑区域模糊、色偏 | 法线引导模块显著提升表面细节和视图一致外观 |
| 完整模型 | 干净几何+高保真纹理 | 各模块互补 |
关键发现¶
- 用户研究(46 人 × 10 组):Easy3E 在提示保留 (88.98%)、身份保持 (94.63%)、编辑质量 (94.92%)、3D 一致性 (97.51%)、综合 (97.00%) 五个维度均大幅领先
- 竞品中 MVEdit 只能产生纹理级变化、几何改动极小;Vox-E 和 Instant3DiT 难以维持结构完整性
- 前馈式推理,无需逐场景优化
亮点与洞察¶
- 核心洞察:直接在 3D-native 结构化潜空间中做编辑,比 2D-lifting 或多视角扩散更适合大幅几何变形
- Voxel FlowEdit 将 2D flow-matching 编辑范式巧妙适配到 3D 稀疏体素,用轮廓引导 + 轨迹校正解决了离散化漂移
- 将编辑分解为"几何在潜空间做 + 外观用多视角扩散补"的思路很优雅:扬长避短地利用了 3D 生成模型的几何优势和 2D 扩散模型的纹理优势
局限性 / 可改进方向¶
- 性能受限于 TRELLIS 的生成能力上限,极端几何修改仍有困难
- 法线引导精修目前在较低分辨率合成视角上操作,限制了非常精细纹理的恢复
- 需要用户提供 3D 编辑掩码和 2D 编辑视角,交互成本可进一步降低
- 未报告推理时间具体数值(文中称"fast"但缺乏定量对比)
相关工作与启发¶
- TRELLIS:本文的 3D 生成骨干,学习结构化 3D 潜空间
- FlowEdit:2D flow-matching 编辑方法,本文将其推广到 3D 体素空间
- ERA3D:多视角扩散生成架构,被用于纹理精修分支
- 启发:3D 原生生成模型的涌现为 3D 编辑打开了全新范式,"在潜空间编辑"可能成为主流
评分¶
- 新颖性: ⭐⭐⭐⭐ 将 flow-matching 编辑适配到 3D 稀疏体素空间是全新尝试,整体框架设计巧妙
- 实验充分度: ⭐⭐⭐⭐ 定量指标 + 用户研究 + 消融实验齐全,但缺乏推理速度对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰,公式推导详尽,图示直观
- 价值: ⭐⭐⭐⭐ 前馈式 3D 编辑是刚需场景,本文给出了目前最强的方案