Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration¶

会议: CVPR 2026
arXiv: 2511.22533
代码: https://fast3dcache-agi.github.io
领域: 3D视觉
关键词: 3D几何生成加速, 缓存机制, 体素稳定性, 无需训练, 扩散模型

一句话总结¶

本文提出 Fast3Dcache，一个面向 3D 扩散模型的无需训练的几何感知缓存框架，通过预测性缓存调度约束（PCSC）根据体素稳定化模式动态分配缓存预算，以及时空稳定性准则（SSC）基于速度和加速度选择稳定 token 进行复用，实现最高 27.12% 的吞吐提升和 54.83% 的 FLOPs 降低，几何质量仅损失约 2%。

研究背景与动机¶

领域现状：基于缓存的加速方法在 2D 图像和视频扩散模型中已取得成功，通过复用前序时间步的中间计算减少冗余推理。代表性方法包括各种 feature caching 技术。
现有痛点：
- 直接将 2D 缓存策略迁移到 3D 扩散模型会严重破坏几何一致性；
- 2D/视频中纹理小误差视觉上可忽略，但 3D 中体素/点预测的数值误差直接影响拓扑和空间完整性，产生表面孔洞、几何畸变或非流形网格；
- 现有 3D 加速方法（如 Hash3D）不适用于扩散框架。
核心矛盾：2D 缓存利用感知冗余，但 3D 需要严格的几何正确性，小误差累积可导致拓扑灾难。
本文目标：如何在 3D 扩散推理中安全地缓存和复用计算，在加速的同时保持几何保真度？
切入角度：分析 TRELLIS 框架中稀疏结构生成阶段的体素占据场演化，发现三阶段稳定化模式（不稳定→对数线性衰减→微调），据此设计自适应缓存策略。
核心 idea：利用 3D 生成中体素状态变化的可预测衰减模式，动态确定"缓存多少 token"（PCSC）和"缓存哪些 token"（SSC），实现几何感知的加速。

方法详解¶

整体框架¶

Fast3Dcache 将推理分为三个阶段：Phase 1（全采样）建立初始稳定性并校准 PCSC；Phase 2（动态缓存）用 PCSC 确定每步缓存预算、SSC 选择要缓存的 token，每 \(\tau\) 步进行一次全刷新；Phase 3（CFG-Free Refinement）使用固定高比例缓存。

关键设计¶

预测性缓存调度约束 (PCSC):
- 功能：根据体素稳定化的衰减趋势，动态确定每个时间步应缓存多少 token
- 核心思路：观察到去噪过程中体素占据变化量 \(\Delta s_t = \sum_{i,j,k} (\mathcal{O}_{t+1}(i,j,k) \oplus \mathcal{O}_t(i,j,k))\) 呈三阶段模式：Phase 1 高波动、Phase 2 对数线性衰减、Phase 3 急剧稳定。在 Phase 1 结束的 anchor step 处校准初始变化量 \(\sigma\)，然后用固定斜率 \(\mu\) 预测后续变化：\(\Delta\hat{s} = \sigma \cdot e^{\mu \cdot (t - \lceil T \cdot \rho_a \rceil)}\)。缓存预算：\(c_t = D^3 - \frac{\Delta\hat{s}_t}{\gamma_{\text{up}}}\)
- 设计动机：不同于 2D 中的固定缓存比例，3D 几何生成各阶段的稳定性差异极大。PCSC 自适应分配预算，早期少缓存（保护粗结构形成）、后期多缓存（利用几何收敛）。实验显示固定比例的 CD 高达 0.0956，PCSC 仅 0.0697
时空稳定性准则 (SSC):
- 功能：在给定缓存预算下精确选择哪些 token 可安全缓存
- 核心思路：为每个 token 计算可缓存性分数 \(C_i(t) = \omega \cdot \text{norm}(A_i(t)) + (1-\omega) \cdot \text{norm}(V_i(t))\)，其中速度大小 \(V_i(t) = \|v_i(t)\|_2\) 反映特征更新强度，加速度 \(A_i(t) = \|v_i(t) - v_i(t-1)\|_2\) 反映速度稳定性（即时缓存误差 ICE）。分数低的 token 更稳定、更适合缓存。只对不稳定子集进行 self-attention 计算
- 设计动机：仅用速度大小不够——速度大但方向稳定的 token 也可缓存（误差小）；仅用加速度也不够——加速度小但速度大的 token 正在大幅更新。两者互补提供更精细的稳定性判断。消融表明联合使用（\(\omega=0.7\)）显著优于单一指标
三阶段流水线集成:
- 功能：将 PCSC 和 SSC 整合为端到端的加速工作流
- 核心思路：Phase 1 全采样建立基础几何，结束时校准 PCSC。Phase 2 使用 PCSC+SSC 动态缓存，每 \(\tau\) 步全刷新消除误差累积。Phase 3 使用固定高比例 \(\xi\) 缓存，每 \(f_{\text{corr}}\) 步全刷新
- 设计动机：三阶段对应了 3D 生成的自然演化规律。误差累积消除步（每 \(\tau\) 步全刷新）是必需的——完全禁用后 CD 劣化到 0.0724、F-Score 降到 51.8157

损失函数 / 训练策略¶

Fast3Dcache 完全无需训练，是纯推理时的加速方法。超参数包括：anchor 比例 \(\rho_a\)、衰减斜率 \(\mu\)（默认 -0.07）、刷新间隔 \(\tau\)、Phase 3 固定缓存比例 \(\xi\)、加速度权重 \(\omega\)（默认 0.7）。

实验关键数据¶

主实验（TRELLIS 框架 Toys4K 数据集）¶

方法	吞吐↑	FLOPs(T)↓	CD↓	F-Score↑
TRELLIS vanilla	0.5055	244.2	0.0686	54.8244
RAS (25%)	0.6337 (+25.36%)	125.1 (-48.77%)	0.0867 (+26.38%)	40.2769 (-26.53%)
RAS (12.5%)	0.6177 (+22.20%)	125.8 (-48.48%)	0.0846 (+23.32%)	43.9622 (-19.81%)
Fast3Dcache (τ=3)	0.5850 (+15.73%)	142.4 (-41.69%)	0.0697 (+1.60%)	54.0900 (-1.34%)
Fast3Dcache (τ=5)	0.6344 (+25.50%)	121.3 (-50.33%)	0.0712 (+3.79%)	53.5003 (-2.42%)
Fast3Dcache (τ=8)	0.6426 (+27.12%)	110.3 (-54.83%)	0.0703 (+2.48%)	53.7528 (-1.95%)

消融实验（SSC 组件）¶

配置	CD↓	F-Score↑
无 SSC (标准差筛选)	0.0743	50.9974
仅速度 \(V_i\)	0.0836	44.9630
仅加速度 \(A_i\)	0.0709	53.5394
联合 \(\omega=0.7\)	0.0697	54.0900

关键发现¶

RAS（2D 方法直接迁移到 3D）导致严重几何退化（F-Score 降 27%），验证了"3D 需要几何感知缓存"的核心论点
\(\tau=8\) 时吞吐提升 27.12%、FLOPs 降低 54.83%，CD 仅增 2.48%、F-Score 仅降 1.95%
与 TeaCache 结合可达 3.41× 加速，且几何质量优于 TeaCache单独使用（CD 0.0701 vs 0.0705），说明 Fast3Dcache 可与通用加速器互补
加速度 \(A_i\) 比速度 \(V_i\) 作为单独指标更有效（CD 0.0709 vs 0.0836），因为加速度直接度量缓存误差
PCSC 的斜率 \(\mu\) 在 ±10× 范围内都相对稳健（CD 0.0697-0.0707）

亮点与洞察¶

3D 几何的三阶段稳定化模式：这一经验发现（不稳定→对数线性衰减→微调）不仅适用于 TRELLIS，可能是 3D 扩散生成的普遍规律。这为未来所有 3D 扩散加速工作提供了理论基础
"缓存预算 + token 选择"分离设计：PCSC 负责宏观调度、SSC 负责微观选择，职责清晰。这种分层设计可推广到其他需要自适应计算分配的推理加速场景
速度+加速度的联合稳定性度量：单看速度大小或变化率都不够，两者互补。这个洞察类似于物理中同时考虑速度和加速度来判断运动状态

局限与展望¶

仅加速了 TRELLIS 的稀疏结构生成阶段，SLat 生成阶段未优化，总体端到端加速可能有限
三阶段的边界（\(\rho_a\)）和参数（\(\mu\), \(\omega\), \(\tau\), \(\xi\), \(f_{\text{corr}}\)）虽不需要训练但需要调参，且可能因任务/数据集变化
缓存策略假设体素衰减率 \(\mu\) 跨样本一致，对极端几何（如复杂精细结构）可能不成立
仅在 TRELLIS 和 DSO 框架验证，对隐式表示（如 Hunyuan3D 的 set-based latent）的适用性未知

评分¶

新颖性: ⭐⭐⭐⭐ 三阶段稳定化观察和 PCSC/SSC 设计有新意，但核心思路是缓存方法的 3D 适配
实验充分度: ⭐⭐⭐⭐ 消融全面（PCSC/SSC/τ），多框架验证（TRELLIS+DSO），有互补性实验
写作质量: ⭐⭐⭐⭐ 动机-观察-设计的逻辑链清晰，可视化图表出色
价值: ⭐⭐⭐⭐ 对 3D 生成的推理加速有实用价值，开源易用