DeepRAHT: Learning Predictive RAHT for Point Cloud Attribute Compression¶
会议: AAAI 2026
arXiv: 2601.12255
代码: 有
领域: 3D视觉
关键词: 点云压缩, 属性压缩, RAHT, 端到端学习, 可变码率
一句话总结¶
提出首个端到端可微的 RAHT(Region Adaptive Hierarchical Transform)框架 DeepRAHT,用于有损点云属性压缩,通过可学习的预测模型和基于 Laplace 分布的码率代理实现了超越 G-PCC 标准和现有深度学习方法的压缩性能。
研究背景与动机¶
点云属性压缩(PCAC)是 3D 数据处理的关键环节。RAHT 作为 MPEG G-PCC 标准的核心变换方法,性能优秀且复杂度低。但现有 RAHT 在深度学习中的应用面临几个问题:
- 非可微性:G-PCC 中的 RAHT 基于 C++ 实现,不可微分,无法端到端训练
- 预测缺失:3DAC(首个学习 RAHT 系数的方法)只用手工 RAHT 生成变换系数再学习熵编码,忽略了 G-PCC 标准中至关重要的预测 RAHT
- 仅优化码率:由于非可微性,3DAC 只能优化码率而无法联合优化失真
- 鲁棒性差:现有方法对数据方差敏感,需多个模型覆盖不同码率点
- 预测 RAHT 的可学习性未被探索:预测可以显著降低变换系数的不确定性,编码残差比编码系数更高效
方法详解¶
整体框架¶
DeepRAHT 的核心流程:
- 多尺度生成:对输入点云 \(P_0\) 进行 \(s\) 次 \(2 \times 2 \times 2\) 步长的 sum-pooling,得到 \(\{P_1, ..., P_s\}\)
- 自顶向下编码:从最粗尺度 \(s\) 开始,每个尺度应用变换模型(Haar)和可选的预测模型
- 边编码边重建:重建的 \(\hat{A}_m\) 用于下一层的 DC 重建和预测
- 解码:与重建过程完全一致,保证可逆性
关键设计¶
基于稀疏卷积的可微 RAHT(变换模型)¶
核心创新是用 Minkowski 稀疏张量和稀疏卷积实现可微的 dyadic RAHT:
Haar 变换:对每个 \(2 \times 2 \times 2\) 体素,将 8 个节点分解为 1 个直流系数(DC)和 7 个交流系数(AC)。按 Z→Y→X 轴依次进行二分分解:
其中 \(w_1, w_2\) 是节点包含的原始点数,作为自适应权重。
稀疏卷积实现: - Z 轴分解:\(\text{Zconv} \equiv \text{Conv}(i=1, o=2, k=s=(1,1,2))\) - Y 轴分解:\(\text{Yconv} \equiv \text{Conv}(i=1, o=2, k=s=(1,2,1))\) - X 轴分解:\(\text{Xconv} \equiv \text{Conv}(i=1, o=2, k=s=(2,1,1))\) - 初始卷积核权重为单位矩阵 \(I_2\)
关键性质:DC 等价于下一尺度的归一化属性:\(DC_m \equiv g_{LLL} = A_{m+1,i}/\sqrt{w_{m+1,i}}\),因此 DC 无需编码(已在更高尺度编码),只需编码 7 个 AC 系数。
逆 Haar 变换使用 ConvolutionTranspose 实现。
预测模型¶
G-PCCv14 使用逆距离加权(IDW)预测,但使用同层兄弟节点会引入自回归依赖、增加解码时间。DeepRAHT 仅使用父层尺度进行预测:
IDW 预测(稀疏卷积实现): $\(\text{IDW}(\hat{a}_m) \equiv \text{Conv}(\text{Unpool}(\hat{a}_m), k=3^3, s=1^3)\)$
其中卷积核权重按距离设置比例:中心:面:边:角 = 4:3:2:1。
预测补偿模块:利用祖父层(\(m+1\))的预测误差来补偿当前预测,避免自回归问题: $\(a'_{m-1} = \text{Comp}(\hat{a}_m - \text{IDW}(\hat{a}_{m+1})) + \text{IDW}(\hat{a}_m)\)$
补偿模块由多层线性层和稀疏卷积组成(隐藏层维度 128,核大小 \(3^3\)),包含一个步长为 2 的转置卷积。预测后对 AC 系数取残差进行编码:\(r_{m-1} = AC_{m-1} - AC'_{m-1}\)。
补偿模块可根据预测性能决定是否启用(以 \(s\) bits 信号通知解码端),保证性能下界为 G-PCCv14。
熵编码器(码率代理)¶
现有方法使用 bottleneck 熵模型,但对数据方差敏感。DeepRAHT 使用零游程编码(zero run-length coding)替代,因为 RAHT 残差高度集中在零附近。
由于游程编码不可微,提出基于 Laplace 分布的码率代理: $\(q(r) = \int_{r-0.5}^{r+0.5} \mathcal{L}_{\mu,\sigma}(r)dr\)$
参数 \(\alpha=0.425, \mu=0, \sigma=0.2\) 通过拟合实际数据获得,决定系数达 0.991。
可变码率优势:只需调整量化步长 \(qs\) 即可实现不同码率,无需训练多个模型(\(qs = \{8,10,12,...,224\}\)),而 3DAC 和 TSC-PCAC 需要每个码率点单独训练。
损失函数 / 训练策略¶
总损失函数: $\(\ell = \ell_{bits} + \lambda(\ell_{recon} + \ell_{pred})\)$
- \(\ell_{recon} = \|a_0 - \hat{a}_0\|_2^2\):端到端重建误差
- \(\ell_{pred} = \sum_m \|(a_m - a'_m)\|_2^2\):预测损失,加速收敛
- \(\ell_{bits} = -\sum_m \log_2 q(r_m/qs)\):码率代理损失
- \(\lambda = 1/255\),\(qs = 8\),Adam 优化器,学习率 0.0001,batch size 1
- 训练数据:RWTT 数据集(568 个真实世界物体)
- YUV 色彩空间压缩
实验关键数据¶
主实验¶
BD-BR 增益(%,负值=节省码率,anchor = G-PCCv14):
| 方法 | Owlii Avg | 8iVSLF Avg | MPEG Avg | 总平均 |
|---|---|---|---|---|
| G-PCCv23 | -20.0 | -17.5 | -11.6 | -16.4 |
| 3DAC | -66.6 | -70.9 | -62.7 | -66.7 |
| TSC-PCAC | -12.8 | -68.5 | -73.2 | -51.5 |
| Unicorn | -7.1 | -10.9 | -4.0 | -7.3 |
| DeepRAHT | — | — | — | 基准 |
注:DeepRAHT 相比 G-PCCv23 平均节省 16.4% 码率,相比 Unicorn 节省 7.3% 码率,色度分量改进更大(U: 20.5%, V: 20.8%)。
复杂度对比(8iVSLF,平均 325 万点/帧):
| 方法 | 编码时间 | 解码时间 | 模型大小 | GPU内存 |
|---|---|---|---|---|
| 3DAC | 38.45s | 51.71s | 1MB×5 | 10GB |
| TSC-PCAC | 7.86s | 26.87s | 148MB×5 | 22GB |
| Unicorn | 20.86s | 14.99s | 65MB×3 | 16GB |
| DeepRAHT | 6.03s | 5.74s | 88MB×1 | 8GB |
消融实验¶
loot_viewdep 上的消融(BD-rate gain vs G-PCCv14):
| 配置 | BD-rate gain |
|---|---|
| Vanilla RAHT(无预测) | 基准 |
| RAHT+Pred(IDW,≈G-PCCv14) | -48.2% |
| RAHT+Pred+Comp(DeepRAHT) | -24.6% (vs G-PCCv14) |
| vs G-PCCv23 | -16.6% |
关键发现¶
- 预测补偿模块在不使用兄弟上下文的情况下,性能甚至超越 G-PCCv23 的兄弟预测
- 码率代理的拟合精度极高(\(R^2=0.991\)),有效替代 bottleneck 熵模型
- DeepRAHT 是唯一在所有数据上都能成功压缩的深度学习方法(其他方法在某些大或稀疏点云上会失败)
- 单一模型覆盖 10 个码率点,而竞争方法需 3-5 个模型
- 可逆性保证失真仅来自量化,视觉上比 Unicorn 保留更多纹理细节
亮点与洞察¶
- 端到端可微 RAHT 的首次实现:将 G-PCC 标准中的核心算法完全用稀疏卷积重写,打通了深度学习与传统标准的桥梁
- 性能下界保证:框架结构与 G-PCCv14 完全一致,通过可选补偿模块和信号位确保不会比 G-PCCv14 差
- 可变码率的优雅方案:利用游程编码对 Laplace 分布的鲁棒性,单一模型通过调节量化步长即可覆盖宽码率范围
- DC = 下一尺度归一化属性的等价关系,是避免冗余编码的关键理论基础
- 实用性极强:编解码最快、显存最少、鲁棒性最好
局限性 / 可改进方向¶
- 训练仅在 RWTT 数据集上进行,泛化到 LiDAR 和动态点云有待验证
- Batch size 限制为 1,大规模训练效率有瓶颈
- 预测模型仅使用父/祖父尺度,未探索更远距离的上下文
- 仅处理颜色属性,法线、反射率等其他属性的适用性未验证
- 与 Gaussian Splatting 数据的结合(作者提及的潜在应用)尚未实验
相关工作与启发¶
- G-PCC (tmc13v23):工业标准,DeepRAHT 与之结构对齐并超越,展示了学习方法替代手工设计的潜力
- 3DAC:首个学习 RAHT 系数的方法,但非端到端且无预测——DeepRAHT 正是针对这两个缺陷的完整解决方案
- Unicorn:当前 SOTA 深度学习框架,用平均池化获取多尺度。DeepRAHT 的 RAHT 分解提供了更理论化的多尺度方案
- 启发:传统信号处理工具(如 Haar 小波变换)与深度学习的深度融合是压缩领域的重要方向
评分¶
- 新颖性: ⭐⭐⭐⭐ (端到端可微 RAHT 和码率代理的设计新颖,但整体框架遵循 G-PCC 结构)
- 实验充分度: ⭐⭐⭐⭐⭐ (三个数据集全面评测 + 复杂度对比 + 可变码率 + 鲁棒性验证 + 消融)
- 写作质量: ⭐⭐⭐⭐ (技术描述精确,公式推导完整)
- 价值: ⭐⭐⭐⭐⭐ (直接对标工业标准 G-PCC,实用价值高)