跳转至

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

会议: CVPR 2026
arXiv: 2510.20331
代码: anypcc.github.io
领域: 3d_vision
关键词: point cloud compression, universal context model, instance-adaptive fine-tuning, occupancy code, lossless/lossy compression

一句话总结

提出 AnyPcc,通过 Universal Context Model(融合空间+通道双粒度先验)和 Instance-Adaptive Fine-Tuning(实例自适应微调)策略,用单一模型在 15 个多样化数据集上实现 SOTA 点云几何压缩,相比 G-PCC v23 获得 ~12% 的码率增益。

研究背景与动机

  1. 点云压缩需求迫切:自动驾驶、VR 等 3D 应用大规模普及,点云作为标准 3D 数据格式,高效几何压缩对降低存储和传输成本至关重要。
  2. 现有方法泛化能力差:已有学习方法在标准 benchmark 上表现好,但在真实场景中性能急剧下降,面对不同密度(稀疏 LiDAR vs. 稠密重建)和分布外(OOD)数据束手无策。
  3. 上下文模型密度敏感:已有 spatial-prior 方法(如 Unicorn)在稀疏场景下不可靠,而 channel-wise 方法(如 RENO)虽然对稀疏数据鲁棒,但忽略了粗粒度结构信息,两类方法各有偏科。
  4. OOD 数据是核心瓶颈:即使 Unicorn-U 等号称通用的模型,在医学扫描、3D Gaussian Splats、Dust3R/VGGT 重建等新型点云上仍然崩溃,因为缺乏高效的分布外适应机制。
  5. 隐式压缩太慢:INR 方法(每个实例从头训练一个网络)泛化能力强但编码时间不可接受,无法实际部署。
  6. 缺乏统一框架:现有方法要么针对稠密物体、要么针对稀疏 LiDAR,没有一个单一模型能同时处理所有类型点云并支持无损/有损压缩。

方法详解

整体框架

AnyPcc 采用多尺度八叉树(octree)表示,将点云几何压缩建模为逐尺度的 occupancy code 概率预测问题。核心由三个组件组成:(1) Universal Context Model (UCM) 负责跨密度的强上下文建模;(2) Instance-Adaptive Fine-Tuning (IAFT) 通过实例级微调解决 OOD 问题;(3) 概率阈值机制将无损压缩无缝扩展到有损场景。编码流程为:UCM 从粗到细逐尺度预测 occupancy code 的概率分布,算术编码器据此压缩;对 OOD 数据,IAFT 快速微调少量参数并将权重写入码流。

关键设计一:Universal Context Model (UCM) — 空间-通道双粒度上下文

做什么:设计一个递归共享参数的上下文模型,在每个尺度上从三个来源获取上下文——父尺度 occupancy code、细粒度通道先验、粗粒度空间先验。

核心思路: - 空间分组 (Spatial Grouping):用 3D 棋盘格模式将当前尺度的 occupancy code 分成两组(坐标和为偶数/奇数),形成两步自回归过程。第二组预测时可利用第一组已解码的邻居信息。 - 通道分组 (Channel Grouping):将每个 8-bit occupancy code 拆分为两个 4-bit 子符号(低 4 位 + 高 4 位),形成级联预测——先预测低 4 位,再以其为条件预测高 4 位。 - 协同聚合:预测第二空间组时,通过稀疏卷积聚合第一组已解码 code 的特征,再用融合网络与原始上下文合并,实现粗-细粒度信息的深度交互。

设计动机:作者在理论上证明了两个定理——(1) 通道维度自回归与空间子体素自回归信息论等价(Theorem 1);(2) 在 occupancy code 空间做稀疏卷积,感受野等效于在细粒度体素空间做 2 倍核宽的卷积(Theorem 2),对稀疏数据尤其关键。单独使用通道分组(如 RENO)反而性能下降,必须与空间先验配合才能发挥作用。

关键设计二:Instance-Adaptive Fine-Tuning (IAFT) — 显式-隐式压缩的融合

做什么:对每个待压缩的点云实例,快速微调 UCM 中少量参数,将微调后的权重增量编码进码流。

核心思路: - 将 UCM 参数分为冻结部分 Θ_frozen(特征提取 + 稀疏卷积,占绝大多数)和可调部分 Θ_tune(仅 Prediction Head 的线性层)。 - 编码时先执行一次前向传播缓存冻结部分的输出,然后仅在缓存特征上迭代优化 Θ_tune(~200 次迭代,几秒收敛)。 - 优化后的权重经均匀标量量化 + DeepCABAC 编码写入码流。

设计动机:INR 方法从零训练太慢,固定预训练模型对 OOD 数据无能为力。IAFT 取两者之长:利用预训练模型的强先验加速收敛,仅微调最后一层保证开销极小。实验证明在 GS 数据集上,权重传输仅增加 0.319 bpp,但几何编码节省 1.883 bpp,净收益巨大。

关键设计三:统一无损-有损压缩

做什么:通过概率阈值机制将无损框架扩展到有损场景。

核心思路: - 稀疏 LiDAR 点云:直接省略最细 n 个尺度的编码。 - 稠密点云:编码器仅传输目标尺度的真实点数 k,解码器根据模型预测选择概率最高的 k 个位置重建几何。 - 同一模型同时支持无损和有损,无需额外训练。

损失函数与训练策略

  • 预训练阶段:在大规模混合数据集(KITTI, Ford, 8iVFB, MVUB, ScanNet, GausPcc-1K, Thuman 等)上训练 UCM,损失为 occupancy code 的负对数似然(交叉熵)。
  • IAFT 阶段:实例级微调损失 = 负对数似然 + λ_L1 · ||Θ_tune||₁,L1 正则促进权重稀疏以减少传输开销。
  • 两个版本:Ours(按数据类别分别训练专用模型)和 Ours-U(单一统一模型训练,同一权重应用于所有测试集)。

实验关键数据

表1:15 个数据集无损压缩性能 (bpp↓)

数据集 难度 OOD RENO SparsePCGC OctAttention TopNet GPCC v23 Ours Ours-U
8iVFB E 0.70 0.57 0.68 0.59 0.76 0.54 0.57
MVUB E 1.00 0.69 0.76 0.69 0.94 0.67 0.75
Thuman E 1.64 1.70 2.31 2.20 2.00 1.58 1.64
KITTI E 7.06 6.80 7.21 6.85 8.19 6.18 6.45
GS M 13.89 15.82 11.31 10.95 14.46 11.65 11.74
VGGT M 8.24 7.84 8.22 7.83 7.33 7.30 7.06
S3DIS M 13.06 11.88 11.52 10.84 10.66 10.93 10.79
CS H 3.94 4.94 3.40 3.21 3.23 3.18 3.08
CR-Gain vs GPCC 2.96% 2.07% 1.32% -4.04% 0% -11.93% -10.75%

表2:UCM 消融实验(各组件贡献)

配置 空间卷积(SC) 空间分组(SG) 通道分组(CG) CR-Gain 参数量(M)
Baseline 0.00% 5.15
仅 SG -6.56% 5.68
仅 CG +0.13% 5.15
SC+SG -7.74% 9.78
SC+CG -5.33% 7.19
全部 (Ours) -9.88% 9.77

关键发现:单独使用 CG(如 RENO 的做法)几乎无效(+0.13%),必须与 SC/SG 协同才能释放潜力。

表3:IAFT 对 GS 数据集的码率分解

指标 仅 UCM UCM + IAFT
熵编码 bpp 13.307 11.424
权重传输 bpp 0 0.319
总 bpp 13.307 11.743

权重传输仅增加 0.319 bpp,但几何编码节省 1.883 bpp,净减 1.564 bpp。

亮点与洞察

  1. 理论与实践统一:通过两个定理严格证明了通道-空间建模的等价性和感受野优势,再据此设计 UCM,理论指导实践非常扎实。
  2. 显式-隐式压缩的优雅融合:IAFT 巧妙地将 INR 的实例适配能力嫁接到预训练模型上,编码仅需几秒而非从头训练的几十分钟,实用性极强。
  3. 单一模型的通用性:Ours-U 用同一套权重处理 15 个跨度极大的数据集(稀疏 LiDAR / 稠密人体 / 3DGS / 噪声点云),在 OOD 数据上甚至优于专用模型。
  4. 极全面的评测:构建了包含 15 个数据集的 benchmark,涵盖标准集和极端场景(噪声/dropout/形变),远超同领域常见评测规模。
  5. 解码效率优异:解码时间与最快基线 RENO 相当(0.46s vs 0.23s),编码时间可通过调节 IAFT 迭代数在 0.44s-2.84s 间灵活控制。

局限性

  1. 编码时间开销:启用 IAFT 后编码时间从 0.44s 增至 ~12s(800 次迭代),在实时性要求高的场景(如 live streaming)可能不够快。
  2. 参数量偏大:完整模型 68.39M 参数,虽然 Ours-U 仅 9.77M,但相比 RENO(9.03M)并无明显优势,且 IAFT 需要在编码端进行梯度反传。
  3. 有损压缩策略较朴素:稠密点云的有损方案(选概率最高的 k 个位置)缺乏率失真优化,可能不是最优的 R-D 权衡。
  4. 训练数据依赖:UCM 的泛化能力仍依赖于训练数据的多样性,对完全未见类型的点云(如分子结构)效果有待验证。

相关工作与启发

  • Unicorn/Unicorn-U:最接近的竞争者,尝试统一架构但仍依赖非统一的注意力+卷积混合设计,OOD 泛化差。AnyPcc 用纯卷积 UCM + IAFT 彻底解决。
  • RENO:channel-wise occupancy code 预测的先驱,但消融实验表明单独使用通道分组几乎无效,必须与空间先验协同。
  • INR 压缩(NeRF/3DGS 相关):IAFT 可以看作 INR 的"轻量化"版本,仅微调最后一层而非整个网络,启发:parameter-efficient fine-tuning 在压缩领域也大有可为。
  • DeepCABAC:用于权重编码的上下文自适应二进制算术编码,是将网络参数本身作为数据高效传输的关键技术,值得在其他 model-in-the-loop 场景借鉴。

评分

  • 新颖性: ⭐⭐⭐⭐ — 空间-通道双粒度上下文融合和 IAFT 显式-隐式融合策略都是领域首创,理论证明加分
  • 实验充分度: ⭐⭐⭐⭐⭐ — 15 个数据集、6 个基线、完整消融、无损+有损、时间/参数分析,非常全面
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰,理论推导严谨,图表信息量大,动机论述到位
  • 价值: ⭐⭐⭐⭐ — 单一模型通用压缩是实际部署的刚需,IAFT 策略可推广到其他 3D 数据压缩任务