AnyPcc: Compressing Any Point Cloud with a Single Universal Model¶

会议: CVPR 2026
arXiv: 2510.20331
代码: anypcc.github.io
领域: 3d_vision
关键词: point cloud compression, universal context model, instance-adaptive fine-tuning, occupancy code, lossless/lossy compression

一句话总结¶

提出 AnyPcc，通过 Universal Context Model（融合空间+通道双粒度先验）和 Instance-Adaptive Fine-Tuning（实例自适应微调）策略，用单一模型在 15 个多样化数据集上实现 SOTA 点云几何压缩，相比 G-PCC v23 获得 ~12% 的码率增益。

研究背景与动机¶

点云压缩需求迫切：自动驾驶、VR 等 3D 应用大规模普及，点云作为标准 3D 数据格式，高效几何压缩对降低存储和传输成本至关重要。
现有方法泛化能力差：已有学习方法在标准 benchmark 上表现好，但在真实场景中性能急剧下降，面对不同密度（稀疏 LiDAR vs. 稠密重建）和分布外（OOD）数据束手无策。
上下文模型密度敏感：已有 spatial-prior 方法（如 Unicorn）在稀疏场景下不可靠，而 channel-wise 方法（如 RENO）虽然对稀疏数据鲁棒，但忽略了粗粒度结构信息，两类方法各有偏科。
OOD 数据是核心瓶颈：即使 Unicorn-U 等号称通用的模型，在医学扫描、3D Gaussian Splats、Dust3R/VGGT 重建等新型点云上仍然崩溃，因为缺乏高效的分布外适应机制。
隐式压缩太慢：INR 方法（每个实例从头训练一个网络）泛化能力强但编码时间不可接受，无法实际部署。
缺乏统一框架：现有方法要么针对稠密物体、要么针对稀疏 LiDAR，没有一个单一模型能同时处理所有类型点云并支持无损/有损压缩。

方法详解¶

整体框架¶

AnyPcc 采用多尺度八叉树(octree)表示，将点云几何压缩建模为逐尺度的 occupancy code 概率预测问题。核心由三个组件组成：(1) Universal Context Model (UCM) 负责跨密度的强上下文建模；(2) Instance-Adaptive Fine-Tuning (IAFT) 通过实例级微调解决 OOD 问题；(3) 概率阈值机制将无损压缩无缝扩展到有损场景。编码流程为：UCM 从粗到细逐尺度预测 occupancy code 的概率分布，算术编码器据此压缩；对 OOD 数据，IAFT 快速微调少量参数并将权重写入码流。

关键设计一：Universal Context Model (UCM) — 空间-通道双粒度上下文¶

做什么：设计一个递归共享参数的上下文模型，在每个尺度上从三个来源获取上下文——父尺度 occupancy code、细粒度通道先验、粗粒度空间先验。

核心思路： - 空间分组 (Spatial Grouping)：用 3D 棋盘格模式将当前尺度的 occupancy code 分成两组（坐标和为偶数/奇数），形成两步自回归过程。第二组预测时可利用第一组已解码的邻居信息。 - 通道分组 (Channel Grouping)：将每个 8-bit occupancy code 拆分为两个 4-bit 子符号（低 4 位 + 高 4 位），形成级联预测——先预测低 4 位，再以其为条件预测高 4 位。 - 协同聚合：预测第二空间组时，通过稀疏卷积聚合第一组已解码 code 的特征，再用融合网络与原始上下文合并，实现粗-细粒度信息的深度交互。

设计动机：作者在理论上证明了两个定理——(1) 通道维度自回归与空间子体素自回归信息论等价（Theorem 1）；(2) 在 occupancy code 空间做稀疏卷积，感受野等效于在细粒度体素空间做 2 倍核宽的卷积（Theorem 2），对稀疏数据尤其关键。单独使用通道分组（如 RENO）反而性能下降，必须与空间先验配合才能发挥作用。

关键设计二：Instance-Adaptive Fine-Tuning (IAFT) — 显式-隐式压缩的融合¶

做什么：对每个待压缩的点云实例，快速微调 UCM 中少量参数，将微调后的权重增量编码进码流。

核心思路： - 将 UCM 参数分为冻结部分 Θ_frozen（特征提取 + 稀疏卷积，占绝大多数）和可调部分 Θ_tune（仅 Prediction Head 的线性层）。 - 编码时先执行一次前向传播缓存冻结部分的输出，然后仅在缓存特征上迭代优化 Θ_tune（~200 次迭代，几秒收敛）。 - 优化后的权重经均匀标量量化 + DeepCABAC 编码写入码流。

设计动机：INR 方法从零训练太慢，固定预训练模型对 OOD 数据无能为力。IAFT 取两者之长：利用预训练模型的强先验加速收敛，仅微调最后一层保证开销极小。实验证明在 GS 数据集上，权重传输仅增加 0.319 bpp，但几何编码节省 1.883 bpp，净收益巨大。

关键设计三：统一无损-有损压缩¶

做什么：通过概率阈值机制将无损框架扩展到有损场景。

核心思路： - 稀疏 LiDAR 点云：直接省略最细 n 个尺度的编码。 - 稠密点云：编码器仅传输目标尺度的真实点数 k，解码器根据模型预测选择概率最高的 k 个位置重建几何。 - 同一模型同时支持无损和有损，无需额外训练。

损失函数与训练策略¶

预训练阶段：在大规模混合数据集（KITTI, Ford, 8iVFB, MVUB, ScanNet, GausPcc-1K, Thuman 等）上训练 UCM，损失为 occupancy code 的负对数似然（交叉熵）。
IAFT 阶段：实例级微调损失 = 负对数似然 + λ_L1 · ||Θ_tune||₁，L1 正则促进权重稀疏以减少传输开销。
两个版本：Ours（按数据类别分别训练专用模型）和 Ours-U（单一统一模型训练，同一权重应用于所有测试集）。

实验关键数据¶

表1：15 个数据集无损压缩性能 (bpp↓)¶

数据集	难度	OOD	RENO	SparsePCGC	OctAttention	TopNet	GPCC v23	Ours	Ours-U
8iVFB	E	✗	0.70	0.57	0.68	0.59	0.76	0.54	0.57
MVUB	E	✗	1.00	0.69	0.76	0.69	0.94	0.67	0.75
Thuman	E	✗	1.64	1.70	2.31	2.20	2.00	1.58	1.64
KITTI	E	✗	7.06	6.80	7.21	6.85	8.19	6.18	6.45
GS	M	✗	13.89	15.82	11.31	10.95	14.46	11.65	11.74
VGGT	M	✓	8.24	7.84	8.22	7.83	7.33	7.30	7.06
S3DIS	M	✓	13.06	11.88	11.52	10.84	10.66	10.93	10.79
CS	H	✓	3.94	4.94	3.40	3.21	3.23	3.18	3.08
CR-Gain vs GPCC			2.96%	2.07%	1.32%	-4.04%	0%	-11.93%	-10.75%

表2：UCM 消融实验（各组件贡献）¶

配置	空间卷积(SC)	空间分组(SG)	通道分组(CG)	CR-Gain	参数量(M)
Baseline	✗	✗	✗	0.00%	5.15
仅 SG	✗	✓	✗	-6.56%	5.68
仅 CG	✗	✗	✓	+0.13%	5.15
SC+SG	✓	✓	✗	-7.74%	9.78
SC+CG	✓	✗	✓	-5.33%	7.19
全部 (Ours)	✓	✓	✓	-9.88%	9.77

关键发现：单独使用 CG（如 RENO 的做法）几乎无效（+0.13%），必须与 SC/SG 协同才能释放潜力。

表3：IAFT 对 GS 数据集的码率分解¶

指标	仅 UCM	UCM + IAFT
熵编码 bpp	13.307	11.424
权重传输 bpp	0	0.319
总 bpp	13.307	11.743

权重传输仅增加 0.319 bpp，但几何编码节省 1.883 bpp，净减 1.564 bpp。

亮点与洞察¶

理论与实践统一：通过两个定理严格证明了通道-空间建模的等价性和感受野优势，再据此设计 UCM，理论指导实践非常扎实。
显式-隐式压缩的优雅融合：IAFT 巧妙地将 INR 的实例适配能力嫁接到预训练模型上，编码仅需几秒而非从头训练的几十分钟，实用性极强。
单一模型的通用性：Ours-U 用同一套权重处理 15 个跨度极大的数据集（稀疏 LiDAR / 稠密人体 / 3DGS / 噪声点云），在 OOD 数据上甚至优于专用模型。
极全面的评测：构建了包含 15 个数据集的 benchmark，涵盖标准集和极端场景（噪声/dropout/形变），远超同领域常见评测规模。
解码效率优异：解码时间与最快基线 RENO 相当（0.46s vs 0.23s），编码时间可通过调节 IAFT 迭代数在 0.44s-2.84s 间灵活控制。

局限性¶

编码时间开销：启用 IAFT 后编码时间从 0.44s 增至 ~12s（800 次迭代），在实时性要求高的场景（如 live streaming）可能不够快。
参数量偏大：完整模型 68.39M 参数，虽然 Ours-U 仅 9.77M，但相比 RENO（9.03M）并无明显优势，且 IAFT 需要在编码端进行梯度反传。
有损压缩策略较朴素：稠密点云的有损方案（选概率最高的 k 个位置）缺乏率失真优化，可能不是最优的 R-D 权衡。
训练数据依赖：UCM 的泛化能力仍依赖于训练数据的多样性，对完全未见类型的点云（如分子结构）效果有待验证。

评分¶

新颖性: ⭐⭐⭐⭐ — 空间-通道双粒度上下文融合和 IAFT 显式-隐式融合策略都是领域首创，理论证明加分
实验充分度: ⭐⭐⭐⭐⭐ — 15 个数据集、6 个基线、完整消融、无损+有损、时间/参数分析，非常全面
写作质量: ⭐⭐⭐⭐ — 结构清晰，理论推导严谨，图表信息量大，动机论述到位
价值: ⭐⭐⭐⭐ — 单一模型通用压缩是实际部署的刚需，IAFT 策略可推广到其他 3D 数据压缩任务