Adapting Point Cloud Analysis via Multimodal Bayesian Distribution Learning¶

会议: CVPR 2026
arXiv: 2603.22070
代码: 无
领域: 3D Vision / Point Cloud Analysis
关键词: 测试时适配, 点云识别, 贝叶斯推断, 多模态分布学习, 零样本泛化

一句话总结¶

BayesMM 提出了一个无需训练的动态贝叶斯分布学习框架，将文本和几何模态建模为高斯分布，并通过贝叶斯模型平均自动调节模态权重，在多个点云基准上实现了鲁棒的测试时适配，平均提升超过 4%。

研究背景与动机¶

领域现状：大型多模态 3D 视觉-语言模型（如 ULIP-2、Uni3D）通过对比预训练实现了良好的零样本泛化能力，但在分布偏移下性能明显下降。

现有痛点： - 基于缓存的测试时适配（TTA）方法维护有限容量的样本缓存，样本替换导致渐进的信息丢失； - 零样本和缓存 logits 的融合依赖经验调参（\(\lambda\), \(\gamma\)），缺乏理论基础，适配过程不稳定。

核心矛盾：如何在测试时持续利用所有历史样本的统计信息，同时以有原则的方式融合不同模态？

本文切入角度：将每个类别的文本和几何特征建模为高斯分布，在贝叶斯框架下自动平衡两个模态的贡献。

核心 idea：用分布替代离散缓存，用贝叶斯模型平均替代启发式融合，实现连续、稳定、无需训练的测试时适配。

方法详解¶

整体框架¶

输入：流式点云序列 \(\{X_t\}\) + 固定文本原型 \(\{T_c\}\) → 冻结点云编码器 \(\Phi\) 和文本编码器 \(\Psi\) → 文本分布学习（离线）+ 几何分布学习（在线更新）→ 贝叶斯加权融合 → 预测类别。

关键设计¶

文本分布学习（Textual Distribution Learning）：
- 功能：从 LLM 生成的 \(M\) 个语义释义中估计每类文本的高斯分布。
- 核心思路：计算经验均值 \(\bar{\mathbf{z}}^c\) 和协方差 \(\mathbf{S}^c\)，建立先验 \(p(\boldsymbol{\nu}^c) = \mathcal{N}(\bar{\mathbf{z}}^c, \beta^2\mathbf{I})\)，通过 MAP 估计得到确定性原型 \(\boldsymbol{\nu}^c_{\text{MAP}}\)。
- 设计动机：单一文本模板无法捕获语义多样性，多释义的高斯建模提供更丰富的类别语义先验。
几何分布学习（Geometric Distribution Learning）：
- 功能：为每类维护在线高斯分布 \(\{\boldsymbol{\mu}_t^c, \boldsymbol{\Sigma}_t^c\}\)，随新样本到达递归更新。
- 核心思路：初始化为文本原型 \(\boldsymbol{\mu}_0^c = \bar{\mathbf{z}}^c\)，利用贝叶斯规则闭式递归更新： \(\boldsymbol{\mu}_t^c = \boldsymbol{\Sigma}_t^c((\boldsymbol{\Sigma}^c)^{-1}\mathbf{x}_t + (\boldsymbol{\Sigma}_{t-1}^c)^{-1}\boldsymbol{\mu}_{t-1}^c)\) \(\boldsymbol{\Sigma}_t^c = ((\boldsymbol{\Sigma}_{t-1}^c)^{-1} + (\boldsymbol{\Sigma}^c)^{-1})^{-1}\)
- 设计动机：分布参数连续积累所有历史样本的统计信息，不存在缓存容量限制和信息丢失问题。
贝叶斯多模态加权（Bayesian Model Averaging）：
- 功能：将文本和几何模态的后验预测自动融合。
- 核心思路：\(p(c|\mathbf{x}_t) = p(c|\mathbf{x}_t, \boldsymbol{\Omega}^c) p(\boldsymbol{\Omega}^c|\mathbf{x}_t) + p(c|\mathbf{x}_t, \boldsymbol{\Theta}_t^c) p(\boldsymbol{\Theta}_t^c|\mathbf{x}_t)\)
- 每个模态的权重是其后验证据 \(p(\boldsymbol{\Omega}^c|\mathbf{x}_t)\) 和 \(p(\boldsymbol{\Theta}_t^c|\mathbf{x}_t)\)，自动调节。
- 设计动机：缓存方法的 \(\lambda\) 需要手动调参，贝叶斯框架根据数据证据自动分配权重，更鲁棒。

损失函数 / 训练策略¶

完全无需训练：冻结所有编码器，仅通过贝叶斯规则在线更新分布参数
无额外超参数需要随域变化调整

实验关键数据¶

主实验（ModelNet-C，7 种腐蚀类型）¶

基础模型	方法	Add Global	Add Local	Drop Global	Jitter	平均
ULIP	Zero-shot	33.55	43.92	54.70	44.08	48.60
ULIP	+ Hierarchical Cache	46.15	47.85	59.16	49.92	55.02
ULIP	+ BayesMM	54.82	53.93	63.09	53.04	59.42
Uni3D	Zero-shot	72.45	56.36	68.15	56.24	69.69
Uni3D	+ Hierarchical Cache	77.51	71.15	72.16	62.52	74.63
Uni3D	+ BayesMM	77.59	73.30	74.96	65.84	76.56

消融实验（分布一致性验证）¶

配置	KL 散度（初始→最终）	MMD（初始→最终）	说明
仅文本模态	较高	较高	单模态不足
仅几何模态	中等	中等	缺少语义先验
BayesMM（完整）	17.2 → 12.6	0.91 → 0.71	贝叶斯融合持续收敛

关键发现¶

BayesMM 在所有四个基础模型（ULIP、ULIP-2、OpenShape、Uni3D）上均带来显著提升
在 Sim-to-Real 设置中同样有效，证明跨域泛化能力
KL 和 MMD 随适配进行持续降低，说明分布不断align 而非过拟合

亮点与洞察¶

完全无需训练的 TTA 方法：无需梯度更新，仅通过闭式贝叶斯更新实现
将分布学习引入 3D 多模态 TTA，在理论上比缓存方法更优雅
模型无关：可即插即用到任何预训练3D视觉-语言模型

局限与展望¶

高斯假设可能不适合复杂的非高斯特征分布
类别数很多时，维护每类协方差矩阵的计算开销较大
当测试流中某类样本极少时，几何分布可能估计不准

评分¶

新颖性: ⭐⭐⭐⭐ 贝叶斯框架替代缓存方法，理论优雅
实验充分度: ⭐⭐⭐⭐⭐ 四个基础模型×多个基准×多种设置
写作质量: ⭐⭐⭐⭐ 推导清晰，公式严谨
价值: ⭐⭐⭐⭐ 即插即用的实用 TTA 方案