Adapt-As-You-Walk Through the Clouds: Training-Free Online Test-Time Adaptation of 3D Vision-Language Foundation Models¶

会议: AAAI 2026
arXiv: 2511.15311v2
代码: 有
领域: 3D视觉 / 测试时适应 / 视觉-语言基础模型
关键词: 测试时适应, 3D点云, 视觉-语言基础模型, 动态原型学习, 无训练适应, 在线聚类, 图正则化

一句话总结¶

提出 Uni-Adapter，一种面向3D视觉-语言基础模型(VLFM)的无训练在线测试时适应框架，通过基于聚类的动态原型缓存和图正则化标签平滑来应对分布偏移，在多个3D损坏基准上取得SOTA。

研究背景与动机¶

3D VLFM的零样本能力与实际部署的差距：Uni3D、ULIP-2、OpenShape等模型通过点云-图像-文本三模态对齐实现了强大的零样本识别，但实际采集的点云受传感器噪声、稀疏性、低分辨率影响，与训练分布产生显著偏移
训练型TTA计算开销大：TPT等方法需要在推理时反向传播优化prompt或参数，每个测试样本都要梯度迭代，不适合实时部署和流式推理场景
高置信缓存的模式覆盖不足：现有无训练方法（TDA、Point-Cache）仅缓存高置信样本作为原型，但同一语义类别的3D特征往往呈多模式分布（如"飞机"类在特征空间中形成多个子群），高置信原型只能代表部分模式，导致决策边界偏差
伪标签噪声污染缓存：基于缓存的方法依赖伪标签将样本分配到对应类别，但在域偏移下伪标签不可靠，错误分类的样本会持续污染缓存，形成负反馈
3D领域的cache-based TTA几乎空白：cache-based TTA主要在2D CLIP上探索，3D VLFM上仅Point-Cache一项工作，该方向有很大探索空间
Point-Cache的双缓存设计效率低：Point-Cache使用全局缓存+局部缓存的双重结构，且局部缓存需对每个样本的patch特征做k-means，导致吞吐量仅为零样本的25%

方法详解¶

整体框架¶

Uni-Adapter 由三个核心模块串联组成，在推理的前向过程中完成全部适应操作，完全不需要反向传播：

在线原型模块(Online Prototyping)：对每个类别维护最多 \(N\) 个聚类中心作为原型，通过置信加权移动平均持续更新
原型重分配模块(Prototype Reassignment)：构建原型间的余弦相似度图，通过图拉普拉斯正则化平滑来修正噪声伪标签
基于熵的融合(Entropy-Based Fusion)：将缓存logit与原始VLFM logit按各自熵值加权融合，信心越低分量越小

关键设计1：基于聚类的在线原型缓存¶

做什么：对每个类别维护最多 \(N\) 个聚类中心，新样本到来时匹配最近原型并更新，或在有空槽时初始化新原型
核心思路：对新输入 \(\mathbf{X}_t\) 编码为 \(\mathbf{f}_t\) 后，先通过与文本嵌入的余弦相似度预测伪类别 \(k\)，在该类别原型中找最相似的进行置信加权更新：

\[\mathbf{c}_{k,n}^{\text{new}} = \frac{\alpha_t \mathbf{f}_t + b_{k,n} \alpha_{k,n} \mathbf{c}_{k,n}^{\text{old}}}{\alpha_t + b_{k,n} \alpha_{k,n}}\]

其中 \(\alpha_t = \exp(-\beta \cdot H_t)\) 是基于预测熵的置信权重，\(b_{k,n}\) 是累积样本计数 - 设计动机：高置信缓存只覆盖分布的"高峰"区域，而聚类中心能覆盖分布的各个模式。t-SNE可视化清晰显示，同一类在特征空间形成多个子簇，多原型设计能捕获这种类内多样性

关键设计2：图正则化原型标签平滑¶

做什么：在所有原型之间构建相似度图，通过图正则化优化修正噪声伪标签
核心思路：收集所有原型特征 \(\mathbf{U} \in \mathbb{R}^{M \times d}\)，计算余弦相似度矩阵 \(\mathbf{A} = \mathbf{U}\mathbf{U}^\top\)，以阈值 \(\gamma\) 稀疏化后构建归一化图拉普拉斯 \(\mathbf{L}_{\text{norm}}\)，求解：

\[\mathbf{Z}^* = (\mathbf{I} + \lambda_{\text{reg}} \mathbf{L}_{\text{norm}})^{-1} \mathbf{Z}^{(0)}\]

使用共轭梯度法高效求解，复杂度从 \(O(M^3)\) 降至 \(O(\rho \cdot \text{nnz}(\mathbf{L}_{\text{norm}}))\) - 设计动机：在线聚类受伪标签噪声影响，错误标签的原型会误导后续样本分配。通过图结构让相似原型"互相拉向"一致的标签分配，比单纯置信度过滤更鲁棒

关键设计3：缓存logit计算与熵加权融合¶

做什么：基于原型与输入的相似度计算cache logit，再与原始VLFM logit融合
核心思路：缓存logit按类别归一化原型数量：\(\mathbf{s}^{\text{cache}} = \mathbf{\Lambda} \mathbf{Z}^{*\top} (\mathbf{U} \mathbf{f}_t)\)，最终通过熵交叉加权融合：

\[\mathbf{s}^{\text{final}} = \frac{H_{\text{cache}} \cdot \mathbf{s}^{\text{main}} + H_t \cdot \mathbf{s}^{\text{cache}}}{H_{\text{cache}} + H_t}\]

设计动机：熵高的一方（不确定性大）给对方更大话语权。当缓存刚初始化（不可靠）时自动倾向原始模型，当缓存积累充分后逐渐发挥更大作用，实现自适应的渐进适应

损失函数 / 训练策略¶

本方法完全无需训练，不涉及任何损失函数或梯度计算。所有适应操作都在推理的前向过程中完成：

在线聚类更新：置信加权移动平均
图正则化求解：共轭梯度法，最多100次迭代
逐样本适应：batch size = 1，支持流式推理

关键超参数：聚类中心数 \(N=30\)，稀疏阈值 \(\gamma=0.5\)，置信衰减 \(\beta=10\)，标签平滑系数 \(\lambda_{\text{reg}}=0.3\)。

实验¶

主实验：损坏数据集上的分布偏移适应（Uni3D-Large, batch=1）¶

数据集	Source-Only	TDA* (CVPR24)	Point-Cache* (CVPR25)	Uni-Adapter	相对提升
ModelNet-40C	59.15%	63.63%	66.73%	69.70%	+10.55%
ScanObjectNN-C	38.07%	40.62%	42.13%	46.33%	+8.26%
ShapeNet-C	57.92%	59.43%	57.70%	62.41%	+4.49%

在15种corruption类型上一致性领先。ModelNet-40C上超过最强基线Point-Cache约3个百分点。

干净数据集与大规模数据集¶

数据集	规模	Source-Only	Point-Cache	Uni-Adapter
ModelNet40	40类	83.47%	83.43%	83.96%
ScanObjectNN	15类	61.46%	61.46%	64.03%
ShapeNet	55类	81.23%	80.96%	81.23%
Objaverse-LVIS	1156类	51.59%	51.65%	52.44%

即使在无分布偏移的干净数据上也不损失性能，在ScanObjectNN上反而提升2.57%。

计算效率¶

方法	吞吐量(test/s)	相对零样本比率
Zero-shot	39.19	100%
Point-Cache	9.73	25%
Uni-Adapter	36.93	94%

Uni-Adapter仅损失约6%吞吐量，Point-Cache损失75%。

消融实验要点¶

组件贡献：Online Prototyping贡献主要提升（59.15→68.48），Prototype Reassignment再加1.22%（→69.70）
聚类 vs 置信缓存：在ShapeNet-C所有corruption类型上，基于聚类的缓存一致优于基于置信度的缓存
聚类中心数N：N=30最优，太少无法覆盖类内分布，太多引入噪声
标签平滑 \(\lambda_{\text{reg}}\)：0.3最优，接近0时平滑效果消失、接近1时过度平滑
共轭梯度 vs 直接求逆：共轭梯度更快（27.07ms vs 29.20ms），MAE<0.0005%
统计显著性：所有对比的p值远低于0.05，最强对比Point-Cache在ModelNet-40C上p=8.04×10⁻⁷
跨模型验证：在ULIP-2和OpenShape上同样有效，ModelNet-40C上分别提升+7.97%和+4.64%

亮点¶

真正的无训练适应：不需要反向传播、不修改模型参数、不需标注数据，batch size=1即可工作
聚类缓存设计精巧：解决了高置信缓存的模式覆盖不足问题，用在线聚类捕获类内多模式分布
图正则化标签平滑：利用原型间的拓扑关系修正伪标签，比简单的置信度过滤更优雅
计算效率突出：吞吐量接近零样本推理（仅降6%），远优于Point-Cache（降75%），且内存开销可忽略
模型无关性：在Uni3D、ULIP-2、OpenShape三种3D VLFM上均有效
实验全面：覆盖损坏数据集（15种corruption×5级别）、干净数据集、大规模数据集（1156类），并做了统计显著性检验

局限性¶

冷启动不稳定：缓存初始化阶段（原型尚未充分积累时），在严重噪声输入下性能不稳定——作者也承认了这一点
伪标签累积偏差：虽然图平滑能修正部分错误，但基于argmax的伪标签生成本身在域偏移极大时可能持续错误
固定聚类数N：所有类别共享同一个最大聚类数，但不同类可能有不同的分布复杂度
仅评估分类任务：3D点云的分割、检测等下游任务未涉及
未考虑连续域漂移：实验中假设corruption类型固定，未测试域随时间连续变化的场景

评分¶

新颖性: ⭐⭐⭐⭐ 聚类缓存替代置信缓存+图平滑修正是有意义的创新，但整体框架仍是cache-based TTA的改进
实验充分度: ⭐⭐⭐⭐⭐ 3个损坏数据+3个干净数据+2个大规模数据集，3种3D VLFM，统计显著性检验，消融全面
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述充分，公式推导完整
价值: ⭐⭐⭐⭐ 3D VLFM的无训练TTA是实用且及时的课题，方法高效实用

方法	类型	是否无训练	3D专用	VLFM专用	ModelNet-40C
TENT (ICLR21)	训练型TTA	❌	❌	❌	59.48
T3A (NeurIPS21)	无训练TTA	✅	❌	❌	64.12
TPT (NeurIPS22)	训练型TTA	❌	❌	✅	61.02
TDA (CVPR24)	无训练TTA	✅	❌	✅	63.63
CloudFixer (ECCV24)	输入适应	✅	✅	❌	56.09
Point-Cache (CVPR25)	无训练TTA	✅	✅	✅	66.73
Uni-Adapter	无训练TTA	✅	✅	✅	69.70