MoST: Efficient Monarch Sparse Tuning for 3D Representation Learning¶

会议: CVPR 2025
arXiv: 2503.18368
代码: 待确认
领域: 3d_vision
关键词: PEFT, point cloud, Monarch matrix, reparameterization, 3D representation learning, K-Rectify

一句话总结¶

提出首个基于重参数化的3D PEFT方法MoST，设计Point Monarch结构化矩阵（在Monarch基础上加入KNN局部特征平滑），仅调3.6%参数在多个3D benchmark上超越全量微调。

研究背景与动机¶

领域现状: 3D点云预训练-微调范式（Point-MAE、ReCon、PointGPT等）需要对整个模型进行全量微调，计算和内存开销大。参数高效微调(PEFT)在NLP/2D视觉领域已成熟，但3D点云领域仍处于探索阶段。

现有方案的不足: 1. Adapter/Prompt方法（IDPT、DAPT、PPT、PointGST）: 引入额外推理开销，且专为Transformer设计，无法泛化到Mamba/U-Net等架构 2. LoRA等重参数化方法: 不引入推理开销，但低秩假设捕获全局信息、忽视局部几何特征，在3D PEFT中表现差 3. Monarch矩阵虽比LoRA表达力更强，但同样无法捕获点云的局部空间结构

核心洞察: 通过实验发现KNN邻域内特征的L2距离与分类准确率高度相关——距离越低（局部特征越平滑），性能越好。LoRA和Monarch的局部距离高，Point Monarch则最低。

方法详解¶

整体框架¶

MoST在训练时将dense更新权重矩阵重参数化为稀疏的Point Monarch结构化矩阵，推理时合并回原始权重，因此零推理开销。适用于任意包含dense层的backbone。

关键设计¶

模块一：Point Monarch结构化矩阵¶

在标准Monarch矩阵 $M = PLP^\top R$ 基础上，加入两个K-Rectify操作： $$\text{Point Monarch} = K \cdot PLP^\top R \cdot K$$

其中 $L, R$ 是 $b$ 个块的对角分块矩阵（每块 $d/b \times d/b$），参数量 $2d^2/b \ll d^2$。$P$ 是行主序到列主序的置换（channel shuffle）。K 是KNN局部token线性变换，捕获点云空间局部特征。

模块二：K-Rectify（参数无关的局部特征平滑）¶

K-Rectify通过三步实现无参数的局部信息交换： 1. KNN grouping: 在3D坐标空间找每个patch中心的K近邻 2. IDW插值: 对邻域特征用逆距离加权（Inverse Distance Weighting）计算新中心特征 3. 残差修正: $Kx = x + \lambda x_{new}$，$\lambda$ 为超参数

矩阵形式: $K = I + \lambda(A \odot D)$，其中 $A$ 是KNN邻接矩阵，$D$ 是归一化逆距离矩阵。K本身也是稀疏的，无可学习参数。

模块三：多层特征融合策略¶

参数无关的backbone-header对齐策略：在backbone各层输出特征上进行融合，避免"知识瓶颈"，增强预训练知识向下游任务头的传递。

损失函数¶

使用下游任务标准损失（分类用交叉熵，分割用交叉熵+Dice loss），不引入额外正则化。关键在于训练时权重更新矩阵的结构约束（Point Monarch稀疏性），而非损失函数创新。

实验关键数据¶

主实验表¶

多backbone PEFT对比 (ScanObjectNN PB_50_RS / ModelNet40 acc.%):

方法	3D?	无推理开销?	Point-MAE	ReCon	Mamba3D	PointGPT
Full FT	-	-	85.18/93.8	90.01/92.5	92.05/94.7	93.4/94.1
LoRA	✗	✓	82.76/92.50	85.70/92.87	87.16/92.42	91.92/92.95
DAPT	✓	✗	88.27/92.99	89.31/93.27	88.55/92.87	93.02/94.2
PointGST	✓	✗	89.3/93.5	89.49/93.6	89.97/93.72	94.83/94.8
MoST (b=8)	✓	✓	92.92/94.77	93.55/95.06	93.30/95.18	97.50/96.23

关键亮点：MoST在Point-MAE上超越Full FT 7.74%，在PointGPT上达到97.50%!

消融表¶

block size b的影响 (Point-MAE, PB_50_RS/MN40):

b	参数量(M)	PB_50_RS	ModelNet40
32	0.8	91.95	94.04
16	1.3	92.71	94.49
8	2.3	92.92	94.77

各分量贡献 (K-Rectify消融): - 标准Monarch（无K）性能介于LoRA和MoST之间 - 只加前置K或后置K均有提升，前后都加（完整MoST）效果最佳 - 局部特征距离排序: MoST < Full FT < Monarch < LoRA，与性能排序一致

关键发现¶

重参数化 > Adapter/Prompt: 在所有backbone上，MoST均超越adapter类方法，且无推理开销
局部特征平滑是3D PEFT的关键: KNN邻域特征L2距离与性能高度相关
泛化性极强: Transformer、Mamba、层次架构三类backbone均适用
可与其他矩阵分解组合: 将L/R进一步Low-rank或Kronecker分解可进一步压缩参数
超越全量微调: Point-MAE (+7.74%), I2P-MAE (+3.16%), 几乎所有分类任务上超越Full FT

亮点与洞察¶

首个3D重参数化PEFT: 填补了重要空白——3D领域之前仅有adapter/prompt类方法
简洁的物理直觉: 点云局部特征平滑→更好表征→更高性能，实验验证了这一假设
K-Rectify的精巧设计: 无参数、利用3D坐标几何信息、与batch matmul兼容、保持Monarch的块对角结构
实用价值: 97.5% acc on ScanObjectNN相当惊人，且仅需3.6%参数

局限性¶

K-Rectify需要显式3D坐标（点云xyz），不能直接用于没有空间坐标的模态
KNN搜索在大规模点云上有计算开销（虽然论文认为线性变换部分开销更大）
场景级分割（S3DIS）提升幅度相对object-level任务较小
K-Rectify的超参数λ和KNN-K需要针对不同任务调整

评分¶

⭐⭐⭐⭐ — 研究动机清晰（局部特征→结构化矩阵），设计简洁有效（Point Monarch = Monarch + K-Rectify），实验扎实（5个backbone×多任务），97.5%在ScanObjectNN上极有竞争力；学术新颖度和简洁度均佳。