Quantized Visual Geometry Grounded Transformer¶

会议: ICLR 2026
arXiv: 2509.21302
代码: https://github.com/wlfeng0509/QuantVGGT
领域: 3D 视觉 / 模型压缩
关键词: VGGT, post-training quantization, 3D reconstruction, Hadamard rotation, calibration

一句话总结¶

针对十亿级 3D 重建模型 VGGT 的部署需求，提出首个专用 PTQ 框架 QuantVGGT，通过双重平滑细粒度量化（Hadamard 旋转 + 通道平滑）解决特殊 token 导致的重尾分布，以及噪声过滤多样化采样解决校准不稳定问题，4-bit 量化实现 3.7× 内存压缩和 2.5× 加速，保持 98%+ 精度。

研究背景与动机¶

领域现状：VGGT 是 1.2B 参数的统一 3D 重建模型，单次前向即完成深度估计、点图回归、相机位姿预测和点跟踪。性能卓越但计算/内存开销巨大，限制了实际部署。
现有痛点：PTQ 在 LLM 和 2D 视觉模型上成熟，但对 VGGT 存在两个独特挑战：(1) 数据无关的特殊 token（camera/register token）导致极端重尾激活分布；(2) 3D 多视图数据的语义复杂性使校准样本选择高度不稳定。
核心矛盾：特殊 token 是 VGGT 多任务推理的关键设计，但其与常规图像 token 的分布差异导致量化时大量 bit 被浪费在极端值上。
本文要解决什么？ 设计 VGGT 专用的 PTQ 方案，在低 bit 量化下保持重建精度。
切入角度：从分布分析入手，发现特殊 token 是重尾根源，多视图帧间关系是校准的关键结构。
核心 idea 一句话：全局 Hadamard 旋转分散特殊 token 的尖峰 + 局部通道平滑降低旋转后残余方差，配合帧感知多样化采样构建稳健校准集。

方法详解¶

整体框架¶

QuantVGGT 包含两个核心组件：(1) DSFQ（Dual-Smoothed Fine-Grained Quantization）——先全局 Hadamard 旋转平滑重尾分布，再局部通道缩放降低幅间方差，配合细粒度量化粒度；(2) NFDS（Noise-Filtered Diverse Sampling）——用深层激活统计过滤异常样本，用帧感知相关性聚类构建多样化校准集。

关键设计¶

Pre-Global Rotation（全局 Hadamard 旋转）:
做什么：分散特殊 token 导致的激活尖峰
核心思路：对激活 \(\mathbf{X}\) 和权重 \(\mathbf{W}\) 同时左乘随机 Hadamard 矩阵 \(\mathbf{H}\)，利用中心极限效应将重尾分布近似为高斯分布。\(\mathbf{XW}^\top = (\mathbf{XH})(\mathbf{WH})^\top\)
设计动机：Hadamard 变换将少数 channel 的极端值均匀分散到所有 channel
Post-Local Smooth（局部通道平滑）:
做什么：降低旋转后残余的通道间方差
核心思路：在旋转后的空间中计算缩放因子 \(\hat{c}_i = \frac{\max(|\mathbf{X}_i\mathbf{H}|)^\alpha}{\max(|\mathbf{W}_i\mathbf{H}|)^{1-\alpha}}\)，\(\alpha=0.5\)
设计动机：旋转只分散全局尖峰，不消除局部通道差异。先旋转再缩放比先缩放再旋转更稳定（后者会破坏缩放的收益）
Fine-Grained Quantization Granularity:
做什么：降低量化粒度以减少误差
核心思路：权重按 \(d_{out}\) 维度量化，激活按 token 维度量化（利用矩阵乘法的内积求和只在 \(d_{in}\) 上进行）
设计动机：μ-coherent 理论表明更细粒度的量化能显著降低量化难度
Noise-Filtered Diverse Sampling（NFDS）:
做什么：构建稳健的校准数据集
核心思路：两步流程——(a) 从深层激活统计计算每个样本的 noise score（均值和方差的标准分 z-score 的 L2 范数），过滤高分异常样本；(b) 利用 VGGT 的帧间相关性（第一帧 vs 后续帧的归一化相似度向量 \(c_t^i\)）做 K-means 聚类，均匀采样构建校准集
设计动机：Theorem 3.2 证明校准集应该在数据空间的各子域按尺度比例采样；帧间关系是 VGGT 的归纳偏置核心

实验关键数据¶

主实验（Camera Pose Estimation on CO3Dv2）¶

配置	W/A bit	精度保持	内存压缩	加速
Full FP16	16/16	100%	1×	1×
W8A8 QuantVGGT	8/8	~99%	2×	1.5×
W4A4 QuantVGGT	4/4	~98%	3.7×	2.5×
W4A4 SmoothQuant	4/4	~85%	3.7×	2.5×
W4A4 QuaRot	4/4	~90%	3.7×	2.5×

消融实验¶

组件	精度变化	说明
仅 Hadamard 旋转	+5% vs naive	分散尖峰
+ 通道平滑	+3%	降低残余方差
+ 细粒度量化	+2%	更精细的量化粒度
+ NFDS	+2%	稳健校准
Full QuantVGGT	98% FP	所有组件协同

关键发现¶

特殊 token 是量化的最大障碍：前 5 个 token（camera+register）的激活幅度比普通 patch token 大 10 倍以上
旋转→平滑的顺序很重要：先平滑再旋转会破坏平滑的收益；先旋转使分布更均匀后再平滑更稳定
帧感知聚类优于标签聚类：t-SNE 可视化显示 3D 场景的语义标签无法有效区分校准子域，但帧间关系可以
4-bit 量化在硬件上可行：实测 RTX 4090 上 2.5× 推理加速

亮点与洞察¶

首个十亿级 3D 模型量化工作：填补了量化在 3D 重建领域的空白
双重平滑的"先全局后局部"设计：简洁优雅地分两步解决重尾问题，且无额外运行时开销（缩放因子可融入 LayerNorm）
NFDS 的帧感知校准：利用了 VGGT "第一帧 vs 后续帧"的独特归纳偏置，体现了"理解模型才能更好压缩"的理念
Theorem 3.2 的理论贡献：给出了校准集构建的形式化指导原则

局限性 / 可改进方向¶

仅针对 VGGT 一个模型，未验证对 DUSt3R/MASt3R 等其他 3D 模型的适用性
4-bit 下精度仍有 2% 损失，对高精度需求场景可能不够
NFDS 的噪声阈值和聚类数需要调参
未探索 INT2/INT3 等极低比特量化

评分¶

新颖性: ⭐⭐⭐⭐ 组件不算全新（Hadamard、SmoothQuant），但针对 VGGT 的组合和分析有新意
实验充分度: ⭐⭐⭐⭐ 多基准多 bit-width 评估，消融完整
写作质量: ⭐⭐⭐⭐ 动机分析深入，可视化清晰
价值: ⭐⭐⭐⭐ 首个 3D 大模型量化工作，实用意义强