Lite Any Stereo: Efficient Zero-Shot Stereo Matching¶

会议: CVPR 2026 arXiv: 2511.16555 代码: tomtomtommi/LiteAnyStereo 领域: 3D视觉 关键词: 立体匹配, 零样本泛化, 高效推理, 混合代价聚合, 知识蒸馏

一句话总结¶

提出Lite Any Stereo，通过混合2D-3D代价聚合模块和三阶段百万级数据训练策略（监督→自蒸馏→真实数据知识蒸馏），以不到SOTA精确方法1%的计算量（33G MACs），在四个real-world benchmark上ranking 1st，首次证明超轻量模型可具备强零样本泛化能力。

研究背景与动机¶

立体匹配领域存在精度与效率的严重割裂：

领域现状：当前立体匹配方法分两大阵营——精确方法（FoundationStereo、Selective-IGEV等）利用基础模型深度先验或大规模计算实现高精度但MACs高达数千G；高效方法（LightStereo、BANet等）追求实时推理但精度较低
现有痛点：高效方法大多只针对特定域（如KITTI）微调，缺乏零样本泛化能力；社区普遍认为轻量模型因容量有限，天然无法具备零样本能力
核心矛盾：efficiency vs. zero-shot generalization——社区默认这两者不可兼得
关键gap：虽然StereoAnything尝试用单目深度模型生成30M伪视差图来训练高效模型，但单目深度质量有限，高效模型仍远落后于精确方法
切入角度：作者认为问题不在模型容量本身，而在于(a)架构未充分利用2D和3D互补信息，(b)训练策略未利用现有大量无标注真实数据
核心idea：通过混合代价聚合+三阶段训练策略，让超轻量模型也能bridge sim-to-real gap，实现strong zero-shot generalization

方法详解¶

整体框架¶

前馈式网络，四阶段pipeline：共享权重特征提取（MobileNetV2骨干，多尺度特征统一到1/4分辨率）→ 相关性计算（构建cost volume \(\mathbf{C}(d,h,w) = \frac{1}{N_c}\langle \mathbf{F}_L^{1/4}(h,w), \mathbf{F}_R^{1/4}(h,w-d) \rangle\)）→ 混合3D-2D代价聚合 → 视差估计（soft-argmax + 凸上采样到全分辨率）。整体仅33G MACs。

关键设计¶

紧凑骨干 (Compact Backbone)：
做什么：高效提取多尺度匹配特征
核心思路：采用ImageNet预训练的MobileNetV2作为共享权重特征提取器，生成 \(\{1/4, 1/8, 1/16, 1/32\}\) 多尺度特征，通过残差上采样统一到1/4分辨率
设计动机：实验对比发现MobileNetV2的通道配置比更新的ConvNeXt v2更适合立体匹配（Tab.2c: MobileNetV2在ETH3D上5.39 vs ConvNeXt v2的5.03，但ConvNeXt v2在Middlebury上10.52 vs 10.89）。不使用DepthAnything等外部先验以维持极低计算量
混合代价聚合模块 (Hybrid Cost Aggregation)：
做什么：联合2D和3D表示捕获互补的空间和视差cues
核心问题：纯2D聚合将视差维度折叠为通道，无法建模视差方向的结构连续性；纯3D聚合计算量大且视差维度上很多层级贡献有限
核心思路：采用3D→2D串联结构 \(\mathbf{C}_{agg} = \mathbf{G}_{2D}(\mathbf{G}_{3D}(\mathbf{C}))\)。3D块使用多尺度3D卷积（kernel (3,3,3)）感知跨视差结构，仅占约4.8%计算量；2D块使用ConvNeXt层进行高效空间细化
设计对比：探索了四种集成方案——(a)并联bilateral、(b)2D→3D、(c)3D→2D、(d)交错interleaved。消融证明3D→2D效果最佳（Tab.2a），因为先用少量3D卷积建立视差结构感知，再用高效2D做空间细化更合理
3D占比消融：仅4.8%的3D计算即可，增加到9.5%或15.6%反而性能下降（Middlebury从9.50涨到10.06和10.34），因为在有限MACs预算下3D过多会挤占空间细化能力
三阶段百万级训练策略 (Three-Stage Training)：
Stage ① 合成数据监督训练：在1.8M标注合成数据（SceneFlow 35K + FallingThings 30K + FSD 1.1M + CREStereo 0.2M + VKITTI2 21K + TartanAir 0.31M + Dynamic Replica 0.14M）上用smooth L1 loss端到端训练150K步，建立基础匹配能力
Stage ② 合成数据自蒸馏：教师和学生同架构同初始化自Stage①，教师接收干净输入，学生接收强扰动输入，通过特征对齐loss学习域不变表示：\(\mathcal{L}_{feat} = 1 - \frac{1}{HW}\sum_{i=1}^{HW} \cos(F_i, F_i')\)。消融对比三种蒸馏方式：(a)固定教师权重、(b)EMA更新教师、(c)hard copy学生→教师，发现(a)固定教师效果最佳（K.12: 3.64 vs 3.97 vs 4.22），可能因为稳定的锚点更有利于轻量学生学习域不变特征
Stage ③ 真实数据知识蒸馏：收集0.5M无标注真实立体对（Flickr1024、InStereo2k、Holopix50K、DrivingStereo、SouthKenSV、UASOL），用冻结的FoundationStereo作为教师生成伪标签进行100K步微调。关键发现：数据质量远比数量重要——低质量数据（如Stereo4D仅512×512、HRWSI校正差）反而损害泛化性能

损失函数 / 训练策略¶

Stage ①: \(\mathcal{L}_{disp} = \text{smooth}_{L_1}(\mathbf{D} - \mathbf{D}_{gt})\)
Stage ②: \(\mathcal{L}_{disp} + \mathcal{L}_{feat}\)（特征余弦对齐）
Stage ③: 伪标签 \(\text{smooth}_{L_1}\) loss，不再做自蒸馏（对伪标签无额外增益）
训练配置：150K+50K+100K步，batch 176，A100 GPU，AdamW + one-cycle LR（峰值2e-4），裁剪256×512→微调320×736，\(D_{max}=192\)

实验关键数据¶

主实验（百万级数据零样本泛化）¶

数据集	指标	Lite Any Stereo	之前最佳高效方法	精确方法参考	MACs
KITTI 2012	D1	3.04	4.00 (StereoAnything-L)	2.51 (FoundationStereo)	33G vs 84G vs 12824G
KITTI 2015	D1	3.87	4.81 (StereoAnything-L)	2.83 (FoundationStereo)	同上
ETH3D	Bad 1.0	3.53	3.81 (StereoAnything-L)	0.49 (FoundationStereo)	同上
Middlebury	Bad 2.0	7.51	9.82 (StereoAnything-L)	1.12 (FoundationStereo)	同上
DrivingStereo天气	D1	8.74	-	10.71 (FoundationStereo)	33G vs 12824G

注：在DrivingStereo天气子集上，Lite Any Stereo（33G MACs）甚至超越了计算量389倍的FoundationStereo教师模型！

消融实验¶

训练阶段消融	K.12	K.15	ETH3D	Middlebury	说明
Stage ① only	4.05	4.55	4.43	8.49	合成数据监督基线
+ Stage ②	3.66	4.53	4.69	7.03	自蒸馏: K.12/Mid显著提升
+ Stage ③	3.04	3.87	3.53	7.51	真实数据蒸馏: K.12/ETH3D再提升

聚合方式 (Tab.2a)	K.12	K.15	ETH3D	Middlebury
纯2D	5.02	5.01	6.48	11.29
3D→2D (默认)	4.78	4.64	5.39	10.89
bilateral并联	5.10	5.10	8.55	12.00
interleaved	4.61	4.73	6.20	11.34

关键发现¶

仅4.8%的3D计算占比就能带来显著视差结构感知——增加反而因MACs预算挤占导致性能下降
3D→2D串联优于所有其他混合方案，先建模视差结构再空间细化是正确的信息流方向
固定教师的自蒸馏优于EMA和hard copy——稳定锚点对轻量学生学习域不变特征更有效
训练策略具有架构普适性：同样策略应用于LightStereo-M和BANet-2D后也有一致提升
推理速度全面最快：GTX 1080 Ti上21ms、RTX 2080 Ti上19ms、RTX 3090上23ms、RTX 4090上17ms，且2K输入仅需2.5GB显存
DrivingStereo天气子集上student超越teacher（8.74 vs 10.71），说明轻量模型+蒸馏可学到比大模型更鲁棒的表示

亮点与洞察¶

打破认知壁垒：首次证明超轻量模型（<1% MACs）可以匹敌甚至超越精确方法的零样本性能，挑战了"轻量=弱泛化"的社区共识
混合聚合的极简主义：仅4.8%的3D计算就捕获了关键的视差结构信息，说明3D卷积在视差维度上的作用是"画龙点睛"而非"大力出奇迹"
训练策略的通用价值：三阶段策略对不同架构（LightStereo、BANet）都有效，可直接作为高效立体匹配的标准训练范式
student超越teacher：DrivingStereo上轻量学生超越FoundationStereo教师，说明蒸馏+域特化可以让小模型在特定分布上优于大模型，这一现象值得深入研究

局限性 / 可改进方向¶

与先验方法差距：未使用DepthAnything等深度先验，性能上限受限（ETH3D: 3.53 vs FoundationStereo 0.49）
伪标签瓶颈：Stage③质量完全依赖FoundationStereo——教师在某些场景失败，学生也学不好
Middlebury室内场景：室内数据规模有限，Stage③后Middlebury从7.03升至7.51，说明室内真实数据不足
固定最大视差：\(D_{max}=192\)可能限制超大视差场景的应用
透明/反射物体：作者承认这些挑战性场景仍需改进
未探索时序一致性，多帧stereo video可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 首次在极低计算量下实现SOTA零样本立体匹配，打破了"轻量=弱泛化"的刻板印象
实验充分度: ⭐⭐⭐⭐⭐ 五个真实世界基准、多GPU推理时间对比、详尽消融、训练策略普适性验证
写作质量: ⭐⭐⭐⭐ 结构清晰，图表丰富，消融系统有说服力
价值: ⭐⭐⭐⭐⭐ 对立体匹配实际部署有直接推动，三阶段训练策略有广泛参考价值