MatAnyone 2: Scaling Video Matting via a Learned Quality Evaluator¶

会议: CVPR2026 arXiv: 2512.11782 代码: 项目主页领域: 语义分割 / 视频抠图 关键词: video matting, quality evaluator, alpha matte, dataset curation, reference-frame strategy

一句话总结¶

提出学习型 Matting Quality Evaluator (MQE)，在无 ground-truth 条件下逐像素评估 alpha 质量，既作为在线训练引导又作为离线数据筛选器，构建了 28K 片段 / 240 万帧的真实世界视频抠图数据集 VMReal，配合参考帧训练策略，显著超越所有现有方法。

背景与动机¶

视频抠图数据稀缺：最大的视频抠图数据集 VM800 仅有 826 个序列，约为 SAM 2 所用 VOS 数据集的 1/60，严重限制模型训练。
合成数据存在域差距：传统通过 RGBA 混合将前景合成到随机背景上，导致光照不一致和边界不自然，泛化到真实场景时效果下降。
分割预训练后抠图退化：利用分割模型/数据预训练后在抠图数据上微调，由于高质量抠图数据过少，分割能力在微调后反而退化。
联合训练的边界监督薄弱：MatAnyone 等方法在非边界区域使用分割标签、在边界区域使用无监督损失，后者假设过强，导致预测 alpha 退化为分割 mask。
边界细节与语义精度难以兼顾：现有方法在抠图精度和分割精度之间做取舍，无法同时提升。
长视频外观剧烈变化：基于传播的方法在训练窗口有限时无法建模人物外观的大幅度变化（如新出现的衣物/身体部位）。

方法详解¶

整体框架¶

MatAnyone 2 的核心是 Matting Quality Evaluator (MQE)，输入三元组 \(\langle I_{rgb}, \hat{\alpha}, M^{seg} \rangle\)（RGB 帧、预测 alpha、分割 mask），输出逐像素二值评估图 \(M^{eval} \in \{0,1\}^{H \times W}\)（1=可靠，0=错误）。MQE 以两种模式驱动抠图训练的规模化：

在线引导 (Online Guidance)：训练时实时评估 alpha 质量，为边界和核心区域提供动态监督
离线筛选 (Offline Selection)：作为数据管理的质量仲裁器，融合视频和图像抠图模型的互补优势

MQE 模型设计¶

编码器：采用预训练 DINOv3 提取高质量特征
解码器：DPT 解码器输出评估图
训练数据构建：基于 P3M-10k 图像抠图数据集，用 MAD 和 Grad 度量在局部 patch 内计算 \(\hat{\alpha}\) 与 \(\alpha_{gt}\) 的差异 \(\mathcal{D}(\cdot)\)，阈值化生成二值标签
损失函数：使用 Focal Loss 缓解正负类严重不均衡（可靠区域远多于错误区域）

在线引导损失¶

\[\mathcal{L}_{eval} = \|P^{(0)}_{eval}\|_1\]

其中 \(P^{(0)}_{eval}\) 是 MQE 输出的逐像素错误概率图。此损失鼓励网络降低各像素的错误概率，为边界区域提供比无监督损失更有效、更稳定的学习信号。

双分支标注管线 → VMReal 数据集¶

分支	模型	优势	劣势
\(B_V\)（视频分支）	MatAnyone	时序稳定、语义一致	边界细节不足
\(B_I\)（图像分支）	MattePro + SAM 2	边界锐利、细节丰富	时序不稳定

MQE 分别评估两分支的 alpha，生成各自评估图 \(M_V^{eval}\)、\(M_I^{eval}\)。融合掩码 \(M^{fuse} = M_I^{eval} \odot (1 - M_V^{eval})\) 经高斯模糊平滑后混合：

\[\alpha = \alpha_V \odot (1 - M^{fuse}) + \alpha_I \odot M^{fuse}\]

最终构建 VMReal 数据集：约 28K 片段、240 万帧，其中 4.5K 高质量片段为 1080p（含丰富头发细节），其余来自 SA-V 的人物子集（720p）。

参考帧训练策略¶

在训练窗口（8 帧）之外引入远距离参考帧写入记忆库，模拟长视频中的大幅度外观变化。配合随机 dropout 增强（随机遮挡 RGB 和 alpha 局部 patch），减少对历史记忆的过度依赖。

实验关键数据¶

合成基准 VideoMatte (1920×1080)¶

方法	MAD↓	MSE↓	Grad↓	dtSSD↓
MatAnyone	4.24	0.33	4.00	1.19
GVM (扩散先验)	6.33	2.08	8.04	1.59
MaGGIe (逐帧mask)	4.42	0.40	4.03	1.31
MatAnyone 2	4.10	0.28	3.45	1.15

真实基准 CRGNN (手工标注)¶

方法	MAD↓	MSE↓	Grad↓	dtSSD↓
MatAnyone	5.76	3.04	15.55	5.44
GVM	5.03	2.15	14.28	4.86
MatAnyone 2	4.24	2.00	11.74	4.54

消融实验 (YoutubeMatte 1920×1080)¶

配置	MAD↓	MSE↓	Grad↓	dtSSD↓
(a) 基线 MatAnyone	1.99	0.71	8.91	1.65
(b) +在线引导 \(\mathcal{L}_{eval}\)	1.90	0.62	8.20	1.63
(c) +VMReal	1.76	0.61	7.65	1.54
(d) +参考帧策略	1.61	0.50	7.13	1.53

三个组件逐步叠加均有一致提升，相比基线 MAD 降低 19.1%、Grad 降低 20.0%。

亮点¶

MQE 一石二鸟：同一评估器既提供在线训练信号又用于离线数据筛选，设计优雅
无需 GT 的质量评估：MQE 仅需分割 mask 即可逐像素判断 alpha 质量，突破了抠图标注的瓶颈
首个大规模真实世界视频抠图数据集：VMReal 28K 片段 / 240 万帧，比 VM800 大 35 倍
纯 CNN 超越扩散方法：不依赖视频扩散先验，仅需首帧 mask 即超越 GVM 等扩散方法
参考帧策略零额外显存：通过引入远距离帧而非加长训练序列来建模长时变化

局限性 / 可改进方向¶

MQE 训练依赖静态图像抠图数据集 P3M-10k，可能对极端场景（如透明材质、烟雾）泛化不足
双分支标注管线的质量上限受限于 MatAnyone 和 MattePro，若基础模型失败则 MQE 也无法修复
VMReal 仅聚焦人物抠图，未覆盖动物/物体等非人类场景
论文未讨论推理速度和实时性，纯 CNN 的效率优势未量化
参考帧策略的 dropout 比例等超参数对性能的敏感度未充分分析

与相关工作的对比¶

维度	MatAnyone	GVM	MaGGIe	MatAnyone 2
骨干网络	CNN (SAM 2 基)	视频扩散模型	CNN	CNN (SAM 2 基)
输入引导	首帧 mask	无	逐帧 instance mask	首帧 mask
边界监督	无监督损失	扩散先验	分割标签	MQE 在线引导
训练数据	VM800 + 分割数据	VM800 + 4K渲染	VM800	VMReal (28K clips)
长视频处理	局部窗口记忆	无	无	参考帧策略

评分¶

新颖性: ⭐⭐⭐⭐ — MQE 的 online/offline 双模式使用方式和自动标注管线设计新颖
实验充分度: ⭐⭐⭐⭐⭐ — 合成+真实基准全覆盖，逐组件消融清晰完整
写作质量: ⭐⭐⭐⭐ — 结构清晰，图示直观，动机阐述充分
价值: ⭐⭐⭐⭐⭐ — VMReal 数据集和 MQE 方法论对视频抠图领域有重要推动作用