ELVIS: Enhance Low-Light for Video Instance Segmentation in the Dark¶

会议: CVPR 2026
arXiv: 2512.01495
代码: joannelin168.github.io/research/ELVIS
领域: Segmentation / Low-light Vision
关键词: 低光视频实例分割, 合成低光管线, 退化估计, 域适应, 增强解码器

一句话总结¶

ELVIS 提出了首个低光视频实例分割（VIS）框架，通过物理驱动的合成低光视频管线（含运动模糊建模）、无标定退化参数估计网络 VDP-Net、以及将增强解码器集成到 VIS 架构中实现退化与内容解耦，在合成和真实低光视频上分别实现 +3.7AP 和 +2.8AP 的提升。

研究背景与动机¶

低光条件下的视频实例分割是一个重要但研究不足的问题，在自动驾驶、野生动物保护、监控等领域有广泛需求。该领域面临多重挑战：

缺乏标注数据：低光条件下的退化使人工和自动标注都极其困难，没有专门用于低光 VIS 的公开基准

合成管线不完善：现有合成低光方法主要针对图像设计，忽略了低光视频中因长快门时间导致的运动模糊退化

现有 VIS 方法不鲁棒：SOTA VIS 方法未针对低光退化设计，即使在合成低光数据上微调后表现仍然较差

两阶段方法的局限：先增强后分割的流水线受限于低光视频增强本身的不成熟

核心思路：设计一个端到端的域适应框架，包含物理真实的合成低光视频管线和退化-内容解耦机制，使现有 VIS 模型适应低光场景。

方法详解¶

整体框架¶

ELVIS 框架包含两大组件： 1. 无监督合成低光视频管线（绿色面板）：将正常光照视频退化为低光版本 2. 增强实例分割模块：在 VIS 网络中集成增强解码器头，解耦退化与场景内容

关键设计¶

合成低光视频退化模型：完整建模从正常光照到低光的物理过程

最终退化公式：\(X^{low} = Deg(X^{high}, \phi) = H * (2^\epsilon X^{high}) + N\)

包含三类退化： - 光照调整：先转换到 XYZ 色彩空间确保线性，再按曝光值 \(\epsilon\) 降低亮度：\(X' = 2^\epsilon X\) - 模糊退化（本文首次引入低光视频合成）：用多元高斯分布建模运动模糊和散焦模糊的联合效应，仅需 3 个参数 \((\sigma_{Hx}, \sigma_{Hy}, \theta_H)\)。当 \(\sigma_{Hx} = \sigma_{Hy}\) 时仅有散焦模糊 - 物理噪声：四种类型——读取噪声（高斯）、散粒噪声（泊松）、量化噪声（均匀分布）、条带噪声（高斯，支持水平和垂直两个方向）

退化参数向量：\(\phi = \{\epsilon, \sigma_r, K, \lambda_q, \sigma_b, \theta_b, \sigma_{Hx}, \sigma_{Hy}, \theta_H\}\)

VDP-Net（视频退化分析网络）：
- 从真实低光视频中无监督估计退化参数 \(\phi\)，无需相机标定
- 架构：轻量 ResNet-18 骨干 + 时间融合卷积块 + 两个 MLP 预测头
- 两个预测头分开处理：一个用于曝光和噪声（全局退化），一个用于模糊（局部退化）
- 无监督训练策略：均匀采样退化参数合成低光输入，网络学习从退化视频反推参数
- 损失函数：\(\mathcal{L}_{total} = \lambda_1 \|\phi - \phi'\|_1 + \lambda_2 (1 - \cos(|\theta_H - \theta_H'|))\)，其中余弦角度损失处理模糊角度的周期性
增强解码器集成：
- 在 Mask2Former 的分割模块中集成增强解码器头
- 解码器使用多尺度可变形注意力像素解码器（10 层 Transformer 解码层 + 双线性上采样），重建正常光照帧
- 训练时增加 L1 损失（clean帧 vs 重建帧），引导网络在潜在特征空间中将场景内容与退化解耦
- 推理时仅使用分割输出，解码器不增加推理开销

损失函数 / 训练策略¶

VIS 训练时从预生成的真实退化参数集 \(\Phi\)（从 SDSD、DID、BVI-RLV、LMOT 四个数据集估计）中采样参数，对训练视频实时合成低光版本
增强解码器的额外 L1 损失 + 原始 VIS 分割损失联合训练
VDP-Net 训练阶段使用均匀采样的退化参数（领域专家确定的合理上界范围内）

实验关键数据¶

主实验¶

合成低光 YouTube-VIS 2019 验证集

方法	Backbone	ELVIS	AP	AP50	AP75
MinVIS	ResNet-50	✗	36.4	57.3	36.4
MinVIS	ResNet-50	✓	37.2	57.0	39.6
GenVIS	ResNet-50	✗	39.1	58.4	42.7
GenVIS	ResNet-50	✓	41.0	59.8	46.2
DVIS++	ResNet-50	✗	38.8	59.9	42.8
DVIS++	ResNet-50	✓	42.5	63.8	46.6
DVIS++	ViT-L	✗	55.2	77.2	62.1
DVIS++	ViT-L	✓	56.9	78.7	65.3

最大提升 +3.7AP（DVIS++ R50）。

真实低光视频评估（LMOT-S）

方法	ELVIS	AP	AP50	AR10
GenVIS R50	✗	6.6	14.5	9.8
GenVIS R50	✓	6.7	15.5	12.1
DVIS++ ViT-L	✗	10.0	21.4	13.1
DVIS++ ViT-L	✓	10.5	22.6	14.5

消融实验¶

与两阶段基线对比（ELVIS-S 和 LMOT-S）

方法	ELVIS-S AP	LMOT-S AP
SDSD-Net（增强→分割）	46.7	2.5
StableLLVE（增强→分割）	57.3	3.9
DarkIR（增强→分割）	55.9	3.8
ELVIS	58.0	6.7

在 LMOT-S 上比最好的两阶段方法提升 +2.8AP。

合成管线对比

合成管线	ELVIS-S AP	LMOT-S AP
Lv et al.	53.5	5.1
Cui et al.	51.1	5.7
Ours (random ϕ)	39.9	4.7
Ours (VDP-Net ϕ)	54.5	6.6

VDP-Net 估计的参数比随机采样提升 +14.6AP / +1.9AP，证明真实退化分布匹配的重要性。

关键发现¶

ELVIS 在所有 VIS 方法和骨干网络上都带来一致提升，证明框架的通用性
增强解码器通过退化-内容解耦显著提升 AP75（严格指标），说明精细分割质量改善最大
合成管线中加入模糊建模是关键——现有管线忽略了这一低光视频固有退化
VDP-Net 的无监督训练策略有效，能从真实低光视频中提取真实退化分布

亮点与洞察¶

物理驱动的低光视频合成：首次在合成管线中建模运动模糊（多元高斯核），弥补了现有方法只考虑噪声的不足。模糊方向约束到 \([0, \pi]\) 的设计考虑了运动模糊核的双向性
退化-内容解耦思想：通过增强解码器的辅助重建任务，迫使 VIS 骨干学习退化无关的特征表示，这一思路比两阶段方法更优雅
无标定退化估计：VDP-Net 不需要相机元数据（型号、ISO 等），可在任何数据集上使用。余弦角度损失处理周期性参数是一个精巧的设计
推理零开销：增强解码器仅在训练时使用，推理时不增加任何计算成本

局限与展望¶

真实低光 VIS 评估数据有限（ELVIS-S 仅 250 帧，LMOT-S 用伪标签），需要更大规模的真实低光 VIS 基准
合成管线未建模 ISP 引入的空间相关伪影（压缩、去马赛克、相机内去噪等），这些在真实场景中可能显著
VDP-Net 假设退化参数在整个视频clip内均匀，但真实低光视频中退化可能随空间和时间变化
目前仅在 Mask2Former-based 的 VIS 方法上验证，其他架构（如基于 tracking 的方法）的适用性未探索
在真实低光数据上的绝对 AP 仍然较低（<11%），低光 VIS 依然极具挑战性

评分¶

新颖性: ⭐⭐⭐⭐ — 首个低光 VIS 框架，合成管线加入模糊建模新颖
实验充分度: ⭐⭐⭐⭐ — 多 VIS 方法、多骨干、合成+真实评估，但真实数据规模有限
写作质量: ⭐⭐⭐⭐ — 物理模型推导清晰，框架展示完整
价值: ⭐⭐⭐⭐ — 填补了低光 VIS 的空白，提供了可复用的合成管线