Context Guided Transformer Entropy Modeling for Video Compression¶

会议: ICCV 2025
arXiv: 2508.01852
代码: https://github.com/EIT-NLP/CGT
领域: 模型压缩 / 视频压缩
关键词: 视频压缩, 熵模型, Transformer, 时空上下文, 条件编码

一句话总结¶

提出Context Guided Transformer (CGT) 条件熵模型，通过时间上下文重采样器降低计算开销、依赖加权空间上下文分配器显式建模空间依赖关系，在视频压缩中将熵建模时间减少约65%，同时实现11% BD-Rate改进。

研究背景与动机¶

领域现状：深度神经网络推动的视频压缩方法（特别是条件熵模型）已成为新兴范式，通过利用时空上下文来估计视频帧的概率质量函数(PMF)
现有痛点1：时间维度方面，利用额外时间上下文不可避免地增加计算开销和推理延迟，如VCT需要处理两帧时间上下文的self-attention
现有痛点2：空间维度方面，已有方法（自回归、棋盘式、最小熵解码等）采用预定义的固定顺序解码策略，缺乏对空间位置依赖关系的显式建模
核心矛盾：如何在不显著增加计算开销的前提下同时有效利用时空上下文信息
切入角度：以可学习查询进行时间上下文压缩重采样 + 教师-学生网络显式建模空间依赖权重
核心idea：用紧凑的可学习查询重采样时间上下文以减少后续处理开销，用教师-学生Swin Transformer网络平衡token重要性与确定性来选择最优空间解码顺序

方法详解¶

整体框架¶

CGT建立在contextual-based视频编解码器之上。编码器将RGB图映射到潜在空间特征，CGT熵模型利用时间上下文（来自潜在缓冲区的历史帧信息）和空间上下文（当前帧已解码token）来估计当前帽表示的PMF，用于熵编码。整个框架包含帧编解码器和CGT熵模型两部分。

关键设计¶

Temporal Context Resampler (TCR):
- 功能：从多种类型和尺度的时间上下文中提取有效特征，生成固定长度的紧凑token序列
- 核心思路：预定义一组小的可学习窗口查询(window queries)，通过Swin Transformer的窗口交叉注意力(window cross-attention)与时间上下文进行交互。小查询与大时间上下文在每个窗口内进行局部信息压缩
- 设计动机：并非所有时间上下文信息同等重要，且信息量增加会显著影响解码速度。通过紧凑查询重采样，既能捕获关键时间依赖，又能大幅降低后续处理的计算成本
Dependency-Weighted Spatial Context Assigner (DWSCA):
- 功能：显式建模空间上下文的位置依赖关系，确定最具信息量的上下文用于未解码token
- 核心思路：采用共享参数的教师-学生Swin Transformer解码器。教师网络从随机掩码输入生成注意力图(表示token重要性)和熵图(反映预测确定性)，通过加权组合计算依赖分数：\(Score = \alpha H + (1-\alpha) A\)，其中 \(A\) 是归一化注意力图，\(H\) 是归一化熵图。使用soft top-k选择最高依赖分数的位置进行解码，为学生网络提供上下文
- 设计动机：之前方法（自回归/棋盘/最小熵）未显式建模空间依赖，难以为未解码token提供最相关的上下文信息。教师-学生结构保证训练-推理一致性
随机掩码代理任务:
- 功能：解决教师网络中"当前帧已解码内容"在训练时无法预定义的问题
- 核心思路：对输入潜在表示施加随机掩码 \(y_t + M\)，未掩码区域模拟已解码内容。教师网络基于掩码后的表示生成注意力图和熵图，指导学生网络解码
- 设计动机：借鉴掩码图像建模思想，通过随机掩码模拟渐进解码过程，确保训练-推理一致性

损失函数 / 训练策略¶

率失真损失：\(\mathcal{L}_{RD} = R(\hat{y}_t) + R(\hat{z}_t) + R(\hat{v}_t) + \lambda \cdot d(x_t - \hat{x}_t)\)

其中 \(R\) 为码率项，\(d\) 为失真项，\(\lambda \in \{256, 512, 1024, 2048\}\) 控制率失真权衡。训练集为Vimeo-90k，随机裁剪至265×256并随机翻转增强。解码采用8步正弦调度策略。

实验关键数据¶

主实验 (BD-Rate, PSNR, anchor=VTM)¶

数据集	MCL-JCV	UVG	HEVC-B	平均
VTM	0	0	0	0
DMC	-24.5	-26.1	-49.4	-33.3
MIMT	-33.0	-34.9	-57.1	-41.7
CGT	-43.8	-45.5	-62.5	-50.6

BD-Rate (MS-SSIM)：CGT平均-74.7%，大幅超越MIMT的-65.3%和DMC的-55.4%。

消融实验¶

时间上下文重采样器消融:

模型	BD-Rate变化	熵建模时间	编码时间	解码时间
CGT-w/o TCR	anchor	1305ms	1682ms	1576ms
CGT-w/ TCR	+1.8%	488ms (↓63%)	1073ms (↓35%)	984ms (↓38%)

空间上下文分配器消融 (anchor=最小熵解码):

模型	MCL-JCV	UVG	HEVC-B	平均
CGT-DWSCA (本文)	-11.3	-7.8	-14.6	-11.2
CGT-min-entropy	0	0	0	0
CGT-checkerboard	+17.7	+15.1	+19.2	+17.3
CGT-autoregressive	+19.3	+16.6	+22.8	+19.5

权重系数α分析 (λ=256, MCL-JCV): - α=0 (仅注意力，重要性)：PSNR 35.88, Bpp 0.019 - α=1 (仅熵，确定性)：PSNR 35.3, Bpp 0.017 - α=0.5 (均衡)：PSNR 35.82, Bpp 0.018

关键发现¶

TCR仅带来1.8% BD-Rate上升，却减少63%熵建模时间、35%编码时间、38%解码时间
显式依赖建模比代理任务(随机掩码)建模效果更好，因为减少了训练-推理不匹配
CGT在更换帧编解码器(DCVC→DCVC-DC)后仍保持优异性能，展示了良好的泛化能力
相比VTM anchor，CGT在PSNR指标上平均降低50.6% BD-Rate

亮点与洞察¶

时间上下文重采样的思路非常高效——用少量可学习查询配合交叉注意力实现信息压缩，大幅降低后续计算，同时保持编码效果
教师-学生+soft top-k的空间解码方案比固定顺序（自回归/棋盘）和启发式顺序（最小熵）都更优，验证了显式依赖建模的必要性
α=0(仅重要性)降低失真，α=1(仅确定性)降低码率，两者的互补性被很好地利用

局限与展望¶

固定α=0.5可能不是所有场景下的最优选择，自适应α可能带来进一步提升
8步解码调度固定为正弦函数，更灵活的调度策略可能改善性能
训练集Vimeo-90k分辨率有限(448×256)，对高分辨率视频的泛化能力有待验证
未与基于隐式表示的最新方法(NVRC, MVC)进行速度-性能综合比较

评分¶

新颖性: ⭐⭐⭐⭐ 时间重采样+空间依赖显式建模的组合设计有新意，特别是教师-学生soft top-k方案
实验充分度: ⭐⭐⭐⭐ 消融实验全面，涵盖TCR/DWSCA/α/泛化/显式建模等多维度分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，方法描述详细，但部分符号使用可更统一
价值: ⭐⭐⭐⭐ 在压缩效率和计算成本之间取得了良好平衡，65%熵建模加速+11% BD-Rate提升的实际意义显著