An FPGA Implementation of Displacement Vector Search for Intra Pattern Copy in JPEG XS¶
会议: CVPR 2026
arXiv: 2603.10671
代码: 无
领域: 硬件加速 / 图像压缩
关键词: FPGA, JPEG XS, 位移矢量搜索, 帧内模式复制, 流水线架构
一句话总结¶
首次提出JPEG XS帧内模式复制(IPC)中位移矢量(DV)搜索模块的FPGA实现方案,采用四级流水线架构和IPC Group对齐的内存组织策略,在Xilinx Artix-7上实现38.3 Mpixels/s吞吐和277 mW功耗。
背景与动机¶
JPEG XS是面向低延迟低复杂度的图像压缩标准,在远程桌面和KVM应用中广泛使用。IPC工具通过小波域帧内补偿预测减少屏幕内容的空间冗余,BD-PSNR有显著提升。IPC的核心模块DV搜索需遍历所有候选位移矢量找到最优预测参考偏移,是IPC流程中计算最密集、延迟最敏感的瓶颈。尽管H.264/HEVC已有大量运动估计硬件实现,但这些面向像素域固定块大小的设计不适用于JPEG XS的小波域分组预测流程。
核心问题¶
DV搜索需在小波域中对不同频率分解带的系数进行分组处理并遍历全部候选偏移,计算密集且存储访问模式不规则,如何设计高效硬件架构使其可部署于实时系统?
方法详解¶
整体框架¶
系统由残差计算引擎和DV比较引擎两部分组成。残差计算引擎从DRAM读取原始/重建小波系数计算残差,DV比较引擎评估各组残差的比特开销并选择最优DV。CTRL模块负责全局协调。
关键设计¶
- 四级流水线DV比较架构: Stage 0加载残差+生成分组参数(BandIdx, GrpSize, UnitWidth);Stage 1 GetOrMask计算组内逐位OR掩码;Stage 2 CalGCLI执行GCLI比特代价计算;Stage 3 Compare比较当前与历史最优并更新BestDV。各级通过延迟寄存器对齐数据流
- 残差计算引擎: 双FIFO阵列(Q0-Q3原始, C0-C3重建)对应4个IPC Group缓存数据。CTRL管理同步读写,FIFO欠满时触发DRAM突发读取。SIG_MAG_SUB对32-bit符号-幅值系数做四路并行减法处理不同符号组合
- IPC Group对齐内存组织(Method 1): 替代朴素的precinct线性排列,按IPC Group和Unit重组系数存储。引入片上TLB RAM存储各group中系数块的可变长度,CMD模块基于base_addr+precinct号+group/unit索引生成地址,支持单次基址+固定偏移的突发读取,消除逐块独立寻址的控制复杂度
损失函数 / 训练策略¶
不涉及(纯硬件设计)。率失真性能与IPC参考软件一致。
实验关键数据¶
| 参数 | Method 0 (基线) | Method 1 (本文) | 变化 |
|---|---|---|---|
| 吞吐 | 35.98 Mpixels/s | 38.30 Mpixels/s | +6.5% |
| 功耗 | 276 mW | 277 mW | +0.4% |
| 功效 | 130.36 Mpixels/s/W | 138.27 Mpixels/s/W | +6.1% |
| LUTs | 13.93K | 12.89K | -7.5% |
| FFs | 23.80K | 21.79K | -8.4% |
| BRAM | 11 | 15 | +36% |
模块资源分布:GCLI_CAL占11.63K LUTs + 19.98K FFs + 17 DSPs(主要资源消耗),残差计算引擎仅0.48K LUTs。整体延迟73.01 ms,平台Xilinx Artix-7 (XC7A35T) @100 MHz。
消融实验要点¶
- Method 1用4个BRAM换取LUT减7.5%、FF减8.4%和吞吐提升6.5%,以少量存储资源换计算效率
- DV比较引擎中GCLI_CAL是绝对瓶颈,占总LUT的90%+
亮点¶
- 首个JPEG XS IPC框架DV搜索的硬件实现,填补实际部署空白
- 内存组织从precinct对齐改为IPC Group对齐是自然但有效的优化
- 在资源受限的低端Artix-7上完成验证,为ASIC转化奠定基础
局限性 / 可改进方向¶
- 仅实现DV搜索单一模块,未覆盖完整IPC管线端到端硬件化
- 73.01 ms延迟对高帧率实时场景仍需优化
- 未与GPU/ASIC方案做功耗-吞吐对比
- 100 MHz时钟频率保守,更高频率下的性能和时序闭合未探索
- 仅在单一FPGA平台验证,跨平台可移植性未讨论
与相关工作的对比¶
- vs H.264/HEVC运动估计FPGA: 面向像素域固定块大小,不适用于JPEG XS的小波域可变分组预测流程
- vs Yang & Chen[2022] JPEG XS编码器FPGA: 实现完整编码器但不含IPC模块,本文补充了最关键的DV搜索硬件化
- vs Tian et al.[2024] JPEG XS熵编解码FPGA: 面向不同的编码工具(熵编码vs帧内预测),互补关系
启发与关联¶
- 硬件设计中"数据布局对齐计算访问模式"的优化思路具有普适性
- 对屏幕内容编码场景(远程桌面、云游戏、KVM)有直接工程价值
评分¶
- 新颖性: ⭐⭐ 架构设计标准(流水线+内存优化),贡献在于首次针对此特定模块
- 实验充分度: ⭐⭐⭐ 有基线对比和资源分析,但缺少与替代方案更广泛的对比
- 写作质量: ⭐⭐⭐ 架构描述清晰,图表辅助理解好
- 价值: ⭐⭐ 领域窄但对JPEG XS硬件化有实际意义