Building Vision Models upon Heat Conduction¶

会议: CVPR 2025
arXiv: 2405.16555
代码: https://github.com/MzeroMiko/vHeat
领域: LLM/NLP
关键词: vision backbone, heat conduction, DCT, efficient attention, vHeat

一句话总结¶

提出 vHeat 视觉 backbone，将图像 patch 建模为热源，利用物理热传导方程通过 DCT/IDCT 变换实现 \(O(N^{1.5})\) 复杂度的信息传播，在 ImageNet-1K 上以 3 倍吞吐量和 80% 更少 GPU 显存达到 84.0% top-1 准确率。

研究背景与动机¶

领域现状：视觉 backbone 从 CNN 演进到 ViT，再到各种高效注意力变体（Swin、线性注意力等）。Self-attention 虽然有效但 \(O(N^2)\) 复杂度限制了在高分辨率输入上的应用。

现有痛点：现有高效注意力方法大多是 self-attention 的近似，要么牺牲全局交互能力（窗口注意力），要么牺牲精度（线性注意力的低秩问题）。缺乏从根本上不同于 attention 机制的全局信息传播范式。

核心矛盾：全局信息交互需要所有 token 间的交互（\(O(N^2)\)），但实际上物理世界中信息传播遵循偏微分方程（如热传导），天然具有全局性且可以高效求解。

本文目标 能否借鉴物理学中的热传导方程设计一种新的全局信息传播算子，既保持全局交互能力，又降低计算复杂度？

切入角度：热传导方程可通过频域（DCT）高效求解，而图像 patch 的信息传播可类比为热源之间的热量扩散。

核心 idea：将图像 patch 建模为热源，用可学习的频率热扩散率通过 DCT/IDCT 实现 \(O(N^{1.5})\) 的全局信息传播。

方法详解¶

整体框架¶

vHeat 采用层级式架构（类似 Swin），分为 4 个阶段，分辨率逐步降低（H/4→H/8→H/16→H/32）。每个阶段由多个 vHeat Block 组成，每个 Block 包含 Heat Conduction Operator (HCO) 和 FFN。

关键设计¶

Heat Conduction Operator (HCO)
- 功能：替代 self-attention 进行全局信息传播
- 核心思路：将 2D 特征图视为温度场，每个 patch 是热源。利用热传导方程的频域解：先 DCT 变换到频域，乘以频率相关的热扩散系数，再 IDCT 变换回空域
- 复杂度：\(O(H \cdot W \cdot \log(H \cdot W))\)，对于正方形图像约为 \(O(N^{1.5})\)
- 设计动机：热传导方程的 Green 函数具有全局感受野但距离衰减的特性，天然适合建模局部优先、全局兼顾的视觉特征交互
Learnable Frequency Value Embeddings (FVEs)
- 功能：为每个频率分量学习自适应的热扩散率
- 核心思路：不同频率分量有不同的扩散速度，低频（全局结构）扩散快，高频（局部细节）扩散慢。FVE 预测每个频率的扩散系数 \(\alpha(f)\)
- 设计动机：物理热传导中扩散率是材料常数，但视觉任务中不同特征通道和频率应该有不同的传播速度，因此设为可学习参数
层级架构
- vHeat-Tiny: 各阶段 [2,2,6,2] 个 Block
- vHeat-Small: 各阶段 [2,2,18,2] 个 Block
- vHeat-Base: 各阶段 [2,2,18,2] 个 Block，更宽的通道

损失函数 / 训练策略¶

ImageNet-1K 标准 300 epoch 训练
AdamW 优化器，cosine 学习率调度

实验关键数据¶

主实验¶

ImageNet-1K 分类：

模型	Top-1	吞吐量(img/s)	GPU显存
vHeat-T	82.2%	1514	—
vHeat-S	83.6%	945	—
vHeat-B	84.0%	661	—
Swin-B	83.5%	~470	—

vHeat-B 比 Swin-B 高 0.5%，吞吐量高 40%，GPU 显存少 80%，FLOPs 少 35%。

COCO 目标检测（1× schedule）：

模型	mAP(box)	mAP(mask)	FPS
vHeat-B	47.7	43.0	20.2
Swin-B	46.9	42.3	13.8

ADE20K 语义分割： vHeat-B 49.6 mIoU at 23.6 FPS

消融/扩展实验¶

应用	vHeat 变体	对比方法	结果
图像去噪	vHeatIR	SwinIR	vHeatIR 更优
JPEG去块	vHeatIR	SwinIR	vHeatIR 更优
ImageNet-A	vHeat-B	Swin-B	鲁棒性更强
ObjectNet	vHeat-B	Swin-B	鲁棒性更强

关键发现¶

热传导算子在分类、检测、分割、低级视觉任务上全面优于 Swin
吞吐量优势源于 DCT/IDCT 的高效 FFT 实现
在分布外数据（ImageNet-A, ObjectNet）上鲁棒性更强，说明物理先验提供了有益的归纳偏置
vHeatIR 在图像修复任务上也表现出色，说明 HCO 的通用性

亮点与洞察¶

物理启发的设计范式：从热传导方程出发设计信息传播算子，是一种全新的思路，不同于对 attention 的各种近似
DCT 的巧妙应用：热传导方程的频域解天然适合图像处理，DCT 本身就是图像压缩（JPEG）的核心工具
全局感受野 + 距离衰减：热传导的 Green 函数自带这个特性，不需要像窗口注意力那样人为限制感受野
可以迁移到视频理解（时空热传导）和 3D 点云处理

局限与展望¶

DCT/IDCT 在非正方形或非二的幂次分辨率上效率可能下降
热传导是各向同性的，而图像内容通常是各向异性的，可能需要方向性扩散
未在视频或 3D 任务上验证
与 attention 机制的互补性未探索（混合架构可能更好）

评分¶

新颖性: ⭐⭐⭐⭐⭐ 从物理方程出发设计视觉算子，思路独特
实验充分度: ⭐⭐⭐⭐ 分类+检测+分割+低级视觉全覆盖
写作质量: ⭐⭐⭐⭐ 物理动机阐述清晰
价值: ⭐⭐⭐⭐ 提供了 attention 之外的全新信息传播范式