PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement¶
会议: CVPR 2026
arXiv: 2509.24850
代码: GitHub
领域: 科学计算 / 远程生理信号估计
关键词: rPPG, 物理信息网络, 时间卷积网络, 血流动力学, Navier-Stokes, 轻量模型
一句话总结¶
从Navier-Stokes方程出发,通过严格数学推导揭示rPPG脉搏信号遵循二阶阻尼谐振子模型,其离散解形式等价于因果卷积算子,从而为TCN架构的选择提供了第一性原理依据,设计出仅0.29M参数的PHASE-Net在多个数据集上达到SOTA。
研究背景与动机¶
领域现状:远程光电容积脉搏波(rPPG)通过普通摄像头捕捉皮肤血容量微变化来提取心率等生理信号,是非接触生理监测的关键技术。深度学习方法(PhysNet、PhysFormer、RhythmMamba等)已成为主流范式。
现有痛点:
- 现有深度学习模型大多是启发式设计——将rPPG视为通用时空信号处理任务,架构选择依赖经验试错
- 缺乏物理理论基础导致模型可能过拟合数据集特定噪声模式,跨域泛化差
- 头部运动和光照变化产生的伪影远强于真实脉搏信号,"黑箱"模型难以提供可靠性保证
核心矛盾:高性能深度学习模型 vs 缺乏物理可解释性和理论保证。
本文目标 能否从物理第一性原理出发,设计一个架构本身就是信号物理规律直接体现的rPPG模型?
切入角度:从Navier-Stokes方程推导血流脉搏动力学,严格证明TCN是物理正确的架构选择。
核心 idea:rPPG信号的物理动力学等价于因果卷积,因此TCN不是启发式选择而是物理必然。
方法详解¶
整体框架¶
视觉编码器(3个EST Block,每个含ZAS模块)提取时空特征 → 自适应空间滤波器(ASF)生成空间注意力掩码并聚合+计算时间差分 → 门控时间卷积网络(GTCN)建模长程时间动态 → rPPG波形输出。
关键设计¶
-
物理推导链:从Navier-Stokes到TCN
- 出发点:Beer-Lambert定律建立像素变化ΔI(t)与皮下血容量ΔV(t)的线性关系,血管顺应性进一步将ΔV(t)与局部血压脉动z(t)关联
- 从Navier-Stokes方程线性化 → 1D动量+连续性方程 → 消去速度变量得阻尼波动方程 \(\frac{\partial^2 p'}{\partial t^2} + \alpha \frac{\partial p'}{\partial t} = c^2 \frac{\partial^2 p'}{\partial x^2}\)
- 固定观测点x₀处退化为二阶ODE(阻尼谐振子):\(\ddot{z} + \alpha \dot{z} + \omega^2 z = u(t)\)
- 半隐式Euler离散化 → LTI状态空间模型 → Proposition 1证明其解为因果卷积 \(z_t = \sum_{m=0}^{\infty} g[m] \cdot a_{t-m}\) → Proposition 2证明FIR即可以任意精度ε近似IIR → TCN是该物理过程的精确计算实现
- 意义:首次建立从血流动力学第一原理到具体网络架构的完整逻辑链
-
Zero-FLOPs Axial Swapper (ZAS)
- 对feature map的后k=⌊pC⌋个通道执行块内空间转置(将H×W分成b×b块后做矩阵转置),其余通道不变
- 关键性质:自逆性(ZAS(ZAS(X))=X保证可逆和梯度稳定)、能量守恒(‖ZAS(X)‖₂=‖X‖₂, 1-Lipschitz避免信号放大)
- 设计动机:零FLOPs、零参数即可注入跨区域空间交互,增强远距面部区域的特征混合
-
自适应空间滤波器 (ASF)
- 对每帧通过轻量卷积生成空间logit图 → spatial softmax归一化为注意力掩码Mₜ → 加权聚合空间维度得到1D特征向量zₜ
- 同时计算一阶时间差分 \(\mathbf{v}_t = \mathbf{z}_t - \mathbf{z}_{t-1}\) 编码脉搏"速度"
- 输出 = [zₜ, vₜ] 通道拼接,既保留空间纯化的强度信息又编码短时时间变化
- 设计动机:前额/面颊SNR高但其他区域以噪声为主 → 全局平均池化(GAP)是次优的
-
门控时间卷积网络 (GTCN)
- 双路因果扩张TCN:一路tanh激活、一路sigmoid门控 → 逐元素乘法融合
- 物理意义:实现Proposition 1&2中推导出的因果卷积运算,建模长程时间动态
损失函数 / 训练策略¶
负Pearson相关损失:\(\mathcal{L}_{\text{pred}} = -\frac{\sum_t (\hat{y}_t - \bar{\hat{y}})(y_t - \bar{y})}{\sqrt{\sum_t (\hat{y}_t - \bar{\hat{y}})^2 \sum_t (y_t - \bar{y})^2}}\),直接优化预测波形与GT的形态相似性。
实验关键数据¶
主实验(域内评估)¶
| 方法 | UBFC MAE↓ | UBFC RMSE↓ | PURE MAE↓ | PURE RMSE↓ | BUAA MAE↓ | MMPD MAE↓ | 参数量 |
|---|---|---|---|---|---|---|---|
| PhysNet | 2.95 | 3.67 | 2.10 | 2.60 | 10.89 | 4.80 | 大 |
| PhysFormer | 0.92 | 2.46 | 1.10 | 1.75 | 8.45 | 11.99 | 大 |
| RhythmFormer | 0.50 | 0.78 | 0.27 | 0.47 | 9.19 | 4.69 | 中 |
| Contrast-Phys+ | 0.21 | 0.80 | 0.48 | 0.98 | - | - | 中 |
| Style-rPPG | 0.17 | 0.41 | 0.39 | 0.62 | - | - | 中 |
| LST-rPPG | 0.16 | 0.57 | 0.32 | 0.62 | - | - | 中 |
| PHASE-Net | 0.15 | 0.53 | 0.14 | 0.35 | 5.89 | 4.78 | 0.29M |
消融实验(跨域泛化,Leave-One-Out)¶
| 方法 | Others→U MAE↓ | Others→P MAE↓ | Others→B MAE↓ | Others→M MAE↓ |
|---|---|---|---|---|
| PhysFormer | 10.29 | 19.75 | 22.09 | 13.90 |
| RhythmFormer | 14.71 | 21.11 | 6.04 | 16.14 |
| EfficientPhys | 12.87 | 7.15 | 32.30 | 12.87 |
| PHASE-Net | 10.04 | 2.86 | - | - |
关键发现¶
- PURE上MAE 0.14 bpm,比RhythmFormer(0.27)减半——物理先验的归纳偏置显著提升精度
- 仅0.29M参数即达SOTA——理论严谨与极致轻量的统一
- 跨域泛化Others→PURE MAE 2.86 bpm,大幅优于PhysFormer(19.75)和RhythmFormer(21.11)——物理先验增强泛化
- BUAA/MMPD等挑战性数据集上,PhysFormer等出现负相关(R<0),PHASE-Net仍保持正相关
亮点与洞察¶
- 首次从第一性原理推导rPPG网络架构:从Navier-Stokes → ODE → SSM → 因果卷积 → TCN的完整数学证明链,将架构选择从经验升级为物理必然
- ZAS零FLOPs模块:纯排列操作即增强跨区域特征交互,自逆性和能量守恒保证训练稳定性的数学证明优雅
- ASF的时间差分设计:将空间聚合和时间微分统一在一个模块中,为下游物理模型提供"位置+速度"的完整状态信息
- 理论严谨+工程极简的范式:0.29M参数说明好的归纳偏置可以大幅减少模型复杂度
局限与展望¶
- 物理推导依赖多个简化假设(层流、线性化、单点观测、弹性恢复力近似),在极端运动或非典型血管条件下假设可能不成立
- ZAS的块大小b和通道比例p需手动设定,缺少自适应机制
- 未在VIPL-HR等大规模野外数据集上验证
- 跨域泛化表格部分数据缺失(Others→B, Others→M),不够完整
相关工作与启发¶
- vs PhysFormer/RhythmMamba:这些方法用Transformer/SSM建模时序,属于通用序列模型;PHASE-Net从物理角度证明因果卷积(TCN)才是rPPG任务的正确计算原语
- vs PINN传统范式:经典PINN将物理方程嵌入损失函数;PHASE-Net的创新在于用物理规律约束网络架构本身——"物理决定结构"而非"物理约束训练"
- 启发:这种"从PDE推导出网络结构"的方法论可推广到其他有明确物理模型的信号处理任务(如地震波、声学信号)
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 首次从第一性原理推导rPPG网络架构,方法论意义重大
- 实验充分度: ⭐⭐⭐⭐ 4个数据集域内+跨域评估,消融完整,但部分跨域数据缺失
- 写作质量: ⭐⭐⭐⭐⭐ 推导严谨、从物理到架构的逻辑链清晰流畅
- 价值: ⭐⭐⭐⭐⭐ 物理驱动架构设计范式有普适意义,0.29M参数的极致效率适合部署
相关论文¶
- [CVPR 2026] EHETM: High-Quality and Efficient Turbulence Mitigation with Events
- [ICLR 2026] DRIFT-Net: A Spectral--Coupled Neural Operator for PDEs Learning
- [NeurIPS 2025] Physics-Informed Neural Networks with Fourier Features and Attention-Driven Decoding
- [CVPR 2026] PhysSkin: Real-Time and Generalizable Physics-Based Skin Simulation
- [NeurIPS 2025] F-Adapter: Frequency-Adaptive Parameter-Efficient Fine-Tuning in Scientific Machine Learning