rPPG-VQA: A Video Quality Assessment Framework for Unsupervised rPPG Training¶

会议: CVPR 2026
arXiv: 2604.11156
代码: https://github.com/Tianyang-Dai/rPPG-VQA
领域: 人体理解
关键词: 远程光体积描记, 视频质量评估, 无监督学习, 多模态大语言模型, 数据筛选

一句话总结¶

rPPG-VQA 提出首个面向远程心率检测（rPPG）的视频质量评估框架，结合信号级多方法共识 SNR 和场景级 MLLM 干扰识别，配合两阶段自适应采样策略筛选野外视频构建训练集。

领域现状：无监督 rPPG 旨在利用无标注视频数据学习非接触式心率检测，但研究主要集中在方法创新，忽略了数据质量问题。

现有痛点：(1) 野外视频中运动、光照等噪声可能淹没微弱的生理信号；(2) AI 生成视频完全缺乏真实生理基础；(3) 传统 VQA 评估人类感知质量，与 rPPG 需求脱节；(4) 单一 SNR 指标易被周期性非生理信号（如闪光灯）欺骗。

核心矛盾：视觉质量好的视频可能不含可提取的生理信号，而视觉质量差的视频可能仍包含有效信号——传统 VQA 无法区分。

核心 idea：双分支评估——信号级用多方法共识 SNR 排除方法偏差，场景级用 MLLM 识别运动/光照等干扰。

输入野外视频 → 信号级分支（多种 rPPG 算法提取信号 → 共识 SNR 评分） + 场景级分支（MLLM 评估运动/光照/压缩干扰） → 融合为统一质量分数 → 两阶段自适应采样 → 构建目标训练集。

信号级多方法共识 SNR:
- 功能：评估视频中生理信号的完整性，排除单一算法偏差
- 核心思路：用多种传统 rPPG 算法（GREEN、ICA、CHROM、POS 等）分别提取信号并估计 SNR，如果真正的生理信号存在则各方法应给出一致的高 SNR（方法无关性），不一致则说明信号不可靠
- 设计动机：单一 SNR 容易被周期性噪声欺骗（如闪光灯产生类心跳信号），多方法共识可过滤这种假阳性
场景级 MLLM 干扰识别:
- 功能：识别信号级指标无法捕获的场景干扰
- 核心思路：利用 MLLM 对视频帧进行类人场景推理，检测不稳定光照、剧烈运动、相机伪影等复杂干扰，输出干扰评分
- 设计动机：信号级指标无法区分信号的生理来源，缺乏场景上下文来区分真正的生物信号和混淆伪影
两阶段自适应采样（TAS）:
- 功能：从大规模未审查视频池中构建最优训练集
- 核心思路：Stage 1 用质量阈值过滤低质量视频；Stage 2 用时长感知概率采样平衡质量、多样性和效率
- 设计动机：简单过滤可能导致训练集不够多样，概率采样在保证质量的同时维持数据多样性

用筛选后的训练集训练现有无监督 rPPG 方法（如 ContrastPhys、SiNC），验证 VQA 框架的有效性。