Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception¶

会议: CVPR2025
arXiv: 2603.13176
代码: 待确认
领域: human_understanding
关键词: perception scheduling, human-robot collaboration, streaming perception, information theory, multimodal perception

一句话总结¶

提出一种面向人机协作的感知调度框架，基于信息增益和计算代价的权衡来选择性激活感知模块（目标检测/姿态估计），在流式感知场景下将计算延迟降低最多 27.52%，同时 MMPose 激活召回提升 72.73%。

研究背景与动机¶

人机协作（HRC）需要持续执行多个感知模块以实现准确的场景理解
逐帧激活所有模块虽然保证离线感知质量，但在流式场景下会累积延迟导致性能下降
现有并行感知管道根据就绪状态（而非信息需求）周期性激活模块，对重模块可能错过关键帧
关键帧方法通常需要完整视频序列，且选择标准与感知系统的信息需求不对齐
高效感知研究主要在帧级优化（分辨率/配置），未考虑模块级的激活必要性判断
自适应采样和传感器调度假设同质信息源，不适用于产生不同类型输出的感知模块

方法详解¶

整体框架¶

感知调度框架包含四个阶段：(1) 感知区域分割 → (2) 感知奖励估计 → (3) 感知模块选择器 → (4) 结果反馈给 Relevance 框架。每帧利用前一帧的输出估计各模块的信息增益，选择最优激活集合。

关键设计¶

1. 感知区域分割 - 将场景分为背景、物体、人体三类区域 - 每个区域赋予两个属性：运动状态（帧差法检测）和相关性（Relevance 框架预测） - 运动检测：灰度差分 \(\Delta L^i = Y \cdot \Delta P^i\)，变化比率 \(\text{CR}^i\) 超阈值 \(\epsilon\) 则判为运动

2. 感知奖励估计 - 通用奖励公式：\(\rho_k^j = \Phi_R(S_k, m^j) - C^j\)（信息增益 - 计算代价惩罚）

目标检测奖励： - 场景构成变化检测（帧差 + 颜色直方图 Chi-Square 距离 \(D_H\)） - 已跟踪目标的状态更新信息增益：基于 Kalman 滤波预测协方差的熵减 - \(G_2^{\text{yolo}}[k] = \sum_{p=1}^{n} \frac{1}{2} r_k^p \log\left(\frac{\det(H \bar{\mathcal{P}}_k^p H^\top)}{\det(\mathcal{R})}\right)\) - 用相关性 \(r_k^p\) 加权

姿态估计奖励： - 预执行不确定性：均匀分布假设下每个关键点在边界框内的熵 \(\mathcal{H}_k^{\text{pre}} = D \sum_{s=1}^{N} r^s \ln[(w_k^s + \sigma_w^s)(h_k^s + \sigma_h^s)]\) - 执行后不确定性：外推置信度分数，用负对数映射估计标准差 \(\sigma_k^d = -\sigma_{base}^d \log(\hat{s}_k^d)\) - 信息增益：\(G_2^{\text{pose}}[k] = \mathcal{H}_k^{\text{pre}} - \mathcal{H}_k^{\text{pose}}\)

3. 感知模块选择器 - 最大化累积奖励：\(\pi^*[k] = \arg\max_{a \in \mathcal{A}} \sum_j a^j \cdot \rho_k^j\) - 各模块奖励独立估计，简化为逐模块独立决策：\(\rho_k^j > 0\) 则激活 - 支持预设激活指示器 \(G_1^j[k]\)（如场景构成变化时强制激活 YOLO）

损失函数¶

无训练损失——纯推理时框架，基于信息论的在线决策。

实验关键数据¶

主实验（三个视频域）¶

域	方法	延迟(ms)	YOLO Recall	Pose Recall
Indoor Reading	Parallel	98.81	1.00	0.16
Indoor Reading	Scheduled	71.62	0.97	0.20
Eating	Parallel	94.99	1.00	0.16
Eating	Scheduled	86.44	0.98	0.20
Walking	Parallel	93.63	1.00	0.22
Walking	Scheduled	75.15	0.93	0.38

延迟降低最多 27.52%（Indoor Reading）
MMPose 激活召回提升最多 72.73%（Walking：0.22→0.38）

关键帧识别精度¶

域	YOLO 关键帧精度	MMPose 关键帧精度
Indoor Reading	0.97	0.89
Eating	0.98	0.97
Walking	0.93	0.92

关键发现¶

静态场景（读书）延迟降低最显著，信息增益低导致保守调度
动态场景（行走）MMPose 召回提升最大，因为关键帧更密集
YOLO 召回仅轻微下降（0.93-0.98），效率提升值得这一代价
MMPose 整体召回仍较低，根本原因是推理延迟导致中间重要帧被跳过

亮点与洞察¶

首次提出感知调度概念：将模块激活决策制度化为信息增益 vs 计算代价的优化问题
信息论基础扎实：用 Kalman 滤波预测协方差熵和关键点置信度熵建模模块级信息增益
模块可扩展：框架设计为通用 Perception Toolkit，可扩展到 VLM 等更多模块
相关性感知：由 Relevance 框架提供的任务相关性加权确保资源分配给重要区域
实用轻量：调度逻辑在 CPU 上运行，不占用 GPU 计算资源

局限性¶

MMPose 召回绝对值仍很低（0.20-0.38），框架无法从根本上解决重模块推理延迟问题
实验仅在 3 个自录视频上验证，缺乏标准数据集和大规模评估
奖励中的拉格朗日乘子 \(\lambda\) 需手动设置，不同场景下最优值可能不同
运动检测基于简单帧差法，对光照突变等场景可能产生误触发
未考虑模块间的资源竞争和共享 GPU 的调度约束

评分¶

新颖性: ⭐⭐⭐⭐ (首次系统化感知调度框架)
实验充分度: ⭐⭐⭐ (仅 3 个自录视频，缺乏标准 benchmark)
写作质量: ⭐⭐⭐⭐ (信息论建模清晰)
价值: ⭐⭐⭐⭐ (方向重要，框架有扩展潜力)