Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception¶
会议: CVPR2025
arXiv: 2603.13176
代码: 待确认
领域: human_understanding
关键词: perception scheduling, human-robot collaboration, streaming perception, information theory, multimodal perception
一句话总结¶
提出一种面向人机协作的感知调度框架,基于信息增益和计算代价的权衡来选择性激活感知模块(目标检测/姿态估计),在流式感知场景下将计算延迟降低最多 27.52%,同时 MMPose 激活召回提升 72.73%。
研究背景与动机¶
- 人机协作(HRC)需要持续执行多个感知模块以实现准确的场景理解
- 逐帧激活所有模块虽然保证离线感知质量,但在流式场景下会累积延迟导致性能下降
- 现有并行感知管道根据就绪状态(而非信息需求)周期性激活模块,对重模块可能错过关键帧
- 关键帧方法通常需要完整视频序列,且选择标准与感知系统的信息需求不对齐
- 高效感知研究主要在帧级优化(分辨率/配置),未考虑模块级的激活必要性判断
- 自适应采样和传感器调度假设同质信息源,不适用于产生不同类型输出的感知模块
方法详解¶
整体框架¶
感知调度框架包含四个阶段:(1) 感知区域分割 → (2) 感知奖励估计 → (3) 感知模块选择器 → (4) 结果反馈给 Relevance 框架。每帧利用前一帧的输出估计各模块的信息增益,选择最优激活集合。
关键设计¶
1. 感知区域分割 - 将场景分为背景、物体、人体三类区域 - 每个区域赋予两个属性:运动状态(帧差法检测)和相关性(Relevance 框架预测) - 运动检测:灰度差分 \(\Delta L^i = Y \cdot \Delta P^i\),变化比率 \(\text{CR}^i\) 超阈值 \(\epsilon\) 则判为运动
2. 感知奖励估计 - 通用奖励公式:\(\rho_k^j = \Phi_R(S_k, m^j) - C^j\)(信息增益 - 计算代价惩罚)
目标检测奖励: - 场景构成变化检测(帧差 + 颜色直方图 Chi-Square 距离 \(D_H\)) - 已跟踪目标的状态更新信息增益:基于 Kalman 滤波预测协方差的熵减 - \(G_2^{\text{yolo}}[k] = \sum_{p=1}^{n} \frac{1}{2} r_k^p \log\left(\frac{\det(H \bar{\mathcal{P}}_k^p H^\top)}{\det(\mathcal{R})}\right)\) - 用相关性 \(r_k^p\) 加权
姿态估计奖励: - 预执行不确定性:均匀分布假设下每个关键点在边界框内的熵 \(\mathcal{H}_k^{\text{pre}} = D \sum_{s=1}^{N} r^s \ln[(w_k^s + \sigma_w^s)(h_k^s + \sigma_h^s)]\) - 执行后不确定性:外推置信度分数,用负对数映射估计标准差 \(\sigma_k^d = -\sigma_{base}^d \log(\hat{s}_k^d)\) - 信息增益:\(G_2^{\text{pose}}[k] = \mathcal{H}_k^{\text{pre}} - \mathcal{H}_k^{\text{pose}}\)
3. 感知模块选择器 - 最大化累积奖励:\(\pi^*[k] = \arg\max_{a \in \mathcal{A}} \sum_j a^j \cdot \rho_k^j\) - 各模块奖励独立估计,简化为逐模块独立决策:\(\rho_k^j > 0\) 则激活 - 支持预设激活指示器 \(G_1^j[k]\)(如场景构成变化时强制激活 YOLO)
损失函数¶
无训练损失——纯推理时框架,基于信息论的在线决策。
实验关键数据¶
主实验(三个视频域)¶
| 域 | 方法 | 延迟(ms) | YOLO Recall | Pose Recall |
|---|---|---|---|---|
| Indoor Reading | Parallel | 98.81 | 1.00 | 0.16 |
| Indoor Reading | Scheduled | 71.62 | 0.97 | 0.20 |
| Eating | Parallel | 94.99 | 1.00 | 0.16 |
| Eating | Scheduled | 86.44 | 0.98 | 0.20 |
| Walking | Parallel | 93.63 | 1.00 | 0.22 |
| Walking | Scheduled | 75.15 | 0.93 | 0.38 |
- 延迟降低最多 27.52%(Indoor Reading)
- MMPose 激活召回提升最多 72.73%(Walking:0.22→0.38)
关键帧识别精度¶
| 域 | YOLO 关键帧精度 | MMPose 关键帧精度 |
|---|---|---|
| Indoor Reading | 0.97 | 0.89 |
| Eating | 0.98 | 0.97 |
| Walking | 0.93 | 0.92 |
关键发现¶
- 静态场景(读书)延迟降低最显著,信息增益低导致保守调度
- 动态场景(行走)MMPose 召回提升最大,因为关键帧更密集
- YOLO 召回仅轻微下降(0.93-0.98),效率提升值得这一代价
- MMPose 整体召回仍较低,根本原因是推理延迟导致中间重要帧被跳过
亮点与洞察¶
- 首次提出感知调度概念:将模块激活决策制度化为信息增益 vs 计算代价的优化问题
- 信息论基础扎实:用 Kalman 滤波预测协方差熵和关键点置信度熵建模模块级信息增益
- 模块可扩展:框架设计为通用 Perception Toolkit,可扩展到 VLM 等更多模块
- 相关性感知:由 Relevance 框架提供的任务相关性加权确保资源分配给重要区域
- 实用轻量:调度逻辑在 CPU 上运行,不占用 GPU 计算资源
局限性¶
- MMPose 召回绝对值仍很低(0.20-0.38),框架无法从根本上解决重模块推理延迟问题
- 实验仅在 3 个自录视频上验证,缺乏标准数据集和大规模评估
- 奖励中的拉格朗日乘子 \(\lambda\) 需手动设置,不同场景下最优值可能不同
- 运动检测基于简单帧差法,对光照突变等场景可能产生误触发
- 未考虑模块间的资源竞争和共享 GPU 的调度约束
相关工作与启发¶
- Relevance 概念模拟人类网状激活系统(RAS),为感知调度提供任务感知基础
- 与自适应采样的区别:目标检测和姿态估计产生质量不同的输出,不是同质测量
- 信息增益的建模方式(Kalman + 关键点置信度)可推广到其他感知模块
- 对 VLM 等超大模块的调度尤其有价值,因其推理代价更高
评分¶
- 新颖性: ⭐⭐⭐⭐ (首次系统化感知调度框架)
- 实验充分度: ⭐⭐⭐ (仅 3 个自录视频,缺乏标准 benchmark)
- 写作质量: ⭐⭐⭐⭐ (信息论建模清晰)
- 价值: ⭐⭐⭐⭐ (方向重要,框架有扩展潜力)