DCHM: Depth-Consistent Human Modeling for Multiview Detection¶

会议: ICCV 2025
arXiv: 2507.14505
代码: 项目页面
领域: 自动驾驶
关键词: 多视角行人检测, 深度一致性, 高斯溅射, 单目深度估计, 无标签方法

一句话总结¶

提出 DCHM，一种无需 3D 标注的深度一致性人体建模框架，通过超像素级高斯溅射生成伪深度标签来微调单目深度估计网络，结合多视角标签匹配实现稀疏视角、遮挡严重场景下的高精度行人检测，在 Wildtrack 上 MODA 达 84.2%，MODP 较 UMPD 提升 31.2%。

研究背景与动机¶

多视角行人检测旨在利用多个摄像头图像检测行人，在严重遮挡场景中尤为有益。当前方法遵循"人体建模 + 行人定位"策略，面临以下挑战：

特征投影不准确：现有方法将图像特征或检测结果投影到地面平面，但缺乏行人高度信息导致地面以上点的对齐误差，需依赖 3D 标注训练来弥补

标签依赖与泛化性：有标签方法需大量 3D 标注，且难以泛化到新场景

无标签方法局限：通过单应矩阵投影的方法对像素级误差敏感；基于体积渲染的方法（UMPD）在稀疏视角和拥挤场景下效果差

深度不一致：现有单目深度估计方法虽能提供详细深度，但各视角独立预测的深度图缺乏跨视角一致性，反投影到 3D 空间后点云错位严重（如同一人被不同相机估计为多个目标）

核心 idea：利用高斯溅射从稀疏视角图像中自学习多视角一致的伪深度标签 → 微调单目深度网络获得一致深度 → 3D 点云人体建模 → 多视角标签匹配和聚类检测。

方法详解¶

整体框架¶

框架分为训练和推理两个阶段。训练阶段包含迭代的三步循环：(1) 超像素级 GS 优化生成伪深度标签 → (2) 单目深度模型微调 → (3) 多视角检测补偿。推理阶段用优化后的深度估计器生成 3D 点云，通过多视角行人匹配实现分割和定位。

关键设计¶

超像素级高斯溅射初始化与优化:
- 功能：在稀疏视角下实现可靠的 3D 重建，生成伪深度标签
- 核心思路：传统 SfM 在宽基线稀疏视角下失败。采用"均匀采样 + 过滤"策略：对每个超像素中心发射射线，沿射线均匀采样点初始化高斯。每个高斯的尺度基于超像素面积和距离 $t$ 计算： $s = \frac{tfr}{\|\mathbf{c} - \mathbf{o}\|_2 \cdot \sqrt{(\sqrt{\|\mathbf{c} - \mathbf{o}\|_2^2 - f^2} - r)^2 + f^2}}$ 使用超像素级光度损失 $\mathcal{L}_{sp}$（而非像素级）提升稀疏视角的一致性。还包含 mask 损失 $\mathcal{L}_m$、深度约束损失 $\mathcal{L}_d$（鼓励同一行人 mask 内深度方差小）和不透明度损失 $\mathcal{L}_o$
- 设计动机：像素级监督在稀疏视角重叠区域因光照和相机差异导致不一致；超像素聚合局部特征增强一致性，同时加速优化
伪深度过滤与单目深度微调:
- 功能：筛选可靠的 GS 输出深度用于微调深度估计网络
- 核心思路：两步过滤策略：
  - 跨视角前景过滤：将源视角前景像素重投影到参考视角，若落入背景则丢弃
  - 跨视角深度一致性过滤：比较重投影深度与 GS 渲染深度，保留差异 < 阈值 $\tau$ 的像素过滤后的深度作为伪标签微调 Depth Anything v2 等深度估计网络
- 设计动机：GS 仅在多视角可见的行人区域产生可靠深度，需过滤掉遮挡区域的错误深度
多视角检测补偿 + 多视角行人标签匹配:
- 功能：恢复单视角漏检的行人；确保同一行人在不同视角被一致标记
- 核心思路：
  - 检测补偿：将源视角的行人 mask 通过预测深度投影到参考视角，生成 box prompt 和 point prompt 输入 SAM 得到补偿分割结果
  - 标签匹配：从第一个相机开始，将高斯投影到图像平面，根据 blending weight 和行人 mask 的重叠关系分配 ID。逐视角传播（已有 ID 的高斯落入新 mask → 传递 ID；无 ID 的高斯 → 分配新 ID），确保跨视角一致的行人标识
- 设计动机：遮挡导致的漏检会影响 GS 优化和最终检测；独立的单视角分割无法保证同一行人在不同视角的一致性

损失函数 / 训练策略¶

GS 优化损失： $$\mathcal{L} = \lambda_{sp}\mathcal{L}_{sp} + \lambda_m\mathcal{L}_m + \lambda_d\mathcal{L}_d + \lambda_o\mathcal{L}_o$$

迭代训练循环：GS 优化 → 伪深度过滤 → 深度网络微调 → 检测补偿 → 新一轮 GS 优化。3 轮循环后精度提升趋于饱和。

实验关键数据¶

主实验（无标签方法对比）¶

方法	Wildtrack MODA↑	Wildtrack MODP↑	Terrace MODA↑	MultiviewX MODA↑
RCNN & clustering	11.3	18.4	-11	18.7
BP & BB + CC	56.9	67.3	-	-
UMPD	76.6	61.2	73.8	67.5
DCHM (Ours)	84.2	80.3	80.1	78.4

Wildtrack MODP 超 UMPD 31.2%（80.3 vs 61.2），MultiviewX MODA 超 UMPD 16.1%（78.4 vs 67.5）。

消融实验¶

配置	MODA	说明
像素级优化输入	71.7	稀疏视角不一致
超像素级优化输入	84.2	提升 12.5 点
SIS + GVD+VBR (UMPD)	76.6	UMPD 原始配置
SIS + Our Recon	82.5	重建提升 5.9
YOLOv11 + Our Recon	84.2	更好的分割进一步提升
深度估计方法对比（同 Our Loc）	Depth Pro: 72.8, Our Recon: 84.2	深度一致性是关键

关键发现¶

深度一致性是多视角行人检测的关键瓶颈：即使是最好的现成深度估计方法（Depth Pro），在无多视角一致性约束时也远不如本方法
超像素级 GS 监督相比像素级监督在稀疏视角下提升巨大（MODA 提升 12.5 点）
迭代训练有效：有效伪深度区域逐轮增加，但 3 轮后收益递减
检测补偿机制有效恢复了遮挡导致的漏检（YOLOv9/v11 均有提升）
推理速度 1.2 FPS，在实时范围内

亮点与洞察¶

首次在稀疏视角、大规模、拥挤场景中实现行人重建和多视角分割
自学习伪深度标签的思路巧妙：用 GS 的跨视角一致性"教"单目深度网络
超像素级 GS解决了稀疏视角下像素级光度损失不可靠的问题
多视角标签匹配通过 3D 高斯的 blending weight 在 3D 空间中完成，比 2D tracking 更鲁棒
将 DCHM 的人体建模与有标签定位方法结合，甚至超越了有标签方法的 SOTA

局限与展望¶

推理速度 1.2 FPS 限制了实时应用
训练时间较长（3 轮迭代，每轮需 GS 优化每帧的伪深度）
地面重建基于预定义深度范围，可能在复杂地形下失效
对分割网络质量敏感（YOLOv11 vs SIS 差异显著）
暂未处理动态场景（行人移动时 GS 优化假设静态场景）

评分¶

新颖性: ⭐⭐⭐⭐ 超像素级 GS + 自学习伪深度 + 检测补偿的组合新颖
实验充分度: ⭐⭐⭐⭐⭐ 三个数据集、多方法对比、详细消融、深度估计方法横评
写作质量: ⭐⭐⭐⭐ 框架图清晰，逻辑连贯，技术细节充分
价值: ⭐⭐⭐⭐ 无标签多视角检测具有重要实用价值（部署成本低），但应用场景相对窄