DSFlash: Comprehensive Panoptic Scene Graph Generation in Realtime¶

会议: CVPR 2026 arXiv: 2603.10538 代码: 接收后公开领域: 分割 关键词: 场景图生成, 全景分割, 实时推理, 双向关系预测, 动态剪枝

一句话总结¶

提出 DSFlash，一个低延迟全景场景图生成模型，通过统一 backbone、双向关系预测和 mask 动态剪枝等设计，在 RTX 3090 上实现 56 FPS 的实时推理，同时保持 SOTA 性能（mR@50=30.9）。

研究背景与动机¶

场景图生成（SGG）旨在从图像中提取结构化的节点-边图表示，节点代表实例、边代表关系（如"person sitting on chair"），在 VQA、图像描述、具身推理等下游任务中很有价值。全景场景图生成（PSGG）进一步使用分割 mask 代替 bbox 进行实例定位。

核心矛盾：现有 PSGG 方法追求性能而忽视效率。DSFormer 达到 SOTA 的 mR@50=30.7，但推理延迟高达 458ms；即便 REACT 实现了 19ms，其 PSGG 性能也很有限。更关键的是，现有方法通常只预测关系的子集，而非完整场景图。

切入角度：DSFlash 从 DSFormer 出发，系统性地替换其低效组件——统一两个 backbone 为一个、设计双向预测头减半推理次数、利用 mask 信息做动态 token 剪枝——实现了"又快又全又好"的完整场景图生成。

方法详解¶

整体框架¶

DSFlash 采用两阶段架构：第一阶段用冻结的 EoMT backbone 做全景分割并提取特征；第二阶段对每对 mask 组合添加 mask embedding，经 transformer neck 和关系预测头输出双向关系。训练时使用 GT mask，推理时使用预测 mask。

关键设计¶

统一 Backbone（Merged Backbones）: DSFormer 用两个独立 backbone（一个分割、一个关系预测），DSFlash 直接从分割模型 EoMT 中抽取中间层特征张量（blocks 2/5/8/11），拼接得到 \(768 \times 40 \times 40\) 的特征图，省去第二个 backbone 的开销。EoMT 始终冻结，训练仅需更新关系预测部分，大幅降低训练成本（单卡 GTX 1080 不到 24 小时）。选择 EoMT 而非 MaskDINO 是因为其纯 encoder 设计更快且易集成。
双向关系预测（Bidirectional Predictions）: DSFormer 对每对 mask \((S_0, S_1)\) 需做两次前向传播（正向/反向），DSFlash 设计门控机制一次推理同时输出两个方向的关系：
先计算 \(g = \sigma(\text{gate}_{mlp}(x))\)
正向特征 \(t^{\rightarrow} = g \odot x\)，反向特征 \(t^{\leftarrow} = (1-g) \odot x\)
共享 MLP 分别预测 \(z^{\rightarrow}\) 和 \(z^{\leftarrow}\)

为防止模型利用标注中正/反向标签分布不均的 shortcut，训练时交换 mask 顺序做第二次前向，加入特征一致性损失：\(\text{Consistency} = \frac{1}{D}\sum_{i}(t_i^{\rightarrow} - t_i^{\prime\leftarrow})^2 + (t_i^{\leftarrow} - t_i^{\prime\rightarrow})^2\)。推理时只需单次前向。

Mask 动态 Patch 剪枝: 利用 mask embedding 计算时已有的 overlap ratio 信息，识别与 subject/object 均无重叠的 patch token 并丢弃。这些远离主客体的 patch 对关系分类贡献极小，剪枝几乎无额外计算开销。由于最终预测仅依赖 CLS token，模型天然支持可变 token 数。
Token Merging: 在 backbone 的每个 attention 层前用 ToMe-SD 合并相似 token，attention 后再 unmerge，减少注意力计算量同时保持分割能力。

损失函数 / 训练策略¶

关系预测：BCE 损失
特征一致性：MSE 损失
数据增强：DeiT III 风格（随机翻转、色彩抖动、灰度/曝光/高斯模糊三选一）
训练时使用 GT mask，backbone 冻结

实验关键数据¶

主实验¶

方法	mR@50 ↑	延迟 (ms) ↓	参数量
DSFormer	30.70	458	330M
HiLo-L	19.08	427	230M
REACT	19.00	19	43M
DSFlash-L	30.90	50	340M
DSFlash-B*	28.50	23	116M
DSFlash-S*	25.05	18	40M

消融实验（增量优化）¶

优化项	mR@50	延迟 (ms)	RPS ↑	说明
Baseline (DSFormer)	30.7	445	435	起点
+ 统一 Backbone	25.0	41 (-91%)	5,745	最大加速来源
+ 高效 Mask 编码	25.0	37 (-10%)	7,132	减少数据拷贝
+ 门控双向预测	28.8	29 (-22%)	11,491	推理次数减半+额外监督提升性能
+ 跳过分割上采样	28.5	23 (-21%)	12,928	无需上采样到原图分辨率

关键发现¶

分割模型质量直接决定最终场景图性能（mR@50 与 mR@inf 强相关），未来更好的分割模型可直接提升 DSFlash
双向预测不仅减半推理次数，还因额外监督信号提升了 mR@50（25.0→28.8）
DSFlash-S 仅 40M 参数，18ms 延迟，仍优于除 DSFormer 外的所有方法

亮点与洞察¶

工程与设计并重：每个优化都有清晰的动机和量化分析，不是简单堆技巧
完整场景图：不像 REACT 只预测部分关系，DSFlash 对所有 mask 对预测关系，反而更快
一致性损失的洞察：发现训练集中正/反向标签分布不均会导致 shortcut learning，用一致性约束优雅解决
可部署性强：单卡 GTX 1080 训练 24h，RTX 3090 上 56 FPS 推理

局限性 / 可改进方向¶

mR@50 高度依赖分割质量，若分割模型对某些类别表现差则场景图也差
PSG 数据集仅 56 类谓词，真实场景关系更丰富
未探索场景图的下游任务验证（如 VQA、具身推理）
冻结 backbone 可能限制了对特定数据集的适配

评分¶

新颖性: ⭐⭐⭐⭐ 双向门控预测和 mask 动态剪枝有新意，整体是系统性工程优化
实验充分度: ⭐⭐⭐⭐⭐ 详尽的消融和延迟分析，每个组件的贡献清晰可见
写作质量: ⭐⭐⭐⭐ 结构清晰，动机阐述充分
价值: ⭐⭐⭐⭐⭐ 对实时场景图生成有重要实际意义，降低了 SGG 研究的硬件门槛

评分¶

新颖性: 待评
实验充分度: 待评
写作质量: 待评
价值: 待评