4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation¶

会议: CVPR 2026
arXiv: 2512.17012
代码: GitHub
领域: 多模态视觉语言模型 / 三维视觉
关键词: 4D理解, 区域级VQA, 感知蒸馏, 时间位置编码, 深度感知

一句话总结¶

提出4D-RGPT和感知4D蒸馏（P4D）框架，通过从冻结的4D感知专家模型中蒸馏深度和光流等知识到MLLM中增强4D感知，同时构建R4D-Bench——首个区域级4D视频问答基准。

尽管MLLM在视觉理解上取得了显著进展，但在需要精细3D结构和时间动态推理的任务上仍有不足。现有限制：

核心洞察：4D感知（深度+光流+运动分割+相机射线）应作为MLLM的内在能力，通过训练时蒸馏获得，而非推理时依赖外部模块。

视频输入 → VLM视觉编码器 + 时间戳位置编码 → LLM骨干 → 训练时分支：4D感知解码器提取潜在/显式4D表示 → P4D蒸馏对齐冻结教师 → 推理时：仅保留标准VLM路径，无额外开销。

感知4D蒸馏（P4D）:
- 功能：将4D感知知识从专家模型转移到MLLM中
- 核心思路：双分支蒸馏——潜在蒸馏（对齐MLLM的中间4D特征与教师的潜在表示）+ 显式蒸馏（对齐预测的深度/光流/运动等信号与教师输出）
- 设计动机：潜在蒸馏提供抽象引导，显式蒸馏确保可解释的精确信号；训练时模块在推理时移除，零额外开销
时间戳位置编码（TPE）:
- 功能：为MLLM提供显式的时间线索
- 核心思路：将每帧的采样时间戳编码为正弦位置编码，加到视觉特征上后送入多模态投影器
- 设计动机：回答"车的平均速度"需要知道视频时长，但MLLM默认不感知帧间真实时间间隔
R4D-Bench基准构建:
- 功能：首个区域级4D VQA基准
- 核心思路：从STI-Bench和VLM4D的非区域问题出发，提取实体关键词→GroundingDINO+SAM2分割→SoM标记→Qwen2.5-VL匹配区域→人工验证
- 包含1517个区域提示VQA，覆盖静态（维度测量/3D定位/空间关系）和动态（计数/平移/旋转/速度/位移）9类任务

基准	NVILA基线	4D-RGPT	提升
STI-Bench	33.8	37.6	+3.8
VLM4D	46.5	52.7	+6.2
VSTI-Bench	45.2	59.1	+13.9
6基准平均	-	-	+5.3

配置	STI-Bench	R4D	说明
基线	33.8	37.9	无蒸馏
+ TPE	35.5	39.8	时间感知
+ LD	36.6	41.0	潜在蒸馏
+ ED	36.9	41.5	显式蒸馏
+ LD + ED (P4D)	37.6	42.2	完整方案