DriverGaze360: OmniDirectional Driver Attention with Object-Level Guidance¶

会议: CVPR2026
arXiv: 2512.14266
代码: dfki-av/drivergaze360
数据集: HuggingFace 领域: 自动驾驶 / 驾驶员注意力预测
关键词: 驾驶员注意力, 全景视角, 注视预测, 语义分割, 360°视野, Video Swin Transformer

一句话总结¶

提出首个360°全视角驾驶员注意力数据集（~100万帧/19名驾驶员），并设计DriverGaze360-Net通过辅助语义分割头联合学习注意力图与被关注物体，在全景驾驶图像上达到SOTA注意力预测性能。

研究背景与动机¶

驾驶员注意力预测是构建可解释自动驾驶系统的关键任务，也是理解混合交通（人类+自动驾驶车辆）场景中驾驶行为的重要手段。现有工作已经在大规模数据集和深度学习架构方面取得了显著进展，但存在两个根本性局限：

视野受限：现有驾驶员注意力数据集（如DR(eye)VE、BDD-A、DADA-2000等）仅覆盖前方窄视角（通常60°-120°），无法捕捉驾驶环境的完整空间上下文。然而真实驾驶中，驾驶员需要频繁观察侧方和后方区域。

场景多样性不足：现有数据集主要关注前方正常行驶场景，忽略了变道、转弯、与行人/骑行者交互等需要外围视觉参与的关键驾驶场景。这些恰恰是安全攸关的操作。

缺乏物体级别的语义引导：传统注意力预测方法仅输出热力图形式的注意力分布，缺少对"驾驶员到底在看什么物体"的显式建模，这限制了预测结果在自动驾驶决策中的可用性。

本文的核心动机是：驾驶员的视线不仅仅停留在正前方，尤其在变道、转弯、路口交互等场景下，外围视觉信息至关重要。需要一个覆盖360°视角的大规模注意力数据集，以及能够同时理解"在哪里看"和"在看什么"的预测模型。

方法详解¶

整体框架¶

DriverGaze360系统由两部分组成：大规模360°数据集 和 DriverGaze360-Net预测网络。

数据集采集：使用CARLA仿真器搭建驾驶环境，19名参与者佩戴眼动追踪设备在模拟器中完成多种驾驶任务。全景图像分辨率为6400×720像素，涵盖完整360°视野。每帧同步采集RGB图像、深度图、实例分割图、注视坐标（gaze_x, gaze_y）以及车辆状态信息（转向、油门、刹车、位置、速度等）。数据集包含9种驾驶场景类型，既有常规驾驶也有关键安全场景（如紧急情况），共约100万帧标注数据。

网络架构：DriverGaze360-Net采用编码器-解码器结构，以Video Swin Transformer为骨干网络，配合多头解码器实现注意力图预测和语义分割的联合学习。模型输入为T帧连续全景图像序列（默认T=16），输出为注意力热力图和7类语义分割图。

关键设计一：Video Swin Transformer时空编码器¶

编码器采用Swin3D-S（在Kinetics-400上预训练），这是一种层级化的视频Transformer架构。选择视频Transformer而非传统CNN作为骨干的关键原因：

时序建模能力：驾驶员注视行为具有强烈的时间连续性，需要对连续帧序列进行联合编码。Video Swin通过3D移位窗口注意力机制高效捕捉时空依赖。
多尺度特征提取：骨干网络包含4个阶段，每个阶段通过Patch Merging逐步降采样，产生不同分辨率的特征图（通道数分别为96, 192, 384, 768）。这些多尺度特征通过跳跃连接传递给解码器，确保细粒度的空间信息不丢失。
全局上下文感知：全景图像的宽高比极端（约9:1），传统卷积网络的感受野难以覆盖如此大的空间范围，而Transformer的注意力机制天然适合捕获长程依赖。

编码器的前向过程为：输入张量 \(B \times C \times T \times H \times W\) 经过Patch Embedding和位置编码后，逐层通过4个Swin Transformer块和Patch Merging层，输出4个尺度的特征图，按从粗到细的顺序反转后送入解码器。

关键设计二：辅助语义分割头的联合学习¶

这是本文最核心的创新点。解码器（DecoderSwin）包含共享的上采样主干和多个任务头：

注意力预测头（sal）：输出单通道注意力热力图，经Sigmoid激活，范围[0,1]
语义分割头（ss）：输出7通道分割logits，对应7个语义类别——背景、交通灯、交通标志、行人、骑行者、车辆（合并了car/truck/bus/train/motorcycle）、自行车

两个任务头共享解码器的上采样主干（convtsp1→convtsp2→convtsp3），然后分别通过独立的卷积层生成各自的输出。关键洞察是：语义分割任务迫使网络学习物体级别的语义表示，这反过来提升了注意力预测的空间定位精度。驾驶员通常将注意力集中在特定类型的物体上（如前车、行人、交通灯），语义分割头显式编码了这些物体的位置和类别信息。

语义分割的ground truth并非简单使用CARLA的实例分割标注，而是结合注意力显著图进行过滤——只保留驾驶员实际关注区域内的物体分割标签，这确保了分割头学到的是"被注视的物体"而非所有可见物体。

关键设计三：多损失函数联合优化¶

总损失函数由注意力损失和分割损失加权组合：

\[L_{total} = w_{sal} \cdot L_{sal} + w_{ss} \cdot L_{ss}\]

注意力损失包含四项经典的显著性评估指标作为损失：

NSS损失：对预测图进行z-score标准化后在注视点处采样，衡量注视点处的预测响应强度
KLD损失：预测分布与真实注视分布之间的KL散度
CC损失：预测图与真实显著图之间的线性相关系数
MSE损失：逐像素均方误差

分割损失结合三种损失函数以确保鲁棒性：交叉熵损失（CE）+ Jaccard/IoU损失 + Dice损失。

训练采用AdamW优化器（学习率1e-6），支持混合精度训练和分布式数据并行（DDP）。此外还引入基于KLD的加权采样策略，对"难样本"（预测与GT差距大的帧）赋予更高的训练权重。

实验关键数据¶

数据集对比¶

数据集	360°视野	场景类型数	驾驶场景	参与者数	数据来源
DR(eye)VE	✗	6	常规驾驶	8	真实驾驶
LBW	✗	7	常规驾驶	28	真实驾驶
BDD-A	✗	4	繁忙路口/紧急制动	1,228	观看视频
DADA-2000	✗	6	驾驶事故	20	观看视频
DriverGaze360	✓	9	常规+关键场景	19	模拟驾驶

DriverGaze360是唯一提供360°全视角覆盖的大规模驾驶员注意力数据集。相比现有最大的BDD-A（1,228名受试者观看视频），DriverGaze360虽然参与者更少，但提供的是真正的主动驾驶行为数据（驾驶模拟器），更贴近真实驾驶场景。

注意力预测性能对比¶

方法	KLD ↓	CC ↑	SIM ↑	NSS ↑
基线方法（前视角模型）	较高	较低	较低	较低
DriverGaze360-Net (仅sal)	改善	提升	提升	提升
DriverGaze360-Net (sal+ss)	最优	最优	最优	最优

加入辅助语义分割头后，所有注意力预测指标均获得提升。这验证了物体级语义引导对注意力预测的增益作用。模型在KLD（越低越好）、CC（越高越好）、SIM（越高越好）和NSS（越高越好）四个标准指标上均达到了全景驾驶图像上的SOTA。

关键发现¶

辅助分割头的显著增益：语义分割头不仅自身可以识别被关注物体，更重要的是为注意力预测提供了隐式的物体级先验。消融实验表明去除分割头会导致注意力预测性能明显下降。
全景视角的必要性：当驾驶员进行变道、转弯、检查盲区等操作时，注视点会大幅偏离前方中心区域。仅使用前视角模型无法捕获这些关键的注视行为。
时序信息的重要性：使用Video Swin Transformer处理连续帧序列（T=16帧），比单帧输入显著提升预测精度，说明驾驶员注视行为具有强时序依赖性。
带注视过滤的语义标签：实验表明，使用"被注视物体"而非"所有可见物体"作为分割GT更有效，因为这直接将语义学习对准了注意力预测的核心目标。

亮点与洞察¶

数据集层面的贡献巨大：这是首个覆盖360°视角的大规模驾驶员注意力数据集，填补了该领域的重要空白。数据量（~100万帧）和多样性（9种场景类型）足以支撑复杂模型的训练。
方法简洁有效：辅助分割头的设计思路朴素但效果显著——通过多任务学习让网络同时理解"空间分布"和"物体语义"，两者互相增强。这种设计在工程实现上几乎无额外推理开销（可选择推理时关闭分割头）。
开源完整度高：代码、数据集、预训练检查点全部开源，且托管在GitHub和HuggingFace上，便于复现和后续研究。包含详细的训练配置（损失权重、数据加载、分布式训练等），可用性很强。
数据格式精心设计：每个录制包含RGB视频、深度图、实例分割、显著图以及详细的CSV元数据（注视坐标、车辆控制信号、位姿、速度），支持多种下游研究方向。

局限性¶

仿真数据与真实数据的差距：数据全部来自CARLA仿真器，存在域偏移（domain gap）问题。仿真环境的视觉真实性、交通参与者行为模式、光照变化等与真实场景有差异，模型在真实驾驶数据上的泛化能力有待验证。
参与者规模偏小：仅19名驾驶员，个体差异可能导致注视模式偏差。相比之下，BDD-A有1228名参与者。较小的参与者池可能使模型过拟合于少数人的注视习惯。
语义类别有限：仅定义了7个语义类别，缺少道路标线、路缘、建筑物等对驾驶决策同样重要的类别。更细粒度的语义分类可能进一步提升性能。
缺乏与真实数据集的交叉验证：论文未在现有真实驾驶数据集（如DR(eye)VE）上验证模型的迁移性能。
推理脚本尚未完成：GitHub仓库中推理功能标记为TODO，限制了即刻的实际应用部署。

评分¶

新颖性: ⭐⭐⭐⭐ — 首个360°驾驶员注意力数据集具有原创性；辅助分割头思路有效但并非全新范式
实验充分度: ⭐⭐⭐⭐ — 多指标评估体系完整，数据集对比详尽，但缺少跨域迁移实验
写作质量: ⭐⭐⭐⭐ — 动机清晰，数据集描述详细，开源程度高
价值: ⭐⭐⭐⭐⭐ — 数据集贡献突出，填补了领域空白，将推动全景驾驶员注意力预测研究