Fine-Grained Representation for Lane Topology Reasoning¶

会议: AAAI 2026
arXiv: 2511.12590
作者: Guoqing Xu, Yiheng Li, Yang Yang (北京理工大学)
代码: GitHub
领域: autonomous_driving
关键词: 车道拓扑推理, 细粒度查询, BEV感知, 边界点拓扑, 去噪训练

一句话总结¶

提出TopoFG框架，用细粒度查询（每条车道线由多个空间感知查询表示）替代传统单查询建模，结合层级先验提取、区域聚焦解码和基于边界点的鲁棒拓扑推理，在OpenLane-V2上以48.0% OLS（subset_A）和45.4% OLS（subset_B）达到新SOTA。

研究背景与动机¶

问题背景¶

车道拓扑推理是自动驾驶感知的核心任务，需要同时检测车道中心线和交通元素，并推理它们之间的拓扑连接关系（车道-车道连通性、车道-交通标志关联）。准确的拓扑建模直接影响导航和控制决策。

已有工作的不足¶

单查询建模表达力不足：TopoNet、TopoLogic等方法用单个查询向量表示整条车道线，难以捕捉复杂形状和局部几何变化
实例级拓扑推理不可靠：通过计算两条车道的整体特征相似度来判断连接关系，但实际中两条相连车道可能仅在端点处局部交汇，整体相似度并不明显
典型失败场景：当车道a的终点前方有两条几何形状相似的平行车道b和c时，实例级特征可能使b和c的表示高度相似，导致模型错误预测a→c的连接

核心动机¶

用细粒度查询序列替代单查询表示每条车道，使模型能捕捉局部几何细节；拓扑推理聚焦于边界点（起终点）特征，而非整体实例特征，提升连接预测的准确性。

方法详解¶

整体框架¶

TopoFG包含三个核心模块：层级先验提取器（HPE）、区域聚焦解码器（RFD）和鲁棒边界点拓扑推理（RBTR）。

输入多视角图像 → CNN骨干（ResNet-50）+ FPN提取多尺度特征 → 可变形注意力生成BEV特征 → HPE → RFD → RBTR → 输出车道线和拓扑关系。

模块1：层级先验提取器（HPE）¶

提取两种互补先验信息：

全局空间先验： 1. 使用Mask Former对BEV特征预测车道掩码\(\boldsymbol{M}\) 2. 基于阈值\(\tau\)计算权重向量\(\boldsymbol{A}\)，高置信区域用缩放因子\(\alpha\)强调 3. 通过正弦余弦编码生成BEV网格位置编码\(\boldsymbol{P}\)，加权求和得到空间先验\(\boldsymbol{Q}^{\text{pos}}\)

局部序列先验： 1. 初始化可学习查询\(\boldsymbol{Q}'\)表示每条车道线的局部点 2. 对车道线上的关键点赋予有序索引\(I=\{1,...,k\}\) 3. 通过位置编码+线性投影转化为保留局部几何结构的有序嵌入\(\boldsymbol{Q}^{\text{seq}}\)

模块2：区域聚焦解码器（RFD）¶

细粒度查询初始化：将空间先验和序列先验融合生成细粒度查询：\(\boldsymbol{Q}_{i,t}^F = \boldsymbol{Q}_i^{pos} + \mathcal{F}(\boldsymbol{Q}_t^{seq})\)，其中\(i\)为车道实例索引，\(t\)为关键点索引。

两阶段自注意力： 1. 实例间自注意力：捕捉不同车道实例之间的交互 2. 实例内自注意力：优化单条车道内部的点级结构

区域引导的交叉注意力： - 使用车道掩码引导的参考点采样（而非随机初始化），将注意力约束在车道相关区域 - 通过可变形注意力实现BEV特征与查询的高效交互

模块3：鲁棒边界点拓扑推理（RBTR）¶

边界点拓扑推理： - 每条车道的细粒度查询序列中，仅保留首尾查询作为边界点特征：\(f_i^{\text{start}} = Q_{i,1}^F\), \(f_i^{\text{end}} = Q_{i,k}^F\) - 对任意车道对\((i,j)\)，拼接车道\(i\)的终点特征和车道\(j\)的起点特征，送入共享MLP预测连接概率 - 同时计算边界点间的欧氏距离得到几何拓扑矩阵 - 最终拓扑 = 相似度拓扑 + 几何拓扑

去噪训练策略： - 匈牙利匹配导致不同epoch的监督矩阵不一致，损害拓扑学习稳定性 - 从每个GT实例生成噪声查询，构建\(N_{gt} \times G\)个去噪查询（\(G=5\)组） - 将原始邻接矩阵扩展为块对角形式作为固定监督信号 - 推理时仅使用vanilla查询，丢弃去噪查询

损失函数¶

遵循TopoLogic的设计，每个细粒度查询负责预测车道上的单个关键点坐标。

实验关键数据¶

实验1：OpenLane-V2主结果对比¶

方法	会议	数据集	OLS↑	DET_l↑	DET_t↑	TOP_ll↑	TOP_lt↑
STSU	ICCV2021	subset_A	29.3	12.7	43.0	2.9	19.8
TopoNet	Arxiv2023	subset_A	39.8	28.6	48.6	10.9	23.8
TopoMLP	ICLR2024	subset_A	44.1	28.5	49.5	21.7	26.9
TopoLogic	NeurIPS2024	subset_A	44.1	29.9	47.2	23.9	25.4
TopoFG	AAAI2026	subset_A	48.0(+3.9)	33.8(+3.9)	47.2	30.8(+6.9)	30.9(+4.0)
TopoNet	Arxiv2023	subset_B	36.8	24.3	55.0	6.7	16.7
TopoLogic	NeurIPS2024	subset_B	42.3	25.9	54.7	21.6	17.9
TopoFG	AAAI2026	subset_B	45.4(+3.1)	30.0(+4.1)	53.0	27.2(+5.6)	21.7(+3.8)

在OLS指标上，TopoFG在subset_A和subset_B上分别超越第二名3.9和3.1个百分点。拓扑推理指标TOP_ll提升尤为显著（+6.9/+5.6）。

实验2：消融实验——各模块贡献¶

配置	OLS↑	DET_l↑	DET_t↑	TOP_ll↑	TOP_lt↑
Baseline (TopoLogic)	44.1	29.9	47.2	23.9	25.4
+ HPE	45.4	31.3	47.5	26.1	26.6
+ HPE + RFD	45.8	31.8	47.2	26.8	27.7
+ HPE + RFD + RBTR (完整)	48.0	33.8	47.2	30.8	30.9

三个模块逐步叠加，每个都带来一致的性能提升。RBTR贡献最大（OLS +2.2），说明基于边界点的拓扑推理和去噪策略是关键。

额外消融：子模块分析¶

HPE子模块：局部序列先验和全局空间先验各自单独有效，两者结合OLS达45.4%
RFD子模块：细粒度查询初始化+采样参考点组合时效果最佳（OLS 45.8%）
RBTR子模块：边界点拓扑推理（BTR）使OLS提升至46.6%，加入去噪训练（DTR）后进一步达47.3%，两者结合达48.0%

亮点¶

细粒度查询建模新范式：每条车道由\(k=11\)个空间感知查询组成，而非单个整体查询，从根本上提升了复杂车道结构的表达能力
边界点拓扑推理直觉清晰：车道连通性本质上由端点决定，仅用起终点特征进行拓扑推理比整体相似度更合理，TOP_ll提升6.9%验证了这一设计
去噪训练策略解决监督不稳定问题：匈牙利匹配导致的拓扑标签波动是训练中的实际痛点，块对角去噪监督提供了固定的学习信号
层级先验设计互补性强：全局空间先验提供掩码级定位，局部序列先验保留车道点的有序结构，两者结合效果优于单独使用
代码开源，实验在标准OpenLane-V2 v2.1.0评估协议下进行，结果可复现

局限与展望¶

DET_t指标未提升：交通元素检测（DET_t）在subset_A上维持47.2%不变，细粒度车道建模未能惠及交通元素感知，可能需要专门的交通元素增强模块
计算开销未讨论：每条车道从1个查询扩展为11个，解码器中的自注意力和交叉注意力计算量显著增加，论文未报告推理速度或FLOPs对比
仅在OpenLane-V2上验证：缺乏在其他拓扑推理数据集或真实部署场景下的泛化性验证
骨干网络较轻：仅使用ResNet-50，未探索更强骨干（如Swin Transformer）或更大分辨率输入对性能的影响
去噪策略推理时丢弃：去噪查询仅在训练中使用，推理时信息被完全丢弃，可能存在进一步利用的空间
单帧推理：未利用时序信息，与BEVFormer v2等方法的时序建模策略相比可能在连续场景中表现受限

与相关工作的对比¶

TopoNet (ICLR2023)：用GNN建模车道和交通元素图，但实例级查询限制了几何表达力，OLS仅39.8%
TopoMLP (ICLR2024)：轻量MLP预测拓扑关系，OLS 44.1%，但缺乏对车道内部结构的细粒度建模
TopoLogic (NeurIPS2024)：利用车道间空间位置关系的可解释拓扑推理策略，OLS 44.1%，本文以其为baseline并在所有关键指标上超越
LaneSegNet：将车道建模为语义丰富的车道段，引入Lane Attention机制，但拓扑推理仍基于段级特征
Topo2Seq：在lane segment检测上mAP达33.6%，但TopoFG以34.4%超越且拓扑指标更优
Mask2Map：先生成栅格化地图再矢量化，TopoFG借鉴其多尺度BEV特征思路但采用端到端框架

评分¶

新颖性: ⭐⭐⭐⭐ — 细粒度查询+边界点拓扑+去噪训练三者结合新颖，但各单独组件均有先前工作启发
实验充分度: ⭐⭐⭐⭐ — 主实验+多组消融+定性可视化齐全，但缺乏效率分析和跨数据集验证
写作质量: ⭐⭐⭐⭐ — 结构清晰、图示直观、动机表述充分
价值: ⭐⭐⭐⭐ — 在重要的自动驾驶车道拓扑推理任务上大幅刷新SOTA，方法通用性强