Topo-R1: Detecting Topological Anomalies via Vision-Language Models¶

会议: CVPR 2026
arXiv: 2603.13054
代码: 待确认
领域: 多模态VLM
关键词: 拓扑异常检测, 管状结构分割, GRPO强化学习, clDice, VLM细粒度感知

一句话总结¶

提出Topo-R1——首个赋予VLM拓扑感知能力的框架，通过自动化数据构建管线+SFT+GRPO强化学习（含拓扑感知复合奖励），实现无标注的管状结构拓扑异常检测与分类。

领域现状：管状结构（血管、神经纤维、道路网络）的拓扑正确性至关重要，现有拓扑保持分割方法（persistent homology损失、clDice等）依赖像素级标注来约束训练损失。
现有痛点：拓扑标注需要专业知识且极耗时；跨域迁移困难（视网膜标注不适用于道路网络）；部署到无标注新域时无法检测拓扑错误。
核心矛盾：拓扑异常极其稀疏和局部化——成千上万正确像素中可能仅一个像素缺失就切断血管连接。检测这种"大海捞针"式错误需要全局结构推理和局部细粒度感知的结合，而现有VLM完全缺乏这种能力。
本文要解决什么：在无域特定标注的前提下，让VLM能够定位和分类管状结构中的拓扑错误。
切入角度：将拓扑异常检测重新定义为结构化视觉推理任务——给定图像+分割mask，模型需输出带类型标签的bounding box。
核心idea一句话：用自动化数据管线合成有验证标注的拓扑异常，再通过包含type-aware匈牙利匹配和clDice奖励的GRPO强化学习训练VLM。

两阶段训练：Stage 1用合成数据做SFT引导VLM从随机水平启动；Stage 2用GRPO强化学习配合拓扑感知复合奖励进一步优化。输入为图像+分割mask+检测prompt，输出为结构化错误列表（bounding box + 错误类型）。

自动化数据构建管线：
做什么：跨域聚合数据并注入可验证的拓扑异常
核心思路：聚合道路网络(60%)、裂缝检测(20%)、视网膜血管(20%)三个域的数据；在mask骨架上注入四类错误（断裂连接、虚假连接、缺失分支、多余分支）；用Betti数变化 \((\beta_0, \beta_1)\) 自动验证
设计动机：人工拓扑标注成本极高，自动化合成+Betti数验证确保生成数据拓扑正确性。四类错误覆盖了连接性和分支两个轴向，是穷举性的
拓扑感知复合奖励：
做什么：为GRPO设计的多目标奖励 \(R_{\text{total}} = 0.10 R_{\text{fmt}} + 0.85 R_{\text{acc}} + 0.05 R_{\text{topo}}\)
准确率奖励 \(R_{\text{acc}}\)：包含soft F1检测奖励（基于IoU的连续映射 \(\phi\)）、定位奖励和type-aware匈牙利匹配的类型奖励
拓扑奖励 \(R_{\text{topo}}\)：对匹配pair计算 \((1-\text{clDice})\) 来量化骨架偏离度，乘以面积惩罚防止过大框
设计动机：IoU无法捕捉拓扑意义，clDice通过骨架重叠衡量连接性差异，直接编码了"拓扑错误由连通性变化定义"的先验
Type-Aware匈牙利匹配：
做什么：在每种错误类型内独立做预测-标注的最优匹配
核心思路：对每类错误 \(t\) 构建IoU亲和矩阵，解线性分配问题得最优一对一匹配；跨类合并后统计TP/FP/FN
设计动机：保证全局最优、顺序无关、一对一的匹配，且自然编码了类型正确性

Stage 1: SFT在约12900样本上做全参数训练（next-token prediction）。Stage 2: GRPO在约50300样本上，对每个query采样G个候选输出，用组内奖励标准化计算advantage，配合PPO裁剪和KL正则优化策略。

模型	方法	F1@0.3	F1@0.5	F1@0.75	aF1
GPT-4o	Zero-shot	0.5	0.3	0.0	0.1
GPT-5.2	Zero-shot	0.4	0.2	0.0	0.1
Qwen2.5-VL-3B	Zero-shot	0.0	0.0	0.0	0.0
Qwen2.5-VL-3B	SFT	~15	~10	~3	~5
Qwen2.5-VL-3B	Topo-R1	32.5	22.8	8.1	12.4
Qwen3-VL-8B	Topo-R1	38.7	28.3	11.2	16.0

配置	F1@0.5	aF1	说明
SFT only	10.2	5.1	仅监督微调
SFT + GRPO (无topo reward)	18.5	9.3	无拓扑奖励
SFT + GRPO (有topo reward)	22.8	12.4	完整Topo-R1
无format reward	20.1	10.8	格式错误增多

首创性：首次将GRPO强化学习应用于拓扑质量评估领域，开辟了VLM拓扑感知的全新研究方向。
奖励设计精巧：将clDice从损失函数改造为RL奖励信号，并通过type-aware匈牙利匹配条件化，确保只有类型正确的检测才获得拓扑奖励，避免"正确位置错误类型"的情况获得误导性反馈。
实用价值：无需目标域标注即可进行拓扑质量评估，可作为现有分割管线的后处理质量保证工具。