跳转至

✂️ 语义分割

🤖 AAAI2026 · 共 14

3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation

将SAM2基础模型迁移到3D牙齿分割任务,通过多视角渲染将3D mesh转为2D图像、设计三个轻量适配器(Prompt生成器、Mask精化器、Mask分类器)和可变形全局注意力插件(DGAP)来解决自动提示、边界精化和语义分类问题,在Teeth3DS上以91.90% T-mIoU刷新SOTA。

A²LC: Active and Automated Label Correction for Semantic Segmentation

提出 A²LC 框架,在传统主动标签校正(人工逐一纠错)的基础上增加一个自动校正阶段(Label Correction Module),利用标注员的反馈自动修正相似的错误mask,并设计自适应平衡采集函数缓解类别不平衡,在 Cityscapes 上仅用 20% 预算即超越前 SOTA,同等预算下 mIoU 提升 27.23%。

Adaptive Morph-Patch Transformer for Aortic Vessel Segmentation

提出 Morph-Patch Transformer (MPT),通过基于速度场的自适应 patch 划分策略生成形态感知 patch(保持血管拓扑完整性),并引入语义聚类注意力(SCA)动态聚合语义相似 patch 的特征,在 AVT、AortaSeg24 和 TBAD 三个主动脉分割数据集上均达 SOTA。

Breaking the Stealth-Potency Trade-off in Clean-Image Backdoors with Generative Trigger Optimization

提出 Generative Clean-Image Backdoors (GCB),通过 Conditional InfoGAN (C-InfoGAN) 自动发现图像中天然存在且与分类任务无关的特征作为后门触发器,以极低投毒率(≤0.5%)实现高攻击成功率(≥90% ASR)且几乎不损伤干净准确率(CA drop ≤1%),首次打破了 clean-image backdoor 中隐蔽性与攻击力的固有矛盾。

Bridging Granularity Gaps: Hierarchical Semantic Learning for Cross-Domain Few-Shot Segmentation

提出 HSL 框架,通过双重风格随机化 (DSR)、层次语义挖掘 (HSM) 和原型置信度调制阈值 (PCMT) 三个模块,解决跨域少样本分割中源域和目标域之间的分割粒度差异问题,在四个目标域数据集上达到 SOTA。

Causal-Tune: Mining Causal Factors from Vision Foundation Models for Domain Generalized Semantic Segmentation

提出Causal-Tune,从因果视角分析VFM特征中的artifacts,利用DCT频域分解+高斯带通滤波分离因果/非因果因素,结合因果感知可学习token在频域精化特征,在Cityscapes→ACDC跨域分割中平均提升+2.4% mIoU(Snow场景+4.8%),仅需单卡RTX3090/14GB训练。

Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation

提出 FLEX-Seg 框架,将扩散模型合成数据中图像与语义掩码之间固有的边界不对齐(misalignment)转化为学习鲁棒表示的机会,通过粒度自适应原型 (GAP)、不确定性边界强调 (UBE) 和难度感知采样 (HAS) 三个模块,在域泛化语义分割任务上取得 SOTA。

EAGLE: Episodic Appearance- and Geometry-Aware Memory for Unified 2D-3D Visual Query Localization

提出 EAGLE 框架,借鉴鸟类记忆巩固机制,通过外观感知元学习记忆 (AMM) 驱动的分割分支与几何感知定位记忆 (GLM) 驱动的跟踪分支协同工作,结合 VGGT 实现高效的 2D-3D 统一视觉查询定位,在 Ego4D-VQ 基准上达到 SOTA。

Empowering DINO Representations for Underwater Instance Segmentation via Aligner and Prompter

首次将 DINOv2 引入水下实例分割任务,通过 AquaStyle Aligner(傅里叶频域风格注入)和 ObjectPrior Prompter(二值掩码先验提示)两个模块实现高效领域适配,在 UIIS 和 USIS10K 数据集上以更少参数大幅超越 SAM 基方法。

Empowering Semantic-Sensitive Underwater Image Enhancement with VLM

利用 VLM 生成空间语义引导图,通过 cross-attention 注入和语义对齐损失的双重引导机制,赋予水下图像增强网络语义感知能力,使增强结果同时有利于人类感知和下游检测/分割任务。

From Attribution to Action: Jointly ALIGNing Predictions and Explanations

提出 ALIGN 框架,通过联合训练可学习掩码生成器(masker)和分类器,迭代对齐模型归因图与任务相关区域掩码,同时提升预测准确性和可解释性,在 VLCS 和 Terra Incognita 域泛化基准上超越 6 个强基线。

Generalizable Slum Detection from Satellite Imagery with Mixture-of-Experts

提出 GRAM(Generalized Region-Aware Mixture-of-Experts),一个两阶段测试时自适应框架:第一阶段用 MoE 架构在12个城市的百万级卫星图像上训练区域特化专家,第二阶段通过跨区域预测一致性筛选可靠伪标签进行自训练,实现对未见非洲城市的贫民窟分割泛化。

Guideline-Consistent Segmentation via Multi-Agent Refinement

提出一个免训练的多智能体框架,通过 Worker(分割执行)和 Supervisor(指南验证)的迭代循环,配合 RL 自适应停止策略,实现严格遵循复杂文本指南的语义分割,在 Waymo 和 ReasonSeg 上分别超越 SOTA 8.61 和 5.5 gIoU。

InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer

提出InfoCLIP,基于信息论视角设计信息瓶颈压缩和互信息蒸馏两个目标,在CLIP微调过程中去除预训练pixel-text对齐中的噪声并保留语义对齐知识,在6个开放词汇语义分割测试集上全面超越SOTA(A-847: 16.6, A-150: 38.5, PC-59: 63.5 mIoU),且仅增加0.53M参数和极少计算开销。