PixDLM: A Dual-Path Multimodal Language Model for UAV Reasoning Segmentation¶

会议: CVPR 2026
arXiv: 2604.15670
代码: https://github.com/XIEFOX/PixDLM
领域: 语义分割
关键词: 无人机推理分割, 多模态大模型, 双路径视觉编码器, 链式推理, 像素级预测

一句话总结¶

本文定义了 UAV Reasoning Segmentation 任务，构建了包含 10K 高分辨率无人机图像和链式推理标注的 DRSeg 基准，并提出了双路径像素级多模态大模型 PixDLM 作为基线。

研究背景与动机¶

领域现状：推理分割（Reasoning Segmentation）旨在根据自由文本指令识别图像中满足条件的区域。LISA、PixelLM 等模型已在地面视角场景中展示了多模态大模型进行隐式推理和像素级分割的能力。

现有痛点：现有推理分割模型和数据集主要基于地面视角或天底视角图像，其视觉假设（中等分辨率、有限尺度变化、稳定相机方向、较大目标尺寸）在无人机图像中完全不适用。无人机图像面临三个独特挑战：（1）高空斜视角持续改变透视几何；（2）极端尺度变化和密集小目标，许多关键目标仅占几十个像素；（3）超高分辨率场景需要同时推理全局语义和微小高频细节。

核心矛盾：现有 MLLM 通常使用低分辨率视觉 token 化，导致细粒度无人机细节在压缩过程中丢失。同时缺乏专门针对无人机场景的推理分割基准数据集，阻碍了系统性的研究进展。

本文目标：（1）正式定义 UAV Reasoning Segmentation 任务并构建专门的基准数据集；（2）提出能同时处理全局语义和局部细节的基线模型。

切入角度：将无人机推理语义需求组织为三个维度——空间推理、属性推理和场景级推理，分别对应位置关系、视觉状态和全局上下文。

核心 idea：通过双路径视觉编码器（全局低分辨率 + 高分辨率结构路径）保留小目标和边界线索，结合 LLM 驱动的推理进行像素级分割。

方法详解¶

整体框架¶

PixDLM 由四个核心组件组成：（1）双路径视觉编码器，提取全局语义和细粒度结构特征；（2）MultiPath Alignment 模块，融合双路径特征；（3）LLM 进行指令条件推理；（4）多尺度解码器重建最终分割 mask。输入为无人机图像和自然语言指令，输出为满足指令的像素级 mask。

关键设计¶

双路径视觉编码器（Dual-Path Vision Encoder）:
- 功能：同时捕获全局语义上下文和高分辨率结构细节
- 核心思路：全局路径使用 CLIP 视觉编码器处理低分辨率输入获取语义特征；结构路径使用 SAM 编码器处理高分辨率输入保留小目标和边界线索。两条路径互补——CLIP 擅长语义理解，SAM 擅长精细结构感知
- 设计动机：单一低分辨率编码器在无人机图像中会丢失密集小目标信息，而单一高分辨率编码器计算代价过高。双路径设计平衡了语义理解和细节保持
MultiPath Alignment 模块:
- 功能：轻量级融合全局语义和局部结构特征
- 核心思路：通过控制集成方式将 CLIP 的语义特征和 SAM 的结构特征对齐到统一表示空间，供后续 LLM 推理使用
- 设计动机：两条路径产生不同尺度和语义层次的特征，需要有效的对齐机制才能让 LLM 同时利用两者的优势
DRSeg 数据集构建流程:
- 功能：提供 10K 高分辨率无人机图像及对应的推理标注
- 核心思路：四阶段构建——人工筛选复杂场景图像 → SAM2 生成粗 mask 并人工精修 → GPT-5 根据图像+mask+类别生成三维推理 QA 对（含 CoT 推理链）→ 人工审核。数据按空间/属性/场景三个推理维度均匀分布（各 33.3%）
- 设计动机：现有无人机数据集缺乏细粒度标注和推理导向文本监督，无法支持系统性的推理分割研究

损失函数 / 训练策略¶

遵循标准的 LISA 框架训练范式，使用 mask token 和 embedding-as-mask 解码器。支持 SFT 微调模式。

实验关键数据¶

主实验¶

模型	Attribute gIoU	Scene gIoU	Spatial gIoU
LISA-13B (zero-shot)	52.65	47.08	42.85
PixelLM-7B (zero-shot)	46.87	43.07	41.28
LISA-7B (SFT)	59.22	54.45	57.33
PixDLM (Ours)	62.80	61.75	62.51

消融实验¶

配置	Attr gIoU	Scene gIoU	Spatial gIoU
DRSeg + RRSIS-D + CoT	61.13	55.60	60.55
DRSeg + CoT（无 RRSIS-D）	62.80	61.75	62.51
DRSeg（无 CoT）	62.51	61.67	61.98

关键发现¶

PixDLM 在三种推理维度上均显著超越 zero-shot 和 SFT 基线，场景推理提升尤为显著（+7.3 vs SFT LISA）
混合 RRSIS-D 数据反而降低了性能，说明无人机专用数据的领域适配更重要
CoT 推理监督带来的提升相对有限，模型对噪声推理链具有鲁棒性

亮点与洞察¶

任务定义清晰：将 UAV 推理分割的语义需求系统化为空间/属性/场景三个维度，为后续研究提供了清晰的框架
数据构建流程成熟：GPT-5 + 人工审核的半自动标注流程在保证质量的同时具有较好的可扩展性
双路径设计简洁有效：利用现成的 CLIP 和 SAM 编码器组合，避免从头训练高分辨率编码器

局限与展望¶

58% 的实例属于小目标（面积 < 2%），模型在极端小目标上的性能仍有较大提升空间
每张图像仅标注一个目标实例，无法评估多目标推理场景
双路径编码器的计算开销较大，对于实时无人机应用可能不够高效
数据集规模（10K）相对有限，更大规模的数据可能进一步提升性能

评分¶

新颖性: ⭐⭐⭐⭐ 首次正式定义 UAV 推理分割任务，数据集和任务定义有开创性
实验充分度: ⭐⭐⭐⭐ 多基线对比全面，消融设计合理
写作质量: ⭐⭐⭐⭐ 任务定义和数据构建描述详细清晰
价值: ⭐⭐⭐⭐ 为无人机视觉理解提供了重要的基准和基线