LawDIS: Language-Window-based Controllable Dichotomous Image Segmentation¶

会议: ICCV 2025
arXiv: 2508.01152
代码: https://github.com/XinyuYanTJU/LawDIS (有)
领域: 分割
关键词: 二分图像分割, 扩散模型, 语言控制, 窗口细化, 高分辨率分割

一句话总结¶

提出LawDIS，一种基于Stable Diffusion的语言-窗口双控可控二分图像分割框架，在宏观模式下通过语言提示指导目标分割，在微观模式下通过可变尺寸窗口精细化局部细节，在DIS5K上全面超越11种SOTA方法。

研究背景与动机¶

二分图像分割（Dichotomous Image Segmentation, DIS）旨在从高分辨率图像中精确分割前景目标，要求捕捉物体的精细结构和内部细节，是3D重建、图像编辑、AR等应用的基础。

现有DIS方法的局限：

语义模糊性：当图像中存在多个前景实体时，判别式方法（per-pixel分类）无法让用户指定要分割哪个目标
分辨率受限：多数方法通过下采样到1024px来处理高分辨率图像，但无限放大输入计算不可行
缺乏局部细化能力：一些方法（如MVANet）将图像切成固定大小patch，但在推理时遇到不同patch大小就会失败
无交互性：现有方法输出固定结果，用户无法根据需求调整

核心思路：将DIS重新定义为基于潜在扩散模型（Latent Diffusion Model）的图像条件mask生成任务，天然支持各种用户控制信号的接入。

方法详解¶

整体框架¶

LawDIS基于Stable Diffusion v2，通过一个模式切换器（Mode Switcher）支持两种控制模式：

宏观模式（Macro Mode）：语言控制分割——用户输入语言提示指定要分割的目标
微观模式（Micro Mode）：窗口控制细化——用户指定局部窗口区域进行精细化

两种模式可独立运行或联合使用。

关键设计¶

1. 生成式范式（Generative Formulation）

将DIS建模为条件去噪扩散：对分割mask的潜在表示做前向加噪和反向去噪 - 输入图像x通过VAE编码为潜在表示作为条件 - 分割mask编码后加噪，由UNet预测噪声 - 使用TCD（Trajectory Consistency Distillation）调度器实现单步去噪，大幅提升效率

2. 模式切换器（Mode Switcher）

一维向量通过位置编码后加到扩散模型的时间嵌入上
不同值激活不同模式（宏观或微观）
训练时两种模式联合优化同一个UNet

3. 语言控制分割（宏观模式）

语言提示由VLM生成或用户自定义
通过CLIP编码为控制嵌入，通过cross-attention注入UNet
损失函数为标准扩散去噪目标

4. 窗口控制细化（微观模式）

从初始分割结果中裁剪不满意区域作为refine窗口
关键创新：用初始分割的局部mask（而非高斯噪声）作为扩散起点，间接传递全局上下文
使用空提示，裁剪的局部patch上采样到模型输入尺寸
细化结果替换回初始分割图的对应位置

5. VAE Decoder微调

冻结VAE Encoder和UNet，仅微调Decoder
添加Encoder-Decoder跳跃连接
输出通道从3改为1（用于mask），权重通过通道平均初始化

损失函数 / 训练策略¶

UNet训练：L_u = L_macro + L_micro（联合训练）
VAE Decoder训练：L_d = L_wbce + L_wiou（wBCE + wIoU）
UNet训练30K iterations，VAE Decoder训练6K iterations
batch size=32，Adam optimizer，lr=3e-5
所有输入统一resize到1024x1024
使用DDPM 1000步训练UNet，TCD单步调度训练Decoder

实验关键数据¶

主实验¶

DIS5K测试集（DIS-TE，2000张图），与11种方法对比：

方法	F_beta_w	F_beta_mx	MAE	S_alpha	E_phi_mn
BiRefNet'24	0.858	0.896	0.035	0.901	0.934
MVANet'24	0.862	0.907	0.034	0.909	0.938
Ours-S (仅语言)	0.898	0.929	0.027	0.925	0.955
Ours-R (语言+窗口)	0.908	0.932	0.024	0.926	0.959

在DIS-TE1上，Ours-S比MVANet的F_beta_w提升6.6%，Ours-R提升7.0%。

消融实验¶

DIS-TE4子集上的消融：

配置	F_beta_mx	MAE	S_alpha	E_phi_mn
Baseline (vanilla SD)	0.904	0.047	0.904	0.916
w/o micro训练	0.912	0.037	0.909	0.943
w/o VAE Decoder微调	0.919	0.040	0.915	0.933
Full Ours-S	0.926	0.032	0.920	0.955

微观模式效果（DIS-TE4）：

配置	F_beta_w	MAE	BIoU_m	HCE
Ours-S (baseline)	0.890	0.032	0.795	2481
从噪声初始化	-4.7%	+1.9%	-7.1%	-863
自动窗口选择	+1.7%	-0.5%	+2.9%	-767
半自动窗口选择	+2.0%	-0.6%	+3.2%	-871

关键发现¶

从扩散潜在表示初始化比从噪声初始化好得多（F_beta_w差4.7%），证明从初始分割传递全局上下文是必要的
联合训练两种模式比单独训练宏观模式更好（互相增强几何表示能力）
VAE Decoder微调是必要的——不微调时MAE从0.032上升到0.040
即使完全自动的窗口选择也能有效改善分割质量，用户交互不是必须的
语言提示在训练和测试时都使用效果最好

亮点与洞察¶

将DIS从判别式重新定义为生成式任务，开辟了全新的方法论路径
模式切换器的设计极其优雅：仅一个一维向量就能控制同一UNet在两种模式间切换
用初始分割结果而非噪声初始化微观模式的扩散过程，是传递跨尺度上下文的关键技巧
语言控制让DIS首次具备了交互性和个性化能力
TCD单步去噪使得基于扩散的方法在效率上实用化

局限性 / 可改进方向¶

依赖VLM生成语言提示，提示质量直接影响分割效果
微观模式需要用户或自动算法选择窗口位置，增加了交互复杂度
基于Stable Diffusion v2的架构，模型参数量大、推理仍比判别式方法慢
统一resize到1024x1024处理可能在超高分辨率图像上损失细节
DIS5K benchmark仅225个语义类别，更广泛场景下的泛化性待验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 将DIS重定义为条件扩散生成，双控模式设计原创性强
实验充分度: ⭐⭐⭐⭐⭐ — DIS5K全面对比11种方法，消融详尽，定性对比清晰
写作质量: ⭐⭐⭐⭐ — 方法描述清楚，图示直观
价值: ⭐⭐⭐⭐⭐ — 为DIS引入交互性和可控性，开辟新方向，刷新全指标SOTA