Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation¶
会议: AAAI 2026 (Oral)
arXiv: 2602.15383
代码: 暂无
领域: 图像翻译 / 域适应 / 目标检测
关键词: 日夜转换, 幻觉抑制, Schrödinger Bridge, SAM2伪标签, 原型对比学习
一句话总结¶
首次系统性解决无配对日→夜图像翻译中的"目标类幻觉"问题,通过双头判别器(风格头+SAM2伪标签分割头)检测幻觉 + 类原型对比学习抑制幻觉,在BDD100K日夜域适应检测上将mAP从15.08提升到17.40(+15.5%),交通灯AP提升31.7%。
研究背景与动机¶
-
领域现状:日→夜无配对图像翻译是自动驾驶域适应的关键技术。现有方法包括CycleGAN、CUT等GAN方法和UNSB等扩散方法,以及引入bbox标注的实例感知方法(INIT、DUNIT、MGUIT、InstaFormer)。
-
现有痛点:现有翻译方法存在严重的"目标类幻觉"问题——翻译到夜间场景时,生成器会在背景区域错误合成看起来像交通灯、车灯、尾灯的光效。实例感知方法虽改善了bbox内的翻译质量,但完全忽略了bbox外背景区域的语义一致性。
-
核心矛盾:传统判别器只关注"风格是否像夜间",而夜间的光效特征恰好和目标类(交通灯、车灯)的视觉特征高度相似。判别器反而"奖励"了幻觉——生成更多类似灯光的伪影会让图像看起来更像真正的夜景。
-
本文要解决什么:(a) 如何在只有bbox标注(没有像素级标注)的条件下精确定位幻觉像素?(b) 如何在特征空间层面约束背景与前景的语义边界?(c) 如何在翻译的中间过程就进行干预而非事后修复?
-
切入角度:利用SAM2基础模型从bbox生成伪分割标签,实现像素级幻觉检测;用类原型作为语义锚点,通过对比学习在特征空间抑制幻觉。
-
核心idea一句话:在Schrödinger Bridge多步翻译框架中嵌入"幻觉检测+幻觉抑制"双机制——双头判别器找到幻觉在哪里,原型对比学习把幻觉特征推离目标类。
方法详解¶
整体框架¶
基于UNSB的Schrödinger Bridge多步翻译框架。输入白天图像 \(x_0\) → 多步马尔可夫链渐进翻译(每步混合当前状态+预测目标+高斯噪声)→ 中间步预测图像送入双头判别器检测幻觉 → 检测到的幻觉特征通过原型对比学习推离目标类原型 → 输出语义一致的夜间图像 \(x_{t_N}\)。
关键设计¶
- Schrödinger Bridge多步翻译:
- 做什么:将日→夜翻译建模为马尔可夫链,逐步从源域过渡到目标域
- 核心思路:给定时间分区 \(\{t_j\}_{j=0}^N\),每步先用神经网络预测目标域图像 \(x_1(x_{t_j})\),再通过混合公式生成下一状态:\(x_{t_{j+1}} = s_{j+1} x_1(x_{t_j}) + (1-s_{j+1}) x_{t_j} + \sigma_{j+1} \epsilon\),其中 \(s_{j+1}\) 控制插值比例
-
设计动机:多步翻译减小了单步域差距,允许在中间步就做幻觉检测和抑制,而非一步到位后才发现问题
-
双头判别器(幻觉感知判别器):
- 做什么:同时评估全局风格真实性和像素级语义分割,检测哪些像素是幻觉
- 核心思路:共享冻结的Hiera-T(SAM2视觉backbone)编码器 \(D_{enc}\)。风格头 \(D_{sty}\) 评估全局风格是否像夜间;分割头 \(D_{seg}\)(UNet解码器)做像素级语义分割,识别哪些像素属于目标类。分割头用SAM2生成的伪分割标签训练——用bbox提示SAM2生成实例mask,10%放大bbox二次确认(IoU>0.9保留)
-
设计动机:传统判别器只看风格会奖励幻觉。加入分割头后,判别器能区分"真实的夜间目标"和"生成的假目标",解决了信息对称性问题
-
幻觉损失 \(\mathcal{L}_{hl}\):
- 做什么:在bbox外的背景区域惩罚任何被预测为目标类的像素
- 核心思路:\(\mathcal{L}_{hl} = \frac{1}{|S_{bg}|} \sum_{(w,h) \in S_{bg}} \sum_{c=1}^{C} (\text{softmax}(\hat{S})_{cwh})^2\),对背景区域中所有前景类预测概率做平方惩罚
-
设计动机:直接从分割预测中定位并惩罚背景中的目标类激活,是最直接的幻觉抑制信号
-
类原型对比抑制:
- 做什么:在特征空间层面将幻觉特征推离目标类原型
- 核心思路:为每个目标类 \(c\) 构建原型 \(p_c\)(EMA更新的类均值特征向量),来自目标域真实标注实例。幻觉像素特征作anchor,源图像对应位置特征作positive,其他位置+类原型作negative。InfoNCE loss:\(\mathcal{L}_{supp} = -\log \frac{\exp(\hat{\mathbf{v}} \cdot \mathbf{v}^+ / \tau)}{\exp(\hat{\mathbf{v}} \cdot \mathbf{v}^+ / \tau) + \sum_n \exp(\hat{\mathbf{v}} \cdot \mathbf{v}_n^- / \tau) + \text{PDist}}\)
- 设计动机:幻觉损失只在输出空间做监督,原型对比在特征空间建立语义边界,两者互补。EMA原型解决了类别在单batch中可能缺失的问题
损失函数 / 训练策略¶
总损失:\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{adv} + \lambda_2 \mathcal{L}_{SB} + \lambda_3 \mathcal{L}_{seg} + \lambda_4 \mathcal{L}_{cont} + \lambda_5 \mathcal{L}_{supp} + \lambda_6 \mathcal{L}_{hl}\),其中 \(\lambda_1\)-\(\lambda_5=1\),\(\lambda_6=0.2\)。训练100 epoch,8×RTX 3090,Adam优化器,batch size 8,学习率0.0001。
实验关键数据¶
主实验¶
| 方法 | mAP | Person | Car | T. Light | T. Sign |
|---|---|---|---|---|---|
| Lower Bound (日间训练) | 13.75 | 12.99 | 25.21 | 8.28 | 18.55 |
| CUT | 14.10 | 14.13 | 28.31 | 5.36 | 19.19 |
| UNSB | 14.27 | 14.65 | 28.35 | 5.93 | 14.88 |
| MGUIT | 15.08 | 14.52 | 27.48 | 6.18 | 18.83 |
| InstaFormer | 14.93 | 14.04 | 27.25 | 6.33 | 18.19 |
| Ours | 17.40 | 15.35 | 30.01 | 8.55 | 22.01 |
| Upper Bound (夜间训练) | 17.86 | 14.43 | 32.59 | 11.93 | 23.83 |
消融实验¶
| 配置 | mAP | T. Light AP | 说明 |
|---|---|---|---|
| w/o \(\mathcal{L}_{hl}\) & \(\mathcal{L}_{supp}\) | 14.11 | 5.48 | 基线,无幻觉抑制 |
| w/o \(\mathcal{L}_{supp}\) | 15.55 | 7.01 | 只有分割检测,无特征抑制 |
| w/o \(\mathcal{L}_{hl}\) | 16.43 | 7.45 | 只有特征抑制,无像素惩罚 |
| Full model | 17.40 | 8.55 | 两者结合,效果最佳 |
关键发现¶
- 两个幻觉抑制组件互补:\(\mathcal{L}_{hl}\) 在输出空间做监督,\(\mathcal{L}_{supp}\) 在特征空间做约束,合体后mAP比单独使用分别高1.85和0.97
- 交通灯类别最受益于幻觉抑制(AP从5.48→8.55),因为这类最容易被错误合成
- 方法几乎达到了Upper Bound(17.40 vs 17.86),证明幻觉抑制的有效性
- 在KITTI→Cityscapes跨数据集和跨天气任务上也达到SOTA
亮点与洞察¶
- 问题定义开创性:首次系统性定义和量化"目标类幻觉"问题,此前被所有方法忽视。巧妙之处在于发现判别器的风格评估本身就是幻觉的"帮凶"
- SAM2伪标签妙用:用bbox提示SAM2生成像素级伪标签,优雅解决了"有bbox无分割标注"的瓶颈,10%放大二次确认机制提升标签质量
- 中间步干预:利用Schrödinger Bridge的多步特性在翻译过程中就抑制幻觉,比事后修复更高效。这种"过程中监督"的思路可迁移到其他多步生成任务
局限性 / 可改进方向¶
- 仅针对有bbox标注的目标检测类别做幻觉抑制,对其他语义类别(如道路标线、建筑纹理)的幻觉未处理
- 依赖SAM2的分割质量,在极端光照或遮挡场景下SAM2本身可能失效
- EMA原型对类内变化较大的类别(如不同型号车辆)可能不够精细,可考虑多原型或聚类方法
- 可扩展到其他域适应场景(如晴→雨、仿真→真实)
相关工作与启发¶
- vs InstaFormer: InstaFormer用Transformer编码器改善bbox内翻译+对比学习,但完全不管bbox外背景。本文通过双头判别器补上了这个盲区
- vs CUT: CUT用对比学习做风格迁移但缺乏目标级约束。本文的\(\mathcal{L}_{supp}\)也用InfoNCE但目标完全不同——不是保持风格一致性而是抑制幻觉
- vs UNSB: 直接在UNSB框架上增加幻觉检测/抑制模块,证明多步翻译框架比单步方法更适合嵌入中间监督
评分¶
- 新颖性: ⭐⭐⭐⭐ 问题定义新颖,技术组合合理但非革命性
- 实验充分度: ⭐⭐⭐⭐ 多数据集评估+详细消融+定性分析
- 写作质量: ⭐⭐⭐⭐ 问题动机清晰,图示直观
- 价值: ⭐⭐⭐⭐ 对域适应社区有实际意义,幻觉问题的解法可推广