Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation¶

会议: AAAI 2026 (Oral)
arXiv: 2602.15383
代码: 暂无
领域: 图像翻译 / 域适应 / 目标检测
关键词: 日夜转换, 幻觉抑制, Schrödinger Bridge, SAM2伪标签, 原型对比学习

一句话总结¶

首次系统性解决无配对日→夜图像翻译中的"目标类幻觉"问题，通过双头判别器（风格头+SAM2伪标签分割头）检测幻觉 + 类原型对比学习抑制幻觉，在BDD100K日夜域适应检测上将mAP从15.08提升到17.40（+15.5%），交通灯AP提升31.7%。

研究背景与动机¶

领域现状：日→夜无配对图像翻译是自动驾驶域适应的关键技术。现有方法包括CycleGAN、CUT等GAN方法和UNSB等扩散方法，以及引入bbox标注的实例感知方法（INIT、DUNIT、MGUIT、InstaFormer）。
现有痛点：现有翻译方法存在严重的"目标类幻觉"问题——翻译到夜间场景时，生成器会在背景区域错误合成看起来像交通灯、车灯、尾灯的光效。实例感知方法虽改善了bbox内的翻译质量，但完全忽略了bbox外背景区域的语义一致性。
核心矛盾：传统判别器只关注"风格是否像夜间"，而夜间的光效特征恰好和目标类（交通灯、车灯）的视觉特征高度相似。判别器反而"奖励"了幻觉——生成更多类似灯光的伪影会让图像看起来更像真正的夜景。
本文要解决什么：(a) 如何在只有bbox标注（没有像素级标注）的条件下精确定位幻觉像素？(b) 如何在特征空间层面约束背景与前景的语义边界？(c) 如何在翻译的中间过程就进行干预而非事后修复？
切入角度：利用SAM2基础模型从bbox生成伪分割标签，实现像素级幻觉检测；用类原型作为语义锚点，通过对比学习在特征空间抑制幻觉。
核心idea一句话：在Schrödinger Bridge多步翻译框架中嵌入"幻觉检测+幻觉抑制"双机制——双头判别器找到幻觉在哪里，原型对比学习把幻觉特征推离目标类。

方法详解¶

整体框架¶

基于UNSB的Schrödinger Bridge多步翻译框架。输入白天图像 \(x_0\) → 多步马尔可夫链渐进翻译（每步混合当前状态+预测目标+高斯噪声）→ 中间步预测图像送入双头判别器检测幻觉 → 检测到的幻觉特征通过原型对比学习推离目标类原型 → 输出语义一致的夜间图像 \(x_{t_N}\)。

关键设计¶

Schrödinger Bridge多步翻译:
做什么：将日→夜翻译建模为马尔可夫链，逐步从源域过渡到目标域
核心思路：给定时间分区 \(\{t_j\}_{j=0}^N\)，每步先用神经网络预测目标域图像 \(x_1(x_{t_j})\)，再通过混合公式生成下一状态：\(x_{t_{j+1}} = s_{j+1} x_1(x_{t_j}) + (1-s_{j+1}) x_{t_j} + \sigma_{j+1} \epsilon\)，其中 \(s_{j+1}\) 控制插值比例
设计动机：多步翻译减小了单步域差距，允许在中间步就做幻觉检测和抑制，而非一步到位后才发现问题
双头判别器（幻觉感知判别器）:
做什么：同时评估全局风格真实性和像素级语义分割，检测哪些像素是幻觉
核心思路：共享冻结的Hiera-T（SAM2视觉backbone）编码器 \(D_{enc}\)。风格头 \(D_{sty}\) 评估全局风格是否像夜间；分割头 \(D_{seg}\)（UNet解码器）做像素级语义分割，识别哪些像素属于目标类。分割头用SAM2生成的伪分割标签训练——用bbox提示SAM2生成实例mask，10%放大bbox二次确认（IoU>0.9保留）
设计动机：传统判别器只看风格会奖励幻觉。加入分割头后，判别器能区分"真实的夜间目标"和"生成的假目标"，解决了信息对称性问题
幻觉损失 \(\mathcal{L}_{hl}\):
做什么：在bbox外的背景区域惩罚任何被预测为目标类的像素
核心思路：\(\mathcal{L}_{hl} = \frac{1}{|S_{bg}|} \sum_{(w,h) \in S_{bg}} \sum_{c=1}^{C} (\text{softmax}(\hat{S})_{cwh})^2\)，对背景区域中所有前景类预测概率做平方惩罚
设计动机：直接从分割预测中定位并惩罚背景中的目标类激活，是最直接的幻觉抑制信号
类原型对比抑制:
做什么：在特征空间层面将幻觉特征推离目标类原型
核心思路：为每个目标类 \(c\) 构建原型 \(p_c\)（EMA更新的类均值特征向量），来自目标域真实标注实例。幻觉像素特征作anchor，源图像对应位置特征作positive，其他位置+类原型作negative。InfoNCE loss：\(\mathcal{L}_{supp} = -\log \frac{\exp(\hat{\mathbf{v}} \cdot \mathbf{v}^+ / \tau)}{\exp(\hat{\mathbf{v}} \cdot \mathbf{v}^+ / \tau) + \sum_n \exp(\hat{\mathbf{v}} \cdot \mathbf{v}_n^- / \tau) + \text{PDist}}\)
设计动机：幻觉损失只在输出空间做监督，原型对比在特征空间建立语义边界，两者互补。EMA原型解决了类别在单batch中可能缺失的问题

损失函数 / 训练策略¶

总损失：\(\mathcal{L}_{total} = \lambda_1 \mathcal{L}_{adv} + \lambda_2 \mathcal{L}_{SB} + \lambda_3 \mathcal{L}_{seg} + \lambda_4 \mathcal{L}_{cont} + \lambda_5 \mathcal{L}_{supp} + \lambda_6 \mathcal{L}_{hl}\)，其中 \(\lambda_1\)-\(\lambda_5=1\)，\(\lambda_6=0.2\)。训练100 epoch，8×RTX 3090，Adam优化器，batch size 8，学习率0.0001。

实验关键数据¶

主实验¶

方法	mAP	Person	Car	T. Light	T. Sign
Lower Bound (日间训练)	13.75	12.99	25.21	8.28	18.55
CUT	14.10	14.13	28.31	5.36	19.19
UNSB	14.27	14.65	28.35	5.93	14.88
MGUIT	15.08	14.52	27.48	6.18	18.83
InstaFormer	14.93	14.04	27.25	6.33	18.19
Ours	17.40	15.35	30.01	8.55	22.01
Upper Bound (夜间训练)	17.86	14.43	32.59	11.93	23.83

消融实验¶

配置	mAP	T. Light AP	说明
w/o \(\mathcal{L}_{hl}\) & \(\mathcal{L}_{supp}\)	14.11	5.48	基线，无幻觉抑制
w/o \(\mathcal{L}_{supp}\)	15.55	7.01	只有分割检测，无特征抑制
w/o \(\mathcal{L}_{hl}\)	16.43	7.45	只有特征抑制，无像素惩罚
Full model	17.40	8.55	两者结合，效果最佳

关键发现¶

两个幻觉抑制组件互补：\(\mathcal{L}_{hl}\) 在输出空间做监督，\(\mathcal{L}_{supp}\) 在特征空间做约束，合体后mAP比单独使用分别高1.85和0.97
交通灯类别最受益于幻觉抑制（AP从5.48→8.55），因为这类最容易被错误合成
方法几乎达到了Upper Bound（17.40 vs 17.86），证明幻觉抑制的有效性
在KITTI→Cityscapes跨数据集和跨天气任务上也达到SOTA

亮点与洞察¶

问题定义开创性：首次系统性定义和量化"目标类幻觉"问题，此前被所有方法忽视。巧妙之处在于发现判别器的风格评估本身就是幻觉的"帮凶"
SAM2伪标签妙用：用bbox提示SAM2生成像素级伪标签，优雅解决了"有bbox无分割标注"的瓶颈，10%放大二次确认机制提升标签质量
中间步干预：利用Schrödinger Bridge的多步特性在翻译过程中就抑制幻觉，比事后修复更高效。这种"过程中监督"的思路可迁移到其他多步生成任务

局限性 / 可改进方向¶

仅针对有bbox标注的目标检测类别做幻觉抑制，对其他语义类别（如道路标线、建筑纹理）的幻觉未处理
依赖SAM2的分割质量，在极端光照或遮挡场景下SAM2本身可能失效
EMA原型对类内变化较大的类别（如不同型号车辆）可能不够精细，可考虑多原型或聚类方法
可扩展到其他域适应场景（如晴→雨、仿真→真实）

评分¶

新颖性: ⭐⭐⭐⭐ 问题定义新颖，技术组合合理但非革命性
实验充分度: ⭐⭐⭐⭐ 多数据集评估+详细消融+定性分析
写作质量: ⭐⭐⭐⭐ 问题动机清晰，图示直观
价值: ⭐⭐⭐⭐ 对域适应社区有实际意义，幻觉问题的解法可推广