Lightweight Optimal-Transport Harmonization on Edge Devices¶

会议: AAAI 2026
arXiv: 2511.12785
代码: github
领域: 模型压缩
关键词: 颜色协调, 最优传输, 边缘设备, 增强现实, 轻量化推理

一句话总结¶

提出 MKL-Harmonizer，利用经典最优传输理论中的 Monge-Kantorovich 线性映射（MKL），训练一个轻量级编码器预测 12 维颜色变换参数，实现边缘设备上的实时图像颜色协调，在 AR 场景的感知质量-速度综合指标上达到最优。

研究背景与动机¶

领域现状¶

图像颜色协调（Image Harmonization）旨在调整合成图像中前景物体的颜色，使其与背景在视觉感知上保持一致。现有方法主要基于深度学习的密集预测模型（如 DoveNet、RainNet），虽然效果好，但计算和内存需求大，主要局限于 256×256 低分辨率输入。

现有痛点¶

计算资源要求高：密集预测模型（encoder-decoder 架构）无法在移动 GPU、XR 头显等边缘设备上实时运行

AR 场景缺乏支持：ARKit、ARCore 等主流 AR 平台仅依赖光照估计（方向光、环境图、球谐光照），缺少先进的颜色协调

曝光偏差问题：标准训练数据集（如 iHarmony4）中的 mask 包含边界处的背景像素泄漏，模型会过度依赖这些信息。而 AR 场景中渲染引擎提供像素精确的 mask，导致训练-推理不匹配

AR 评测数据稀缺：不存在带像素精确 mask 的真实 AR 合成图像数据集

核心矛盾¶

颜色协调对 AR 真实感至关重要，但现有方法在延迟和计算量上无法满足实时 AR 要求。

切入角度与核心 idea¶

颜色协调本质上是一个颜色分布映射问题。当源和目标颜色分布近似为多元高斯分布时，最优传输映射有闭式线性解——Monge-Kantorovich 线性（MKL）滤波器，仅需 12 个参数（3×3 矩阵 A + 3 维偏移 S）。作者提出训练一个紧凑的编码器来预测这 12 个参数，从而实现极其轻量且快速的推理。

方法详解¶

整体框架¶

输入 4 通道（RGB + mask）的合成图像 → EfficientNet-B0 编码器 → 输出 12 维向量 [A, S] → 构造 MKL 滤波器 → 对前景像素应用仿射颜色变换 → 输出协调后图像。

关键设计¶

最优传输理论基础:
- 将颜色协调建模为从源分布 π₀ 到目标分布 π₁ 的传输映射问题
- 当两个分布近似高斯时，最优传输映射为闭式线性解：\(T^*_{im}(x) = \mu_1 + A(x - \mu_0)\)
- 其中 \(A = \Sigma_0^{-1/2}(\Sigma_0^{1/2}\Sigma_1\Sigma_0^{1/2})^{1/2}\Sigma_0^{-1/2}\)
- 设计动机：理想 MKL 滤波器在 iHarmony4 上 MSE 仅约 7.0，证明线性滤波器对大多数协调任务已足够
Ground-Truth 滤波器生成:
- 对 iHarmony4 中每张图像计算精确的 MKL 变换参数作为监督信号
- 将问题从预测协调后图像简化为预测 12 个滤波器参数
- 直接预测 [A, S] 而非 [μ₁, Σ₁]，实验表明对预测误差更鲁棒
理论误差分析:
- 给出了线性 MKL 映射近似非线性真实映射的误差上界
- \(\mathcal{E} \leq 2\mathcal{E}_{clip} + 2\mathcal{E}_{lin}\)
- \(\mathcal{E}_{lin} \leq 2B^2 + 2(\|A\|_{op} + L)^2 \cdot \text{tr}(\Sigma_0)\)
- 当真实映射平滑（小 Lipschitz 常数）且颜色分布不集中在色域边界时，线性近似有效
- 深色物体分布集中在色域角落，可能导致结果不佳
ARCore 评测数据集:
- 修改 ARCore 示例应用，构建数据采集工具
- 收集 327 对合成图-mask 对，涵盖室内外、不同时间和天气
- 所有 mask 直接从渲染引擎获得，像素精确
- 这是首个此类开源 AR 合成图像数据集

损失函数 / 训练策略¶

采用混合损失函数：

\[L_{total} = L_{labels} + \alpha \cdot L_{content}\]

标签损失：\(L_{labels} = \|\text{Model}(im) - [A, S]\|_1\)，使用 L1 而非 L2 损失
- L2 会迫使预测为所有可能 MKL 解的算术均值（可能对应无效滤波器）
- L1 允许收敛到更锋利的解
内容损失：\(L_{content} = \|M * X_0 - M * (X_0 \cdot A' + S')\|_1\)，逐像素 L1 损失
- 如果仅用内容损失，模型会学到接近恒等变换的滤波器（模式崩塌）
- 内容损失权重 α=10

编码器使用 EfficientNet-B0，输入 256×256，4 通道（RGB+mask），训练 210 个 epoch，Adam 优化器，学习率分段衰减，batch size 64。

实验关键数据¶

主实验¶

方法	MSE↓	PSNR↑	fMSE↓
Ideal Linear OT	7.6	43.6	45.9
PCT-Net	29.1	38.0	201
Harmonizer	40.1	36.6	258
Ours (L1)	65.0	34.1	438
INR	67.2	35.3	392
Unharmonized	182	31.0	984

方法	256×256	512×512	1024×2048	4096×4096
Ours	175.01	166.76	137.21	40.85
DoveNet	123.39	–	–	–
PCT-Net	104.57	98.65	63.74	11.84
Harmonizer	95.01	89.82	47.63	7.45
INR	6.35	3.22	0.81	0.12

消融实验¶

配置	关键指标	说明
Ours L1 损失	MSE=65.0	L1 损失整体更优
Ours L2 损失	MSE=66.3	L2 略差，但差异不大
仅内容损失	模式崩塌	模型学到恒等变换
预测 [μ₁, Σ₁]	更差	对预测误差不够鲁棒
预测 [A, S]	更好	直接预测滤波器参数更稳定

关键发现¶

感知质量：用户研究（20 名参与者，642 次评分）表明 MKL-Harmonizer 在真实 AR 数据上的感知质量与领先基线持平
速度-质量权衡：本方法同时具备最高感知得分和最快推理速度
边缘设备部署：在 Google Pixel 4a/7 上实现 12-15 fps，通过零拷贝优化可能达到 24-30 fps
曝光偏差：INR 在 MSE 指标上优于 PCT-Net，但人类评估中感知质量反而更差，说明 MSE 在 AR 场景不可靠
高分辨率优势：密集预测模型在高分辨率下产生退化（条纹、JPEG 伪影），而滤波器方法无此问题

亮点与洞察¶

将经典最优传输理论与深度学习巧妙结合，理论扎实且实用性强
首次提出并分析了图像协调中的"曝光偏差"问题，指出标准评估指标的不足
仅预测 12 个参数，模型极其轻量，开辟了滤波器参数预测的新思路
提供了完整的理论误差分析，证明线性映射的有效条件
构建了首个带像素精确 mask 的 AR 合成图像数据集

局限与展望¶

在 iHarmony4 标准指标上不如 SOTA（MSE 较高），但作者认为这是曝光偏差导致的指标失真
深色物体处理效果差（颜色分布集中于色域边界）
不适合视频协调（帧间预测可能跳变），目前仅用指数移动平均缓解
iHarmony4 存在高频伪影，作者清洗了数据集但未成为标准做法
仅在 EfficientNet-B0 上验证，可探索更高效的架构

评分¶

新颖性: ⭐⭐⭐⭐ (最优传输+编码器预测的组合虽新颖，但整体框架复杂度不高)
实验充分度: ⭐⭐⭐⭐ (iHarmony4+ARCore+用户研究+边缘部署，但标准指标偏弱)
写作质量: ⭐⭐⭐⭐⭐ (理论分析完整，动机清晰，数据集贡献有价值)
价值: ⭐⭐⭐⭐ (实际应用价值高，AR 场景需求明确)