HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images¶
会议: CVPR 2026 arXiv: 2603.02210 代码: 项目页面 领域: 扩散模型/图像生成 关键词: 参考图像修复, 高保真细节保持, 人-产品图像生成, 高频信息引导, DiT
一句话总结¶
提出 HiFi-Inpaint 框架,通过共享增强注意力(SEA)利用高频信息增强产品细节特征,结合细节感知损失(DAL)实现像素级高频监督,在人-产品图像生成中达到 SOTA 的细节保真度。
研究背景与动机¶
人-产品图像(展示人与产品交互的图像)在广告、电商和数字营销中至关重要。生成此类图像的核心挑战是高保真保持产品细节——形状、颜色、花纹、文字等必须精准还原,微小偏差会影响消费者信任。
现有方法存在三个局限: 1. 数据不足:缺乏大规模、多样化的人-产品图像训练数据 2. 细节保持弱:现有模型(如图像定制、文本编辑)侧重全局/高层语义,难以稳健保持细粒度细节;扩散模型的去噪过程倾向于"平均化"或"幻觉"内容 3. 监督粗糙:仅依赖隐空间 MSE 损失,无法提供精确的像素级细节引导
参考图像修复(Reference-based Inpainting)通过产品参考图引导修复过程,但已有方法(Paint-by-Example、ACE++、Insert Anything)仍无法在纹理、形状、品牌元素等方面做到高保真。
方法详解¶
整体框架¶
HiFi-Inpaint 基于 FLUX.1-Dev(MMDiT 架构),输入为文本提示 \(T\)、遮罩人像 \(\mathbf{I}_h\) 和产品参考图 \(\mathbf{I}_p\),输出将产品无缝融入遮罩区域的图像 \(\mathbf{I}_g\)。框架包含三大创新:HP-Image-40K 数据集、高频图引导的 DiT 框架(含 SEA)、以及细节感知损失(DAL)。
关键设计¶
-
HP-Image-40K 数据集构建: 通过 FLUX.1-Dev 生成双联画格式图像(左产品/右人-产品),再经 Sobel 边缘检测分割、YOLOv8+CLIP 语义过滤(计算裁剪产品区域与参考图的 CLIP 相似度)、InternVL 文字一致性过滤,最终获得 40,000+ 高质量样本。每个样本包含文本描述、遮罩人像、产品图和目标图。这种自合成+自动过滤的方式以最小人工干预获取大规模多样数据。
-
高频图引导 DiT + 共享增强注意力(SEA):
- 高频提取:通过 DFT 将图像变换到频域,用圆形掩码(半径 \(r\))的高通滤波器抑制低频分量,再逆 DFT 回空域,获得突出纹理、文字、Logo 等细节的高频图 \(H(\mathbf{I}_p)\)(比 Canny 边缘检测更聚焦关键细节)
- Token 合并机制:将遮罩人像、产品图与噪声目标图的 VAE 编码 token 拼接为联合视觉 token:\(\mathbf{z}_0 = \text{Concat}(\mathcal{E}(\mathbf{I}_h), \mathcal{E}(\mathbf{I}_p), N(\mathcal{E}(\mathbf{I}_{gt}), t))\);同时构建高频视觉 token \(\mathbf{z}_0' = \text{Concat}(\mathcal{E}(\mathbf{I}_h), \mathcal{E}(H(\mathbf{I}_p)), N(\mathcal{E}(\mathbf{I}_{gt}), t))\)
-
SEA 核心公式:在每个双流 DiT 块中,添加共享参数的高频分支,通过可学习权重 \(\alpha_i\) 将高频特征融合到原始特征中(仅在遮罩区域内),增强产品的细粒度特征: $\(\mathbf{z}_i = B_i(\mathbf{z}_{i-1}) + \alpha_i \cdot \text{Mask}(B_i(\mathbf{z}_{i-1}'), \mathbf{M}_{ds})\)$ SEA 利用参数共享机制,仅引入每层一个额外参数 \(\alpha_i\),保持模型紧凑性。可学习的 \(\alpha_i\) 比固定为 1 效果更好(避免视觉伪影和冲突)。
-
细节感知损失(DAL): 针对隐空间 MSE 损失难以精确监督细粒度细节的问题,DAL 在像素空间对遮罩区域的高频分量施加 L2 监督: $\(\mathcal{L}_{\text{DA}} = \|H(\hat{\mathbf{I}}_{gt}) \odot \mathbf{M} - H(\mathbf{I}_{gt}) \odot \mathbf{M}\|_2^2\)$ 其中 \(H(\cdot)\) 为高频提取,\(\mathbf{M}\) 为遮罩区域。DAL 迫使模型关注高频细节的重建,弥补隐空间损失的不足。
损失函数 / 训练策略¶
总损失为隐空间 MSE 损失与像素级 DAL 之和:
使用 flow matching 训练,学习率 \(5 \times 10^{-5}\),batch size 24,训练 10,000 步,图像分辨率 \(1024 \times 576\)。训练数据为约 14,000 内部样本 + HP-Image-40K。
实验关键数据¶
主实验¶
在 HP-Image-40K 的 1,000 测试集上评估(\(1024 \times 576\) 分辨率):
| 方法 | CLIP-T↑(%) | CLIP-I↑(%) | DINO↑(%) | SSIM↑(%) | SSIM-HF↑(%) | LAION-Aes↑ | Q-Align-IQ↑ |
|---|---|---|---|---|---|---|---|
| Paint-by-Example | 31.6 | 69.1 | 63.4 | 54.0 | 34.9 | 4.09 | 4.06 |
| ACE++ | 34.9 | 93.1 | 90.7 | 58.3 | 37.2 | 4.18 | 4.00 |
| Insert Anything | 35.3 | 94.1 | 89.8 | 62.1 | 40.0 | 4.20 | 3.89 |
| FLUX-Kontext | 36.6 | 82.5 | 63.1 | 51.6 | 32.0 | 4.54 | 3.74 |
| HiFi-Inpaint | 36.1 | 95.0 | 91.9 | 63.4 | 42.9 | 4.40 | 4.36 |
在视觉一致性(CLIP-I、DINO、SSIM、SSIM-HF)和图像质量(Q-Align-IQ)上均达到最佳。
消融实验¶
| 方案 | Syn.Data | DAL | SEA | CLIP-I↑(%) | DINO↑(%) | SSIM↑(%) | SSIM-HF↑(%) | 说明 |
|---|---|---|---|---|---|---|---|---|
| A | ✗ | ✗ | ✗ | 91.8 | 85.4 | 57.7 | 38.4 | 基线 |
| B | ✓ | ✗ | ✗ | 94.5 | 89.9 | 62.4 | 41.2 | +数据集, 大幅提升 |
| C | ✓ | ✓ | ✗ | 94.6 | 90.7 | 62.3 | 41.8 | +DAL, 细节指标提升 |
| E | ✓ | ✓ | ✓ | 95.0 | 91.9 | 63.4 | 42.9 | 全部组件, 最佳 |
关键发现¶
- 数据集贡献最大:HP-Image-40K 带来了最显著的性能提升(A→B: DINO +4.5, SSIM +4.7)
- SEA 对细节至关重要:C→E 在所有一致性指标上持续提升,定性结果显示 SEA 使纹理和花纹对齐更精确
- DAL 专注细节:B→C 中 SSIM-HF 提升 0.6,说明 DAL 有效引导高频细节重建
- 用户研究(31人/11组):HiFi-Inpaint 在文本对齐(36.4%)、视觉一致性(41.5%)、生成质量(39.5%)三项偏好率均远超其他方法
- FLUX-Kontext 表现差:通用指令编辑方式难以建立参考图与遮罩区域的有效关联,常生成独立产品图而非合成图
亮点与洞察¶
- 高频信息的巧妙利用:从频域提取高频图并贯穿于整个框架——作为额外分支的输入(SEA)和像素级监督的目标(DAL),形成一套完整的"高频增强"体系
- 参数高效的 SEA 设计:共享双流 DiT 块参数,仅引入一个可学习标量 \(\alpha_i\),无额外网络参数开销
- 自合成数据管线实用:利用 FLUX.1-Dev 的一致性生成能力 + 多重自动过滤,低成本构建大规模高质量数据
- SSIM-HF 新指标:对生成图施加高通滤波后再计算 SSIM,能更精准评估细节保持能力
局限性 / 可改进方向¶
- 仅针对人-产品场景,对更通用的参考图修复(如场景替换、多物体组合)的泛化性未验证
- HP-Image-40K 基于 FLUX.1-Dev 合成,可能存在生成偏差,与真实数据的差距未充分分析
- 高频提取依赖固定半径 \(r\) 的圆形高通滤波器,不同产品类型可能需要自适应策略
- 推理效率未报告,SEA 的额外分支在推理时仍需前向传播
- 评估仅在自建测试集上进行,缺乏标准公开基准
相关工作与启发¶
- FLUX-Kontext 作为通用编辑模型在此场景表现很弱,说明参考修复任务需要专门的细节保持机制
- 高频监督思路可迁移到其他需要细节保持的生成任务(如纹理转移、虚拟试衣等)
- 自合成数据+自动过滤管线可推广到其他缺乏大规模训练数据的生成任务
- SEA 的共享参数+可学习权重设计思路通用性强,可应用于任何需要辅助信息增强的 DiT 框架
评分¶
- 新颖性: ⭐⭐⭐⭐ 高频信息在 DiT 框架中的系统化利用(SEA + DAL)是新颖且有效的设计
- 实验充分度: ⭐⭐⭐⭐ 7 个指标、4 个对比方法、完整消融、用户研究,定量定性结合充分
- 写作质量: ⭐⭐⭐⭐ 结构清晰,动机-方法-实验逻辑链完整
- 价值: ⭐⭐⭐⭐ 对电商/广告场景有直接应用价值,方法设计思路可迁移性强