HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images¶

会议: CVPR 2026 arXiv: 2603.02210 代码: 项目页面领域: 扩散模型/图像生成 关键词: 参考图像修复, 高保真细节保持, 人-产品图像生成, 高频信息引导, DiT

一句话总结¶

提出 HiFi-Inpaint 框架，通过共享增强注意力（SEA）利用高频信息增强产品细节特征，结合细节感知损失（DAL）实现像素级高频监督，在人-产品图像生成中达到 SOTA 的细节保真度。

研究背景与动机¶

人-产品图像（展示人与产品交互的图像）在广告、电商和数字营销中至关重要。生成此类图像的核心挑战是高保真保持产品细节——形状、颜色、花纹、文字等必须精准还原，微小偏差会影响消费者信任。

现有方法存在三个局限： 1. 数据不足：缺乏大规模、多样化的人-产品图像训练数据 2. 细节保持弱：现有模型（如图像定制、文本编辑）侧重全局/高层语义，难以稳健保持细粒度细节；扩散模型的去噪过程倾向于"平均化"或"幻觉"内容 3. 监督粗糙：仅依赖隐空间 MSE 损失，无法提供精确的像素级细节引导

参考图像修复（Reference-based Inpainting）通过产品参考图引导修复过程，但已有方法（Paint-by-Example、ACE++、Insert Anything）仍无法在纹理、形状、品牌元素等方面做到高保真。

方法详解¶

整体框架¶

HiFi-Inpaint 基于 FLUX.1-Dev（MMDiT 架构），输入为文本提示 $T$、遮罩人像 $\mathbf{I}_h$ 和产品参考图 $\mathbf{I}_p$，输出将产品无缝融入遮罩区域的图像 $\mathbf{I}_g$。框架包含三大创新：HP-Image-40K 数据集、高频图引导的 DiT 框架（含 SEA）、以及细节感知损失（DAL）。

关键设计¶

HP-Image-40K 数据集构建: 通过 FLUX.1-Dev 生成双联画格式图像（左产品/右人-产品），再经 Sobel 边缘检测分割、YOLOv8+CLIP 语义过滤（计算裁剪产品区域与参考图的 CLIP 相似度）、InternVL 文字一致性过滤，最终获得 40,000+ 高质量样本。每个样本包含文本描述、遮罩人像、产品图和目标图。这种自合成+自动过滤的方式以最小人工干预获取大规模多样数据。
高频图引导 DiT + 共享增强注意力（SEA）:
高频提取：通过 DFT 将图像变换到频域，用圆形掩码（半径 $r$）的高通滤波器抑制低频分量，再逆 DFT 回空域，获得突出纹理、文字、Logo 等细节的高频图 $H(\mathbf{I}_p)$（比 Canny 边缘检测更聚焦关键细节）
Token 合并机制：将遮罩人像、产品图与噪声目标图的 VAE 编码 token 拼接为联合视觉 token：$\mathbf{z}_0 = \text{Concat}(\mathcal{E}(\mathbf{I}_h), \mathcal{E}(\mathbf{I}_p), N(\mathcal{E}(\mathbf{I}_{gt}), t))$；同时构建高频视觉 token $\mathbf{z}_0' = \text{Concat}(\mathcal{E}(\mathbf{I}_h), \mathcal{E}(H(\mathbf{I}_p)), N(\mathcal{E}(\mathbf{I}_{gt}), t))$
SEA 核心公式：在每个双流 DiT 块中，添加共享参数的高频分支，通过可学习权重 $\alpha_i$ 将高频特征融合到原始特征中（仅在遮罩区域内），增强产品的细粒度特征： $$\mathbf{z}_i = B_i(\mathbf{z}_{i-1}) + \alpha_i \cdot \text{Mask}(B_i(\mathbf{z}_{i-1}'), \mathbf{M}_{ds})$$ SEA 利用参数共享机制，仅引入每层一个额外参数 $\alpha_i$，保持模型紧凑性。可学习的 $\alpha_i$ 比固定为 1 效果更好（避免视觉伪影和冲突）。
细节感知损失（DAL）: 针对隐空间 MSE 损失难以精确监督细粒度细节的问题，DAL 在像素空间对遮罩区域的高频分量施加 L2 监督： $$\mathcal{L}_{\text{DA}} = \|H(\hat{\mathbf{I}}_{gt}) \odot \mathbf{M} - H(\mathbf{I}_{gt}) \odot \mathbf{M}\|_2^2$$ 其中 $H(\cdot)$ 为高频提取，$\mathbf{M}$ 为遮罩区域。DAL 迫使模型关注高频细节的重建，弥补隐空间损失的不足。

损失函数 / 训练策略¶

总损失为隐空间 MSE 损失与像素级 DAL 之和：

\[\mathcal{L}_{\text{Overall}} = \mathcal{L}_{\text{MSE}} + \mathcal{L}_{\text{DA}}\]

使用 flow matching 训练，学习率 $5 \times 10^{-5}$，batch size 24，训练 10,000 步，图像分辨率 $1024 \times 576$。训练数据为约 14,000 内部样本 + HP-Image-40K。

实验关键数据¶

主实验¶

在 HP-Image-40K 的 1,000 测试集上评估（$1024 \times 576$ 分辨率）：

方法	CLIP-T↑(%)	CLIP-I↑(%)	DINO↑(%)	SSIM↑(%)	SSIM-HF↑(%)	LAION-Aes↑	Q-Align-IQ↑
Paint-by-Example	31.6	69.1	63.4	54.0	34.9	4.09	4.06
ACE++	34.9	93.1	90.7	58.3	37.2	4.18	4.00
Insert Anything	35.3	94.1	89.8	62.1	40.0	4.20	3.89
FLUX-Kontext	36.6	82.5	63.1	51.6	32.0	4.54	3.74
HiFi-Inpaint	36.1	95.0	91.9	63.4	42.9	4.40	4.36

在视觉一致性（CLIP-I、DINO、SSIM、SSIM-HF）和图像质量（Q-Align-IQ）上均达到最佳。

消融实验¶

方案	Syn.Data	DAL	SEA	CLIP-I↑(%)	DINO↑(%)	SSIM↑(%)	SSIM-HF↑(%)	说明
A	✗	✗	✗	91.8	85.4	57.7	38.4	基线
B	✓	✗	✗	94.5	89.9	62.4	41.2	+数据集, 大幅提升
C	✓	✓	✗	94.6	90.7	62.3	41.8	+DAL, 细节指标提升
E	✓	✓	✓	95.0	91.9	63.4	42.9	全部组件, 最佳

关键发现¶

数据集贡献最大：HP-Image-40K 带来了最显著的性能提升（A→B: DINO +4.5, SSIM +4.7）
SEA 对细节至关重要：C→E 在所有一致性指标上持续提升，定性结果显示 SEA 使纹理和花纹对齐更精确
DAL 专注细节：B→C 中 SSIM-HF 提升 0.6，说明 DAL 有效引导高频细节重建
用户研究（31人/11组）：HiFi-Inpaint 在文本对齐（36.4%）、视觉一致性（41.5%）、生成质量（39.5%）三项偏好率均远超其他方法
FLUX-Kontext 表现差：通用指令编辑方式难以建立参考图与遮罩区域的有效关联，常生成独立产品图而非合成图

亮点与洞察¶

高频信息的巧妙利用：从频域提取高频图并贯穿于整个框架——作为额外分支的输入（SEA）和像素级监督的目标（DAL），形成一套完整的"高频增强"体系
参数高效的 SEA 设计：共享双流 DiT 块参数，仅引入一个可学习标量 $\alpha_i$，无额外网络参数开销
自合成数据管线实用：利用 FLUX.1-Dev 的一致性生成能力 + 多重自动过滤，低成本构建大规模高质量数据
SSIM-HF 新指标：对生成图施加高通滤波后再计算 SSIM，能更精准评估细节保持能力

局限性 / 可改进方向¶

仅针对人-产品场景，对更通用的参考图修复（如场景替换、多物体组合）的泛化性未验证
HP-Image-40K 基于 FLUX.1-Dev 合成，可能存在生成偏差，与真实数据的差距未充分分析
高频提取依赖固定半径 $r$ 的圆形高通滤波器，不同产品类型可能需要自适应策略
推理效率未报告，SEA 的额外分支在推理时仍需前向传播
评估仅在自建测试集上进行，缺乏标准公开基准

评分¶

新颖性: ⭐⭐⭐⭐ 高频信息在 DiT 框架中的系统化利用（SEA + DAL）是新颖且有效的设计
实验充分度: ⭐⭐⭐⭐ 7 个指标、4 个对比方法、完整消融、用户研究，定量定性结合充分
写作质量: ⭐⭐⭐⭐ 结构清晰，动机-方法-实验逻辑链完整
价值: ⭐⭐⭐⭐ 对电商/广告场景有直接应用价值，方法设计思路可迁移性强