CVPR 2026 图像生成集合到集合生成跨图一致性扩散模型特征融合对应关系训练无关零样本

Match-and-Fuse: Consistent Generation from Unstructured Image Sets¶

会议: CVPR 2026
arXiv: 2511.22287
领域: 图像生成 / 一致性生成
关键词: 集合到集合生成, 跨图一致性, 扩散模型, 特征融合, 对应关系, 训练无关, 零样本

一句话总结¶

提出 Match-and-Fuse，首个面向非结构化图像集合的训练无关一致性生成方法。以图为节点、图对为边建立成对一致性图，通过多视角特征融合（MFF）和特征引导在扩散推理中操控内部特征，实现集合级跨图一致性，DINO-MatchSim 达 0.80 远超所有基线。

领域现状：日常视觉体验以图像集合（相册、产品目录、房产列表）为单位，但生成 AI 主要关注单图或视频，集合级一致性生成几乎未探索。

核心挑战：(a) 图像集合不像视频有时序连续性，缺乏运动线索；(b) 共享内容可能有大幅度形变；(c) 需在保持共享元素一致的同时允许非共享区域自由变化。

现有方案不足：Edicho 仅限成对编辑从单一参考传播；IC-LoRA 需微调 LoRA；FLUX Kontext 缺显式一致性机制；3D/视频编辑假设过强。

关键发现：T2I 扩散模型有网格先验——多图拼在画布上联合生成时自发产生一致性，但不完整且随图像数增加快速退化。

核心idea：建模图像集合为完全图，利用成对网格先验 + 稠密 2D 对应关系做特征层面的多视角融合和引导。

输入 N 张图像 + \(\mathcal{P}^{shared}\)（共享内容描述）+ \(\mathcal{P}^{theme}\)（风格/主题）。预处理计算所有图对稠密匹配 \(M_{ij}\)（RoMA），VLM 生成逐图描述。推理时在成对一致性图上联合去噪。

成对一致性图（Pairwise Consistency Graph）:
- 图 \(G=(V,E)\)：节点为图像，边连接所有图对
- 每条边对应双图网格潜编码 \(z_{ij}^t = \text{concat}(z_i^t, z_j^t)\)，配拼接深度图和网格 prompt
- 每步去噪后，每节点从所有相邻边提取并平均自己的潜编码版本
- 可扩展性：限制节点度数为 4（随机邻居），N≤5 全连接，之后线性复杂度
多视角特征融合（MFF）:
- 核心发现：匹配位置处的特征余弦相似度与视觉一致性强相关
- 成对融合：\(\mathbf{f}_i[\mathbf{c}] \leftarrow \frac{1}{2}(\mathbf{f}_i[\mathbf{c}] + \mathbf{f}_j[M_{ij}(\mathbf{c})])\)，对所有匹配坐标 \(\mathbf{c} \in \mathcal{C}_i\)
- N 图推广：先跨相邻边平均 \(\bar{\mathbf{f}}_i = \frac{1}{|\delta(i)|}\sum_{e \in \delta(i)} \mathbf{f}_i^e\)，再跨所有图融合
- 作用于 DiT 的 K,V 特征图选定层
特征引导（Feature Guidance）:
- 匹配特征距离优化目标：\(L_{guide} = \frac{1}{|E|}\sum_{\{i,j\}\in E}\frac{1}{|M_{ij}|}\sum_{\mathbf{c}\in M_{ij}}\|\mathbf{f}_i[\mathbf{c}] - \mathbf{f}_j[M_{ij}(\mathbf{c})]\|_2\)
- 对 \(z_i^{t-1}\) 求梯度在潜空间做 light refinement
- MFF 可视为优化的解析解，Guidance 修正残余不一致
- 梯度通过模型传播有更宽感受野，对稀疏匹配也鲁棒

使用 RoMA 计算稠密 2D 匹配，通过置信度过滤自动识别共享区域，无需手动 mask。

方法	CLIP Score↑	DreamSim↑	DINO-MatchSim↑
FLUX Kontext	0.65	0.78	0.57
IC-LoRA	0.65	0.71	0.65
FLUX	0.67	0.76	0.66
Edicho	0.65	0.81	0.72
Match-and-Fuse	0.66	0.85	0.80
w/o Guidance	0.66	0.82	0.76
w/o MFF	0.66	0.83	0.78
w/o Pairwise Graph	0.66	0.82	0.75