RefAny3D: 3D Asset-Referenced Diffusion Models for Image Generation¶

会议: ICLR 2026
arXiv: 2601.22094
代码: https://judgementh.github.io/RefAny3D
领域: 3D 引导图像生成 / 扩散模型
关键词: 3D 资产参考, 双分支生成, 点图 (point map), 域解耦, 主题驱动生成

一句话总结¶

提出 RefAny3D，一个 3D 资产参考的图像生成框架，通过联合建模 RGB 图像和点图（point map）的双分支生成策略，实现生成图像与 3D 参考资产在几何和纹理上的精确一致性。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：现有的参考图像生成方法（如 IP-Adapter、OminiControl）依赖 2D 参考图像，无法有效利用 3D 资产。在实际应用中，创作者通常需要直接使用网格等 3D 资产作为参考来可视化物体在不同场景中的表现。

3D 资产参考生成面临三大挑战：

一致性不足：需要与 3D 资产的几何结构和纹理精确对齐

视角受限：单参考图像方法无法捕获物体的完整外观

视角冲突：多图像条件方法缺乏 3D 结构先验，导致跨视角不一致

方法详解¶

整体框架¶

基于 Flux.1-dev 模型构建，输入 3D 资产的多视角 RGB 图像和点图作为条件，同时生成目标 RGB 图像及其对应的点图。

关键设计一：空间对齐的双分支生成¶

将生成过程形式化为联合分布建模：\(p(x_I, x_P | y, c)\)

\(x_I\)：目标 RGB 图像
\(x_P\)：对应点图
\(y\)：参考 3D 模型
\(c\)：文本提示

共享位置编码：对 RGB 和点图的同一视角令牌施加共享位置编码，利用 DiT 中位置编码的特性自然地为相同位置的令牌分配更高注意力分数。引入统一位置偏移项 \((i-w, j)\) 避免条件令牌间距离不一致造成的偏差。

关键设计二：域解耦生成¶

RGB 和点图存在固有的信息不对称：点图仅定义 3D 几何和姿态，RGB 包含整个场景的写实细节。

域特定 LoRA：引入 Reference-LoRA（为所有条件令牌激活）和 Domain-LoRA（仅为点图令牌激活），分别学习参考生成和点图域知识
文本无关注意力：在点图分支引入注意力掩码，抑制文本令牌对点图的影响，避免背景信息泄露到点图中

数据集构建¶

基于 Subjects200K 数据集构建 3D 资产-姿态对齐数据集： 1. 用 GroundingDINO 提取目标物体 2. 用 Hunyuan3D 将物体转为 3D 资产 3. 用 FoundationPose 估计 3D 资产在图像中的姿态

实验¶

主实验（GPT 评估 + 视觉模型评估）¶

方法	纹理↑	几何↑	美学↑	总分↑	CLIP Avg↑	DINO Avg↑	GIM↑
Textual Inversion	2.89	4.42	6.26	4.53	0.827	0.548	3360
DreamBooth	5.37	6.68	6.89	6.32	0.867	0.695	3483
OminiControl	5.63	6.58	6.89	6.37	0.855	0.665	3474
RefAny3D	6.32	7.37	7.69	7.12	0.873	0.720	3901

消融实验¶

设置	效果
无共享位置编码	点图与 RGB 像素级对应失败，几何一致性下降
无文本无关注意力	点图受文本影响，背景区域出现颜色混合
无域特定 LoRA	单一 LoRA 同时学习两个域，导致背景伪影
无点图分支	缺乏 3D 线索，训练不稳定，3D 一致性差

用户研究¶

RefAny3D 在忠实度（4.655）、ID 保持（4.737）、美学质量（4.632）和整体排名（1.579）上均优于所有基线。

亮点与洞察¶

首次探索以 3D 资产为参考条件的图像生成任务
点图作为结构锚点的设计有效建立了跨视角的像素级对应
域解耦策略优雅地解决了 RGB 与点图的信息不对称问题
可与多视图到 3D 生成模型集成，形成完整工作流

局限与展望¶

对非刚性物体（如绳索、靠垫）效果较差，因数据集限制
大量视角条件输入带来显著的计算和时间开销
依赖 Hunyuan3D 和 FoundationPose 的质量进行数据构建

评分¶

新颖性：⭐⭐⭐⭐ — 3D 资产参考图像生成是全新任务定义
技术性：⭐⭐⭐⭐ — 双分支 + 域解耦设计合理
实验：⭐⭐⭐⭐ — GPT 评估 + 视觉模型 + 用户研究，评估全面
实用性：⭐⭐⭐⭐ — 对 3D 内容创作有实际价值