EasyCraft: A Robust and Efficient Framework for Automatic Avatar Crafting¶

会议: CVPR 2025
arXiv: 2503.01158
代码: 无
领域: 图像生成 / 游戏角色定制
关键词: 虚拟角色创建, 自动捏脸, 自监督学习, ViT编码器, 文本到角色

一句话总结¶

提出 EasyCraft，一个端到端的自动角色定制框架，通过自监督预训练的通用 ViT 编码器实现任意风格照片到游戏捏脸参数的转换，并结合 Stable Diffusion 支持文本驱动的角色创建。

领域现状：RPG 游戏中的角色定制（"捏脸"）是核心玩法，但手动调参耗时费力。现有自动方法依赖特定图像域的语义约束（分割、感知、CLIP），需要为特定引擎风格开发 neural renderer。

现有痛点：引擎风格变化大（写实、动漫、卡通），现有方法依赖特定风格的监督信号，难以跨引擎迁移；且通常只支持图片或文字其一作为输入。

核心矛盾：翻译器在引擎数据上训练，无法处理非引擎风格的输入图像。

核心 idea：通过 MAE 自监督学习在多风格人脸数据集上预训练通用 ViT 编码器，使其特征分布跨风格统一，然后冻结编码器仅训练参数生成模块。

两阶段：(1) 在 510 万张多风格人脸图像上用 MAE 预训练通用 ViT 编码器；(2) 冻结编码器，用引擎随机采样的参数-截图对训练参数生成模块。推理时接受任意风格照片输入。集成 SD 生成引擎风格人脸图可实现文本驱动。

通用 ViT 编码器（MAE 预训练）:
- 功能：将任意风格的人脸图像编码到统一特征空间
- 核心思路：收集真实、动漫、游戏引擎等多风格人脸数据集（~510 万张），用 MAE 策略预训练 ViT（75% 掩码率），使编码器学会跨风格的统一人脸特征
- 设计动机：统一的特征分布使得在引擎数据上训练的参数生成模块能泛化到任意风格输入
引擎特定参数生成模块:
- 功能：将统一特征转换为特定游戏引擎的捏脸参数
- 核心思路：三个并行 MLP 分别预测面部结构参数（连续值，L1 损失）、妆容纹理参数（离散值，交叉熵损失）和妆容属性参数（连续值，带条件掩码的 L1 损失）
- 设计动机：训练仅需引擎随机采样数据，无需任何外部监督，可轻松迁移到其他引擎
引擎风格 Stable Diffusion:
- 功能：实现文本到角色创建
- 核心思路：用 7000 张引擎渲染图 + GPT-4o 生成的描述微调 SD v1.5，生成引擎风格人脸图，再送入翻译器得到捏脸参数
- 设计动机：原始 SD 生成的人脸风格与引擎不匹配且妆容细节不够，微调后解决域差距

MAE 预训练在 8 张 A100 上训练两周。翻译器在 4 张 A30 上训练 50 epoch（仅训练参数生成模块）。推理速度 0.026 秒/图。

方法	身份相似度 ↑	FID ↓	速度
F2P	0.376	40.69	1.14s
F2P v2	0.275	34.27	0.007s
EasyCraft	0.351	17.65	0.026s