Face Time Traveller: Travel Through Ages Without Losing Identity¶
会议: CVPR2026 arXiv: 2602.22819 代码: 待确认 领域: 人体理解 关键词: 人脸老化, 扩散模型, 身份保持, 注意力控制, 无需调优反演
一句话总结¶
提出 FaceTT 框架,通过面部属性感知提示词精炼、角度反演和自适应注意力控制三大模块,实现高保真、身份一致的人脸年龄变换,在多个基准上超越现有方法。
研究背景与动机¶
- 人脸老化是一个病态问题:受遗传、环境、生活方式等内外因素共同影响,真实的年龄变换需要同时改变年龄相关特征(皱纹、肤色)并保持年龄无关特征(身份、表情),平衡极为困难。
- GAN 方法的局限:HRFAE、CUSP 等基于 GAN 的方法在高分辨率细节捕捉和身份保持上表现不足,容易产生伪影或不准确重建,尤其在大跨度年龄变换时身份漂移严重。
- 扩散模型反演成本高:现有扩散模型依赖迭代优化的反演方法(如 Null-Text Inversion),计算开销大且重建质量不稳定,难以在保留面部细节的同时实现高效编辑。
- 简单提示词不足以描述老化:仅用"Photo of a X years old person"无法捕捉老化的复杂语义——内在生物因素(肤质变化)和外在环境因素(紫外线、生活习惯)的交互影响被忽略。
- 静态注意力控制的缺陷:P2P、PnP 等方法在整个图像上施加统一的注意力策略,无法隔离和优先处理年龄相关区域,导致背景幻觉和配饰丢失等问题。
- 评估协议不完善:传统评估依赖将重新老化的图像与真实目标年龄图像比较,但配对真值稀缺,使得身份一致性评估不可靠。
方法详解¶
整体框架¶
FaceTT 基于预训练 Stable Diffusion 模型,在 FFHQ-Aging 数据集上进行轻量微调(150 步)。输入一张源年龄人脸,经过三大核心模块处理后输出目标年龄人脸:
- Face-Attribute-Aware Prompt Refinement → 生成属性丰富的文本提示
- Angular Inversion → 无需优化地高保真映射到扩散潜空间
- Adaptive Attention Control (AAC) → 动态平衡语义变换与结构保持
关键设计¶
面部属性感知提示词精炼:利用视觉语言模型 FastVLM 从输入人脸提取年龄、性别、肤色与纹理(内在因素)、以及外部条件描述(外在因素),构造精炼提示词格式为 Photo of a <src_age> years old <gender> with <skin tone & texture>, due to <cause/condition description>。这使模型能理解"脱发"、"体重增加"等高层语义对应的视觉特征。
角度反演(Angular Inversion):将源分支和目标分支解耦独立优化。核心思想是在每个去噪步骤中:
- 计算反演轨迹 \(z_t^*\) 与前向轨迹 \(z_t^{src/tgt}\) 之间的角度偏差
- 用指数衰减 \(\exp(-\xi \cdot \theta)\) 按角度大小缩放更新量——角度越大表示对齐越差,更新权重越低
- 通过余弦相似度自适应加权源分支和目标分支的校正项,高相似度侧重编辑保真,低相似度侧重源图保持
- 超参数 \(\xi = 1.2\) 控制衰减速率
自适应注意力控制(AAC):根据去噪阶段动态切换注意力策略:
- 早期阶段(\(t > \tau_1 = 35\)):用交叉注意力控制注入语义老化线索(皱纹、肤色、发色)
- 中间阶段(\(\tau_2 \leq t \leq \tau_1\)):通过 KL 散度 \(\eta\) 判断源/目标交叉注意力差异——若 \(\eta > \eta_{th} = 0.05\),优先交叉注意力引入显著语义变换;否则优先自注意力保持精细结构
- 晚期阶段(\(t < \tau_2 = 15\)):用自注意力替换维持面部几何、表情和身份一致性
- 中间阶段使用基于注意力图熵的自适应混合权重 \(w_t = 1 - H(M)\),实现源/目标注意力的平滑过渡
损失与训练¶
- 在 FFHQ-Aging(7万张图,10个年龄段)上微调 Stable Diffusion,仅 150 步
- 使用 Adam 优化器,学习率 \(5 \times 10^{-6}\),batch size 2
- 推理时无需额外优化,单张图片约 5 秒(A100 GPU),相比 FADING 的 130 秒快 26 倍
实验¶
主要结果¶
CelebA-HQ (young→60) 定量对比:
| 方法 | 预测年龄 | Blur ↓ | Gender ↑ | Smiling ↑ |
|---|---|---|---|---|
| HRFAE | 55.05±9.18 | 3.42 | 94.80 | 74.60 |
| CUSP | 57.57±7.88 | 3.39 | 89.79 | 75.88 |
| FADING | 69.88±6.20 | 2.18 | 98.44 | 76.17 |
| FaceTT | 62.05±6.81 | 2.18 | 99.79 | 78.31 |
FaceTT 预测年龄最接近真实标签 65.14,性别保持率达 99.79%(最优)。
FFHQ-Aging 全年龄段对比:
| 指标 | HRFAE | CUSP | FADING | FaceTT |
|---|---|---|---|---|
| MAE (均值) | 21.84 | 16.40 | 13.47 | 11.40 |
| Gender Acc. | 0.45 | 0.51 | 0.57 | 0.62 |
| KID (均值) | 0.34 | 3.06 | 2.03 | 1.58 |
FaceTT 的 MAE 比 FADING 降低 15%,KID 降低 22%。
消融实验¶
| Angular Inv. | AAC | 预测年龄 | Gender ↑ | Smiling ↑ |
|---|---|---|---|---|
| ✗ | ✗ | 69.88 | 98.44 | 76.17 |
| ✗ | ✓ | 61.70 | 99.22 | 73.78 |
| ✓ | ✗ | 61.25 | 99.02 | 68.58 |
| ✓ | ✓ | 62.05 | 99.79 | 78.31 |
两个模块各有贡献,组合后在所有指标上取得最优平衡。超参数敏感性分析表明 \(\xi=1.2\)、\(\eta_{th}=0.05\)、\((\tau_1,\tau_2)=(35,15)\) 为最优配置。
关键发现¶
- 身份保持:在循环身份相似度 (\(ID_{sim}^{cyc}\)) 上,FaceTT 在 FFHQ 上达到 0.69、在名人测试集上达到 0.80,均为最优;参考身份相似度 (\(ID_{sim}^{ref}\)) 达到 0.55,超过 FADING 的 0.50
- 生物特征验证:在 35 年跨度的 FNMR@FMR=0.1% 上,FaceTT 仅为 0.01,远优于 FADING 的 0.07 和 CUSP 的 0.09
- 推理速度:单张 ~5 秒 vs FADING ~130 秒,加速约 26 倍
- 背景与配饰保持:定性对比显示 FaceTT 能保持眼镜、耳环等配饰以及背景细节一致性
亮点¶
- 角度反演方法巧妙利用几何角度偏差控制潜空间更新,无需迭代优化即可实现高质量反演,推理速度提升一个数量级
- 自适应注意力控制机制根据去噪阶段和 KL 散度动态切换交叉/自注意力,比静态方法更灵活
- 提出循环身份相似度评估协议,不依赖配对真值数据,为人脸老化评估提供了更可靠的衡量方式
- 面部属性感知提示词精炼充分利用了 VLM 的能力,将内在/外在老化因素编码为语义丰富的文本条件
局限性¶
- 仅在静态图像上验证,尚未扩展到视频序列的时序年龄渐变
- 依赖 FastVLM 提取属性提示词,VLM 的属性描述准确性会影响最终效果
- 在极端年龄段(0-2 岁)的 KID 分数相对较高(12.18),表明婴幼儿阶段的生成质量仍有提升空间
- 微调仅在 FFHQ-Aging 上进行,对非西方面孔的泛化能力未充分验证
相关工作¶
- GAN 方法:HRFAE(潜空间操纵)、CUSP(风格内容解耦)、MyTimeMachine(个性化时序老化),均受限于 GAN 反演导致的身份失真
- 扩散反演:DDIM Inversion(确定性但有重建误差)、Null-Text Inversion(稳定但慢)、Direct Inversion(解耦分支但非线性编辑受限)
- 注意力编辑:P2P、PnP、MasaCtrl(静态策略)、FPE(稳定变换)、Inversion-Free Editing(交叉+自注意力联合控制)
- 最新未发表工作:Aging Multiverse(多轨迹老化,牺牲精细控制)、TimeBooth(个性化但背景一致性差)
评分¶
- 新颖性: ⭐⭐⭐⭐ — 角度反演和自适应注意力控制均为有价值的技术创新,循环评估协议也有贡献
- 实验充分度: ⭐⭐⭐⭐ — 多数据集 + 多指标 + 消融 + 用户研究 + 生物特征验证,实验设计全面
- 写作质量: ⭐⭐⭐⭐ — 结构清晰,算法伪代码详尽,图表丰富
- 价值: ⭐⭐⭐⭐ — 推理速度大幅提升且效果优于 SOTA,具有较强的实用价值