LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning¶

会议: ECCV 2024
arXiv: 2312.03849
领域: 图像生成

一句话总结¶

提出第一人称视角动作帧生成新问题，通过视觉指令微调 VLLM 生成丰富动作描述并将其嵌入作为扩散模型的额外条件，实现高质量的自我中心动作图像合成。

研究背景与动机¶

现有痛点¶

现有痛点：领域现状：在技能传递场景中，LLM 生成的文字指导不够直观，而人脑处理图像远快于文字。本文提出 自我中心动作帧生成 新问题：给定第一人称图像和动作文本查询，合成展示该动作执行过程的图像。

面临两大挑战： 1. 现有自我中心数据集动作标注过于简单（仅动词+名词），缺乏详细描述 2. 现有扩散模型预训练于第三人称图像，对第一人称视角的动作状态转换能力有限（存在域差距）

方法详解¶

整体框架¶

LEGO 模型由两阶段组成： 1. 视觉指令微调阶段：微调 VLLM（基于 LLaVA）生成丰富的动作描述 2. 动作帧生成阶段：利用潜在扩散模型（LDM），以 VLLM 嵌入为额外条件合成动作帧

关键设计¶

Prompt Enhancement：利用 GPT-3.5 进行 in-context learning，生成详细动作描述作为 VLLM 视觉指令微调的训练数据。微调后的 VLLM 可在推理时大规模生成丰富动作描述，无需边界框输入。

VLLM 嵌入注入：将微调后 VLLM 的图像嵌入 \(\mathcal{H}_i\) 和文本嵌入 \(\mathcal{H}_t\) 分别通过投影层映射到 LDM 特征空间，与 CLIP 文本编码拼接作为 U-Net 的条件输入：

\[\mathcal{C} = [\psi(\mathcal{R}), \sigma(\mathcal{H}_i), \pi(\mu(\mathcal{H}_t))] \in \mathbb{R}^{(2N+M) \times D}\]

文本嵌入还加了自注意力层 \(\pi\) 以获取整体语义。条件通过交叉注意力注入 U-Net 各层。

损失函数¶

VLLM 微调：交叉熵损失，训练 3 个 epoch
LDM 训练：L2 噪声预测损失，训练 20000 步
图像分辨率 256×256，采用 classifier-free guidance

实验关键数据¶

主实验¶

图像到图像指标对比（Ego4D 数据集）：

方法	EgoVLP ↑	EgoVLP⁺ ↑	CLIP ↑	FID ↓	PSNR ↑	LPIPS ↓
ProxEdit	44.51	72.68	68.17	33.01	11.88	40.90
SDEdit	50.07	72.90	73.35	33.35	11.81	41.60
InstructPix2Pix	62.19	78.84	78.75	24.73	12.16	37.16
LEGO	65.65	80.44	80.61	23.83	12.29	36.43

LEGO 在全部 6 个指标上均超过最强基线 IP2P。用户研究中 LEGO 胜率 52%，远超 IP2P 的 8%。

消融实验¶

不同条件组合对模型性能的影响（Ego4D, 用户研究 Win Rate）：

条件设置	用户研究	EgoVLP ↑	EgoVLP⁺ ↑	CLIP ↑
原始动作标签	5.33	62.19	78.84	78.75
丰富描述	13.00	62.91	79.09	79.18
描述+图像嵌入	26.00	65.35	80.13	80.57
描述+文本嵌入	21.33	63.29	79.40	79.21
描述+联合嵌入	34.34	65.65	80.44	80.61

微调后 VLLM 嵌入比未微调的嵌入带来更大提升（EgoVLP +1.08%），验证了视觉指令微调对缩小域差距的必要性。VLLM 生成的描述与帧的对齐率达 87%（未微调仅 27%）。

关键发现¶

图像嵌入比文本嵌入贡献更大，说明 VLLM 图像嵌入包含自编码器无法捕获的高层语义
丰富描述可以适度提升性能，但 VLLM 嵌入的提升更显著
模型可对同一输入帧生成不同动作的帧（泛化能力好）

亮点与洞察¶

首创自我中心动作帧生成问题，有 AR/VR 应用潜力
VLLM 嵌入作为扩散模型条件的新颖设计，有效缩小域差距
端到端的数据增强管线（GPT-3.5 → 指令微调 → 大规模描述生成）可复用
同一帧不同动作的泛化实验展示了模型对动作语义的理解能力

补充分析¶

数据处理的工程细节值得关注： - 使用美学评分筛选输入帧和目标帧，避免模糊图像 - 基于 CLIP 相似度过滤相似度过低（<0.81）或过高（>0.97）的样本对 - 最终 Ego4D: 85521/9931 训练/测试，Epic-Kitchens: 61841/8893 训练/测试

指令微调的对齐率差异显著：微调后 VLLM 的描述与帧对齐率为 87%（Ego4D）/ 84%（Epic-Kitchens），而未微调仅 27%/30%，且 92% 不对齐案例存在幻觉——说明通用 VLLM 在自我中心领域确实存在严重域差距，微调不可或缺。

局限与展望¶

生成分辨率仅 256×256，高分辨率场景适用性有限
依赖数据效果评估，自动指标在自我中心领域仍存在域差距
高度动态场景（频繁头部运动）需要数据过滤，限制了训练样本量
GPT-3.5 数据策管的质量依赖手动编写的 few-shot 示例

评分¶

⭐⭐⭐⭐ 问题定义新颖，方法设计合理，实验详尽，但实际应用场景有限