AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction¶

会议: ICCV 2025
arXiv: 2504.01014
代码: https://github.com/TencentARC/AnimeGamer
领域: 图像/视频生成
关键词: 无限游戏生成, 动漫生活模拟, 多模态大语言模型, 视频扩散模型, 游戏状态预测

一句话总结¶

提出 AnimeGamer，基于多模态大语言模型(MLLM)的无限动漫生活模拟系统，通过动作感知的多模态表征预测下一轮游戏状态（动态动画镜头 + 角色状态更新），实现持续一致的交互式动漫游戏体验。

研究背景与动机¶

近年来生成式 AI 在动漫制作中取得了显著进展，但现有方法存在明显局限：

有限游戏 vs 无限游戏：现有游戏生成方法（如 GameNGen 模拟 DOOM）局限于预定义环境和有限指令，属于"有限游戏"。而理想的动漫生活模拟应属于"无限游戏"——无预设边界、开放式语言交互、持续演化的故事线

前驱工作 Unbounded 的不足： - 仅使用 LLM 处理纯文本对话，忽略历史视觉上下文，导致游戏连贯性差 - 只能生成静态图像，无法呈现角色动作必需的动态效果

核心挑战：如何在多轮交互中保持角色一致性、上下文连贯性，同时生成高质量的动态视频？

方法详解¶

整体框架¶

AnimeGamer 的训练分为三个阶段：(a) 学习动画镜头的 token 化和解码；(b) 训练 MLLM 预测下一个游戏状态；(c) 解码器适配训练。推理时采用滑动窗口实现理论上无限长的游戏生成。

关键设计¶

动作感知的多模态表征 (Action-aware Multimodal Representation)
- 将动画镜头分解为三个组成部分：
  - 视觉参考 \(f_v\)：通过 CLIP 提取动画片段首帧的嵌入，捕获整体外观
  - 动作描述 \(f_{md}\)：使用 T5 编码的短文本动作提示（如"Softly talk"）
  - 运动幅度 \(f_{ms}\)：通过光流检测表示角色动作强度
- 编码器 \(\mathcal{E}_a\) 通过 MLP + LayerNorm + Concat 融合视觉和文本特征： \(s_a = \mathcal{E}_a(f_{md}, f_v) = \text{Concat}(\text{LN}(\text{MLP}(x)), \text{LN}(\text{MLP}(y)))\)
- 设计动机：现有方法仅预测文本或图像表征，无法充分保留视频的视觉和运动信息
动画镜头解码器 \(\mathcal{D}_a\)
- 基于视频扩散模型 CogVideoX，将原始文本特征替换为动作感知多模态表征
- 运动幅度 \(f_{ms}\) 通过正弦函数嵌入 + FC + SiLU 激活注入时间步嵌入 \(f_t\)
- 训练分两步：先固定解码器只训练编码器（warm-up），再联合训练
- 训练目标为标准扩散损失： \(\mathcal{L} = \mathbb{E}_{z,c,s_a,\epsilon \sim \mathcal{N}(0,1),t}\left[\|\epsilon - \epsilon_\theta(z_t, t, c, s_a)\|_2^2\right]\)
基于 MLLM 的游戏状态预测
- 以 Mistral-7B 初始化 MLLM，作为"游戏引擎"
- 输入：历史多模态上下文 + 当前玩家指令
- 输出：\(N=226\) 个动作感知多模态表征（\(s_a\)）+ 角色状态 \(s_c\)（体力/社交/娱乐值）+ 运动幅度
- \(s_a\) 用 MSE 损失，\(s_c\) 和 \(f_{ms}\) 用交叉熵损失： \(\mathcal{L} = \mathcal{L}_{CE} + \alpha \mathcal{L}_{MSE}\)
解码器适配 (Decoder Adaptation)
- MLLM 和解码器分别训练可能导致隐空间不对齐
- 冻结 MLLM，仅微调解码器，使其适应 MLLM 的输出嵌入
- 推理时使用滑动窗口 + train-short-test-long 策略支持无限生成

数据构建¶

从 10 部热门动漫电影中提取约 20,000 个视频片段（16帧，480×720）。使用 InternVL 自动标注角色运动、背景和角色状态，支持玩家自定义角色。

实验关键数据¶

主实验¶

模型	CLIP-I↑	DreamSim↑	CLIP-T↑	ACC-F↑	MAE-F↓	推理时间(s/轮)↓
GSC	0.786	0.502	0.333	0.316	0.826	50
GFC	0.766	0.580	0.333	0.292	1.021	63
GC	0.796	0.642	0.334	0.425	0.722	25
AnimeGamer	0.813	0.740	0.416	0.674	0.424	24

GPT-4V 和人类评估（10分制）：

模型	整体(GPT/人)	指令跟随(GPT/人)	上下文一致(GPT/人)	角色一致(GPT/人)
GC	6.42/7.38	7.29/7.37	6.58/6.89	7.49/7.55
AnimeGamer	8.36/10.0	9.14/9.95	8.41/9.95	9.11/9.86

消融实验¶

配置	CLIP-I↑	DreamSim↑	ACC-F↑	MAE-F↓
w/ random frame	0.845	0.450	0.474	0.562
w/o warm-up	0.831	0.511	0.703	0.458
w/o \(f_{ms}\)	0.853	0.689	0.182	1.219
w/o adapt	0.683	0.494	0.365	0.847
Ours (full)	0.867	0.793	0.729	0.403

关键发现¶

AnimeGamer 在所有自动指标上全面超越基线，特别是 DreamSim (+15.4%) 和 CLIP-T (+24.6%)，表明多模态上下文对一致性至关重要
人类评估中几乎满分（10/10），远超仅用文本上下文的方法
去除运动幅度控制后 ACC-F 暴跌至 0.182，证明仅靠文本无法可靠控制运动幅度
解码器适配是必要的——不使用时 CLIP-I 从 0.786 降至 0.683
推理效率最优（24s/轮），因为无需额外 LLM API 调用

亮点与洞察¶

"MLLM as Game Engine"：将 MLLM 用作游戏引擎直接预测游戏状态，而非仅作为文本路由器，这是一个创新的范式
动作感知的多模态表征设计精妙：通过分离视觉参考、动作描述和运动幅度，在保持可控性的同时实现高质量视频生成
端到端设计：从数据收集到模型训练到评估基准，提供了完整的技术栈

局限与展望¶

仅在闭域（自定义角色）上训练和评估，未探索开放域泛化
训练数据来自 10 部动漫电影，规模和多样性有限
每轮仅生成 16 帧的短视频片段
角色状态（体力/社交/娱乐）设计较为简单，未涵盖更复杂的游戏机制
未与更多游戏生成基线（如 GameNGen、DIAMOND）比较

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首个基于MLLM的无限动漫生活模拟，问题和方法都很新
实验充分度: ⭐⭐⭐⭐ 自动+人类评估充分，消融全面，但缺少更多基线
写作质量: ⭐⭐⭐⭐ 框架描述清晰，图示丰富
价值: ⭐⭐⭐⭐ 商业化前景广，但实际游戏体验还需大幅提升