Gloria: Consistent Character Video Generation via Content Anchors¶

会议: CVPR 2026
arXiv: 2603.29931
代码: https://yyvhang.github.io/Gloria_Page/
领域: 视频理解 / 视频生成
关键词: 角色视频生成, 一致性, 内容锚帧, 扩散模型, 长视频

一句话总结¶

Gloria 提出用一组紧凑的"内容锚帧"（Content Anchors）表征角色的多视角外观和表情身份，通过超集内容锚定（防止复制粘贴）和 RoPE 弱条件（区分多锚帧）两个机制，实现超过 10 分钟的长时一致角色视频生成。

研究背景与动机¶

数字角色视频生成面临长时、多视角外观一致和表情身份一致的三重挑战。现有方法使用单张参考图或文本 prompt，但这些输入包含的角色信息不足以维持长期一致性。部分方法引入预选帧或生成帧作为"记忆"，但这些帧通常不以角色为中心、缺乏语义基础。

核心洞察：角色视频生成本质上是一个"外观-看进去"的场景——角色的视觉属性可以用一组结构化的锚帧紧凑表示，而运动则从短视频片段中学习。

技术挑战：(1) 如何注入锚帧避免简单复制粘贴；(2) 如何同时使用多个锚帧避免冲突；(3) 如何高效地从大量视频中提取锚帧。

方法详解¶

整体框架¶

锚帧提取管线（离线）→ 统一内容锚定注入机制（锚帧 token 与视频 token 拼接参与 self-attention）→ 超集内容锚定 + RoPE 弱条件训练 → 推理时支持文本/图像/音频多种输入。

关键设计¶

超集内容锚定 (Superset Content Anchoring):
- 功能：防止模型简单复制粘贴锚帧内容
- 核心思路：在训练时，为每个视频片段提供"超集"锚帧——既包含片段内的帧（intra-clip），也包含片段外的帧（extra-clip）。这迫使模型学习从多个可能相关的锚帧中自适应提取有用信息，而不是直接复制最相似的锚帧
- 设计动机：如果训练时锚帧总是与目标高度对应，模型会走捷径直接复制。超集提供了冗余信息，要求模型真正理解锚帧中的语义信息
RoPE 作为弱条件 (RoPE as Weak Condition):
- 功能：区分多个同时注入的锚帧，避免冲突
- 核心思路：将不同锚帧移位到 RoPE 的不同位置范围，使模型能可靠地区分它们。这是一种"弱"条件——不强制特定的一一对应，只提供位置区分线索。配合混合比例训练（不同数量的锚帧），让模型灵活适应
- 设计动机：多个锚帧直接拼接到序列中时，模型无法区分哪个是哪个。RoPE 提供了最小侵入的区分方式
自动化锚帧提取管线:
- 功能：从大量视频中高效提取视角和表情锚帧
- 核心思路：视角锚帧——分析角色相对于相机的朝向确定视角类别。表情锚帧——通过情感识别检测不同表情，再由 MLLM 精修。整个流程自动化，可处理大规模视频数据
- 设计动机：手动选择锚帧不可扩展，自动化管线是实用化的必要条件

损失函数 / 训练策略¶

标准扩散训练损失（去噪损失），在视频扩散模型基础上微调。混合比例训练——随机选择 0-N 个锚帧作为条件。

实验关键数据¶

主实验¶

方法	最长时长	多视角一致性	表情一致性	身份保持
WanS2V/FramePack	~1分钟	一般	一般	一般
Gloria	10+分钟	优秀	优秀	优秀

生成的角色视频超过 10 分钟，在多视角外观和表情身份一致性上超越现有方法。

消融实验¶

配置	一致性	复制粘贴问题	说明
无超集锚定	差	严重	直接复制最相似锚帧
无 RoPE 弱条件	中等	中等	多锚帧混淆
完整 Gloria	最优	无	两个机制协同

关键发现¶

超集锚定是防止复制粘贴的关键——没有它模型会退化为最近邻搜索+复制
RoPE 弱条件的位置区分效果优于强条件（如不同的 cross-attention 头），后者限制了灵活性
自动化锚帧提取管线使得大规模训练数据构建成为可能

亮点与洞察¶

锚帧作为角色"身份证"：用少量代表性帧捕获角色的全部视觉属性，比嵌入向量更直观、比全视频更紧凑
超集避免捷径学习：通过提供冗余+不完全对应的条件，迫使模型学习语义级别的理解而非像素级复制
10分钟长视频：在当前角色视频生成中是显著的时长突破

局限与展望¶

锚帧数量有限，对极度复杂的服装细节（如花纹变化）可能不够
当前主要面向单角色，多角色场景未充分探索
音频驱动的唇形同步质量受限于底层模型
未来可探索3D感知的锚帧表示

评分¶

新颖性: ⭐⭐⭐⭐ 内容锚帧概念和超集锚定机制有创意
实验充分度: ⭐⭐⭐⭐ 定性结果丰富，但定量评测可以更全面
写作质量: ⭐⭐⭐⭐ 概念阐述清晰
价值: ⭐⭐⭐⭐⭐ 对数字人/虚拟角色产业有直接应用价值