Infinite-Story: A Training-Free Consistent Text-to-Image Generation¶

会议: AAAI 2026
arXiv: 2511.13002
代码: 无
领域: 图像生成 / 一致性生成
关键词: 一致性文本到图像生成, 视觉故事, 自回归生成, training-free, 风格一致性

一句话总结¶

基于 scale-wise 自回归模型（Infinity），通过三个 training-free 技术——Identity Prompt Replacement（消除文本编码器的上下文偏差）、Adaptive Style Injection（参考图像特征注入）和 Synchronized Guidance Adaptation（同步 CFG 两个分支），实现了身份与风格一致的多图像生成，速度比扩散模型快 6 倍（1.72 秒/张）。

背景与动机¶

一致性文本到图像生成在视觉故事、漫画、角色驱动内容创作等场景中至关重要。现有方法存在两个问题：(1) 大多基于扩散模型，推理速度慢（通常>10秒/张），超出用户交互耐受阈值；(2) 现有工作主要关注身份一致性，忽视了风格一致性——同一角色在不同场景中的渲染风格、色调、背景风格可能完全不同（如 1Prompt1Story）。Scale-wise 自回归模型（Infinity 等）通过 next-scale 预测范式提供了更快的推理速度，但同样面临一致性挑战。

核心问题¶

如何在不需要额外训练的情况下，让 scale-wise 自回归 T2I 模型生成一组在身份（Identity）和风格（Style）上都保持一致的图像？挑战来自文本编码器的上下文偏差（不同 prompt 中相同身份描述产生不同语义理解），以及缺乏跨图像的视觉特征对齐机制。

方法详解¶

整体框架¶

基于 Infinity（2B 参数的 scale-wise 自回归模型，使用 Flan-T5 文本编码器），将 N 个 prompt 作为一个 batch 并行处理。第一个样本作为参考（anchor），其身份和风格特征传播到其余样本。三个技术分别作用于文本编码层和生成过程的早期自注意力层。

关键设计¶

Identity Prompt Replacement (IPR)：观察到文本编码器中"a dog"在不同上下文中（如"springing toward a frisbee"vs"on a porch swing"）会编码成不同的语义（柯基 vs 金毛）。IPR 将所有样本的身份 embedding 替换为参考样本的身份 embedding \(T_{iden}^1\)，同时对表情/场景 embedding 做归一化以保持比例关系：\(\hat{T}_{exp}^n = \frac{\|T_{iden}^1\|}{\|T_{iden}^n\|} \cdot T_{exp}^n\)。这在编码层消除了上下文偏差。
Adaptive Style Injection (ASI)：在早期生成步骤（S_early={2,3}）的自注意力层中，将所有样本的 Key 替换为参考样本的 Key，并基于余弦相似度自适应插值 Value：\(\bar{V}_s^n = \alpha_s^n V_s^n + (1-\alpha_s^n) V_s^1\)，其中 \(\alpha_s^n = \lambda \cdot \text{sim}(V_s^1, V_s^n)\)。相似度高的区域保留更多原始特征，相似度低的区域更多从参考中借鉴，实现自适应的外观和风格对齐。
Synchronized Guidance Adaptation (SGA)：ASI 只应用于 CFG 的条件分支会破坏条件/无条件分支的平衡，影响 prompt 忠实度。SGA 将相同的操作（使用条件分支计算的相同 α 权重）同步应用到无条件分支，恢复 CFG 平衡。

损失函数 / 训练策略¶

完全 training-free，无需训练或微调。所有参数冻结，仅在推理时修改注意力层的 K/V 特征。

实验关键数据¶

方法	CLIP-I↑	DreamSim↓	CLIP-T↑	DINO↑	时间(s/img)
Infinite-Story	0.8089	0.1834	0.8732	0.9267	1.72
1Prompt1Story	0.7687	0.1993	0.8942	0.9117	22.57
IP-Adapter	0.7834	0.2266	0.8661	0.9243	10.40
ConsiStory	0.6895	0.2787	0.9019	0.8954	37.76
Vanilla Infinity	0.6965	0.2780	0.8836	0.8955	1.71

用户研究：58.4% 的参与者偏好 Infinite-Story（vs 18% 1Prompt1Story, 16.4% IP-Adapter, 7.2% OneActor）。

消融实验要点¶

IPR 单独贡献：CLIP-I 从 0.6965 提升到 0.7119，DreamSim 从 0.2780 降到 0.2569
加入 ASI 后：DINO 大幅提升至 0.9242（风格一致性显著改善），CLIP-I 跃升至 0.8082
加入 SGA 后：CLIP-T 从 0.8625 提升到 0.8732（prompt 忠实度恢复），整体 S_H 最优
λ 参数敏感性：λ=0.85 在一致性和 prompt 忠实度之间取得最佳平衡
在 Switti 和 HART 上也有效，证明方法可推广到其他 scale-wise 自回归模型

亮点¶

6× 推理加速：1.72 秒/张 vs 扩散模型 10-38 秒/张，达到交互式应用的实用门槛
上下文偏差的发现和解决：Identity Prompt Replacement 简洁优雅地解决了文本编码器中"相同描述因上下文不同产生不同语义"的问题
自适应插值权重：ASI 通过余弦相似度自适应调整注入强度，避免了硬替换导致的细节丢失
完全 training-free：三个技术都只在推理时操作注意力特征，零额外训练成本

局限性 / 可改进方向¶

依赖单一参考图像（anchor），如果 anchor 质量差会传播到整个 batch
身份一致性主要通过注意力层操作实现，对高度结构化或精细细节的控制有限
仅支持 scale-wise 自回归模型，未验证在扩散模型上的适用性
CLIP-T 相比某些基线方法略低，说明一致性和 prompt 忠实度之间仍有 trade-off
未探索自适应 anchor 选择或修正机制

与相关工作的对比¶

vs 1Prompt1Story：同为 training-free，但 1Prompt1Story 基于扩散模型（22.57s/img），且只关注身份一致性不关注风格一致性
vs ConsiStory/StoryDiffusion：这些方法修改注意力权重实现身份一致，但推理极慢（24-38s），且风格一致性差
vs IP-Adapter：IP-Adapter 需要参考图像且推理较慢，且 prompt 忠实度较低（过度受参考图影响）

启发与关联¶

"在 CFG 的两个分支上同步操作"是一个通用的可控生成技巧，可用于其他 training-free 方法
上下文偏差问题不仅存在于 T2I，在 VLM 中也普遍存在（同一视觉概念在不同文本上下文中被不同理解）
Scale-wise 自回归模型的生成速度优势值得关注，可能成为扩散模型的有力替代

评分¶

新颖性: ⭐⭐⭐⭐ 首个在 scale-wise 自回归模型上实现一致性 T2I 的 training-free 方法
实验充分度: ⭐⭐⭐⭐ 多指标评估、用户研究、消融完整，跨模型泛化验证
写作质量: ⭐⭐⭐⭐ 结构清晰，上下文偏差的可视化分析直观有说服力
价值: ⭐⭐⭐⭐ 推理速度的大幅提升使一致性 T2I 达到实用水平，对视觉故事应用有直接价值