Composing Concepts from Images and Videos via Concept-prompt Binding¶

会议: CVPR 2026
arXiv: 2512.09824
代码: 项目页面
领域: Video Generation / Concept Composition
关键词: 视觉概念组合, Diffusion Transformer, 视频个性化, 概念绑定, 时序解耦

一句话总结¶

提出 Bind & Compose (BiCo)，一种one-shot方法，通过层次化binder结构将视觉概念绑定到prompt token，并通过token组合实现图像-视频概念的灵活组合，在概念一致性、prompt保真度和运动质量上全面超越前作。

研究背景与动机¶

领域现状：视觉概念组合旨在将不同图像和视频中的元素整合为一个连贯输出，是视觉创作和电影制作的基础能力。随着DiT架构T2V扩散模型（Wan2.1等）的发展，概念定位和定制化能力显著提升。
现有痛点：(i) 概念提取精度不足——现有方法（LoRA/可学习embedding+掩码）难以解耦有遮挡和时序变化的复杂概念，且无法提取非物体概念（如风格）；(ii) 图像-视频概念组合灵活性不足——已有工作仅限于用图像中的主体+视频中的运动，未能灵活组合任意属性（视觉风格、光照变化等）。
核心矛盾：需要同时解决精确概念分解（不需要掩码输入）和跨模态概念组合（图像+视频）两个相互耦合的挑战。
本文要解决什么？ 实现从图像和视频中灵活提取并组合任意视觉概念（包括非物体概念如风格、运动）。
切入角度：利用T2V扩散模型的概念定位能力，将文本token与对应视觉概念绑定（one-shot训练），然后通过token级别的组合实现概念合成。
核心idea一句话：先将视觉概念绑定到prompt token上（Bind），再从不同来源选择绑定token组合成目标prompt（Compose），整个过程通过层次化binder结构+多样化吸收机制+时序解耦策略实现。

方法详解¶

整体框架¶

BiCo基于Wan2.1-T2V-1.3B模型，工作流分两阶段： 1. 概念绑定（Concept Binding）：对每个视觉输入，用轻量binder模块学习文本token与对应视觉概念的映射 2. 概念组合（Concept Composing）：将目标prompt中不同部分通过对应的binder，组合为包含多来源视觉信息的更新prompt

核心操作基于DiT的cross-attention条件注入：

\[\mathbf{x}_{out} = \text{cross\_attention}(\mathbf{x}_{in}, \mathbf{p}, \mathbf{p})\]

关键设计¶

层次化Binder结构：包含全局binder \(f_g(\cdot)\) 和逐块binder \(f_l^i(\cdot)\)。每个binder是带零初始化缩放因子的残差MLP：\(f(\mathbf{p}) = \mathbf{p} + \gamma \cdot \text{MLP}(\mathbf{p})\)。由于DiT各块在去噪过程中行为不同，层次化设计允许全局关联+针对性微调。配合两阶段倒序训练策略——先在高噪声水平（\(\geq \alpha\)，\(\alpha=0.875\)）强化全局binder，再联合训练全部binder。
多样化-吸收机制 (DAM)：解决one-shot场景下概念-token绑定精度问题。用VLM（Qwen2.5-VL）提取空间和时序关键概念，生成多样化prompt（保持关键概念词不变）。引入可学习的吸收token \(p_a^j\) 在训练时吸收与概念无关的视觉细节，推理时丢弃该token以抑制不需要的细节。
时序解耦策略 (TDS)：解决图像-视频时序异质性问题。将视频概念训练分两阶段：Stage 1 在单帧上训练（与图像概念训练设置对齐），Stage 2 在完整视频上训练，引入双分支binder结构：

\[\text{MLP}(\mathbf{p}) \leftarrow (1-g(\mathbf{p})) \cdot \text{MLP}_s(\mathbf{p}) + g(\mathbf{p}) \cdot \text{MLP}_t(\mathbf{p})\]

\(\text{MLP}_s\) 权重继承自Stage 1，\(g(\cdot)\) 零初始化确保良好初始化状态。

损失函数 / 训练策略¶

使用标准扩散模型去噪损失训练binder。每阶段训练2400次迭代，学习率 \(1.0 \times 10^{-4}\)。推理时生成81帧视频。实验在NVIDIA RTX 4090上进行。

实验关键数据¶

主实验：与前作定量对比¶

方法	CLIP-T↑	DINO-I↑	Concept↑	Prompt↑	Motion↑	Overall↑
Textual Inversion†	25.96	20.47	2.14	2.17	2.94	2.42
DB-LoRA†	30.25	27.74	2.76	2.76	2.51	2.68
DreamVideo	27.43	24.15	1.90	1.82	1.66	1.79
DualReal	31.60	32.78	3.10	3.11	2.78	3.00
BiCo (Ours)	32.66	38.04	4.71	4.76	4.46	4.64

BiCo在主观Overall Quality上比前作DualReal提升 +54.67%（3.00→4.64）。

消融实验：各组件贡献（人工评估5分制）¶

配置	Concept↑	Prompt↑	Motion↑	Overall↑
Baseline (仅全局binder)	2.16	2.60	2.26	2.34
+层次化Binder	2.63	2.88	2.93	2.81
+Prompt多样化	3.40	3.34	3.04	3.26
+吸收Token	3.55	3.43	3.43	3.47
+TDS (无吸收)	3.80	3.97	3.70	3.82
▲ 无倒序训练策略	2.60	2.70	2.43	2.58
Full Model	4.43	4.47	4.32	4.40

关键发现¶

层次化binder对概念保持和运动质量提升显著（2.26→2.93的Motion）
吸收token有效抑制不需要的细节（消融可视化显示去除后出现不相关元素）
TDS对图像-视频兼容性至关重要（Overall从3.47→3.82）
两阶段倒序训练不可替代——去除后Overall从4.40暴跌至2.58

亮点与洞察¶

统一框架：首次实现图像+视频任意概念的灵活组合，支持非物体概念（风格、运动）
无需掩码：通过文本条件的概念组合实现隐式分解，降低用户门槛
设计上的可扩展性：binder是轻量模块，不同概念来源的binder独立训练，可按需组合
衍生应用丰富：图像/视频分解（只保留部分token）、文本引导编辑

局限性 / 可改进方向¶

将所有token等同对待，但token对T2V生成的重要性分布不均匀——表示主体/运动的token远比功能词重要
基于1.3B模型，scaling到更大T2V模型（如CogVideoX、Sora级别）的效果未验证
定量评估中自动指标（CLIP-T、DINO-I）与人工评估的一致性有待进一步确认
计算开销：每个概念来源需独立训练binder（2400 iterations x 2 stages）

方法细节补充¶

VLM提取关键概念：用Qwen2.5-VL提取空间概念（物体、风格、光照等）和时序概念（运动模式、速度变化等），分别组合为spatial-only和spatiotemporal prompts
推理过程：将目标prompt \(\mathbf{p}_d\) 按概念对应关系分解，各部分通过对应binder更新后重新组合为 \(\mathbf{p}_u^i\)
衍生应用：图像/视频分解（仅保留dog相关token丢弃cat相关token）、文本引导编辑（未改变部分过binder，编辑部分直接用原始token）

评分 ⭐¶

新颖性: ⭐⭐⭐⭐⭐ — 首次实现图像-视频任意概念的统一灵活组合
实验充分度: ⭐⭐⭐⭐⭐ — 定量自动+人工评估+详细消融+可视化案例全面
写作质量: ⭐⭐⭐⭐ — 概念清晰，DAM/TDS设计动机阐述充分
价值: ⭐⭐⭐⭐⭐ — 对视觉内容创作具有直接和广泛的应用前景