BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation¶

日期: 2026-03-03
arXiv: 2603.02816
代码: https://zihao-ai.github.io/brandfusion
领域: 视频理解
关键词: 文本到视频, 品牌植入, 多智能体, 提示优化, 商业化

一句话总结¶

BrandFusion 首次定义了 T2V 无缝品牌植入任务，提出离线品牌知识库构建 + 在线五智能体协作提示优化框架，在 18 个品牌 × 3 个 T2V 模型上显著超越基线，实现语义保持、品牌可见性和自然融合的三重平衡。

领域现状：Veo、Sora、Kling 等 T2V 模型已能生成高质量视频，但商业变现模式尚未建立。计算成本高昂，迫切需要可持续的收入来源。
现有痛点：传统广告（贴片/弹窗）破坏用户体验。T2I 领域的品牌侵入（如 Silent Branding Attack）是隐蔽的对抗攻击，并非用户友好的合法植入。视频生成文本植入尚无先例。
核心矛盾：三个目标相互冲突——品牌要显眼则可能破坏自然感，追求自然则可能牺牲可见性，保持语义忠实则限制植入空间。同时用户提示多样性 × 品牌类别多样性产生巨大组合空间，规则方法无法泛化。
切入角度：用多智能体系统拆分复杂决策——品牌选择、策略设计、提示改写、质量评估和经验学习各由专门 agent 负责，通过迭代协作实现精细化调优。
核心 idea 一句话：离线构建品牌知识库 + 在线五个 LLM agent 协作迭代优化提示，实现 T2V 视频中自然且可识别的品牌植入。

两阶段设计：(1) 离线阶段——面向广告商，构建品牌知识库（先验探测 + 新品牌适配）；(2) 在线阶段——面向用户，五个 agent 协作优化提示实现品牌植入。

离线品牌知识库构建：
- 先验探测：用诊断提示测试 T2V 模型是否"认识"某品牌，>70% 成功则直接注册
- 模型适配：不认识的品牌用 LoRA（rank 32）微调，合成 100 个训练视频（参考图→T2I→I2V pipeline）
- 知识库存储：品牌档案、适配器权重、参考视觉模式、成功案例经验池
在线多智能体协作：
- Brand Selection Agent：根据场景-品牌语义兼容性从知识库选最匹配品牌
- Strategy Generation Agent：分析场景特征设计植入策略，可查询经验池中历史成功策略
- Prompt Rewriting Agent：执行四原则（语义保持、自然融合、逻辑一致、风格一致）改写提示
- Critic Agent：多维度评估改写提示——可接受/需修改/需重新规划策略
- Experience Learning Agent：收集反馈，正面案例抽象为成功模式，负面记录失败模式，闭环学习
双记忆系统：
- 长期记忆：品牌知识库（品牌档案 + 适配器 + 经验池）
- 短期记忆：会话上下文（当前生成状态，跟踪植入进展）

方法	VBench质量	CLIPScore	VQAScore	BPR↑	自然度↑
Direct Append	0.81	0.27	0.83	0.72	2.83
Template Rewriting	0.83	0.28	0.88	0.88	3.12
Single Rewriting	0.83	0.30	0.89	0.90	3.90
BrandFusion (Veo3)	0.83	0.33	0.91	0.95	4.70

匹配度	BrandFusion NS	Template NS	说明
高匹配	4.70+	4.01	两者都不错
中匹配	4.50+	3.27	差距拉开
低匹配	4.20+	1.38	BrandFusion 优势巨大