CTRL-O: Language-Controllable Object-Centric Visual Representation Learning¶

会议: CVPR 2025
arXiv: 2503.21747
代码: https://ctrl-o-paper.github.io
领域: 图像生成
关键词: 目标中心表示、Slot Attention、语言控制、对比损失、物体发现

一句话总结¶

CTRL-O 将语言可控性引入目标中心表示学习，通过语言嵌入初始化 slot query、解码器语言条件化和控制对比损失，在无 mask 监督下实现语言-物体绑定，COCO 上 FG-ARI 47.5（比 Dinosaur +7.0），同时支持零样本参考表达分割、实例级图像生成和 VQA。

研究背景与动机¶

领域现状：目标中心表示学习（如 Slot Attention、Dinosaur）将场景分解为独立的物体表示（slots），但 slots 不受控——无法指定哪个 slot 对应哪个物体。
现有痛点：(1) Slots 的分配是随机的，用户无法通过语言指定感兴趣的物体；(2) 在复杂真实场景中物体发现精度有限；(3) 学到的表示难以直接用于下游任务。
核心矛盾：目标中心表示需要"发现"物体（无监督），但"控制"物体绑定需要语义理解——如何在不需要 mask 标注的情况下引入语言控制？
本文目标：用语言描述控制 slot 到物体的绑定，无需 mask 监督。
切入角度：用预训练 LLM 嵌入初始化 slot query，使 slots 天然倾向于绑定到对应语义的物体上。
核心 idea：查询初始化（LLM 嵌入 + 位置信息）+ 解码器语言条件化 + 控制对比损失。

方法详解¶

整体框架¶

输入图像 → 冻结 DINOv2 提取特征 → 语言描述通过 LLaMA-3-8B (LLM2Vec) 编码 + 质心坐标 → 初始化 slot queries → Slot Attention 迭代分配 → 解码器用 slot+控制 query 条件化重建 → 控制对比损失约束 slot-语言对齐。

关键设计¶

语言查询初始化
- 功能：让 slot 从一开始就倾向于绑定到语言描述的物体
- 核心思路：将 LLaMA-3-8B (LLM2Vec) 的语言嵌入与质心坐标拼接作为 slot 的初始 query。动态类-prompt 映射：k-means 将 C 个类聚为 M 个 prompt（每 epoch 更新）
- 设计动机：随机初始化的 slot 绑定到哪个物体是不可控的，语言初始化提供了语义"锚点"
控制对比损失
- 功能：强制 slot 表示对齐到对应的语言嵌入
- 核心思路：\(\mathcal{L}_{CC}^l = -\sum_i \log\frac{\exp(z_i^{emb} \cdot l_i / \tau)}{\sum_t \exp(z_i^{emb} \cdot l_t / \tau)}\)，其中 \(z_i = \sum_k a_{ik} h_k\) 是按 slot attention 权重聚合的 DINO 特征，\(\tau=0.1\)
- 设计动机：仅靠初始化不能保证 slot 在注意力迭代后仍保持正确绑定
解码器语言条件化
- 功能：在重建阶段注入语言信息以增强物体-语言关联
- 核心思路：将 slot 与控制 query 拼接后送入 MLP 解码器
- 设计动机：解码器接收语言条件后可以学到更有语义意义的重建

损失函数 / 训练策略¶

重建损失 + 控制对比损失。冻结 DINOv2 ViT 骨干。COCO+VG 300K 步，batch 128。

实验关键数据¶

主实验¶

方法	FG-ARI↑	mBO↑	Binding Hits↑
Dinosaur	40.5	27.7	-
CTRL-O	47.5	27.2	61.3%

任务	CTRL-O	最佳基线
RefCOCO mIoU (零样本)	28.2	Shatter&Gather 21.8
图像生成 FID (COCO)	25.20	Stable LSD 26.20
VQAv2 准确率	60.25%	CLIP 58.64%

消融实验¶

配置	Binding Hits	说明
w/o 语言初始化	~40%	丢失语义锚点
w/o 对比损失	~48%	对齐不持久
w/ GT masks (上界)	71.2%	监督的天花板
Full CTRL-O	61.3%	无监督接近上界

关键发现¶

FG-ARI +7.0 提升主要来自语言引导使 slot 更准确地分割边界
零样本参考表达分割 28.2 mIoU 比非语言方法高 30%+
即使有 GT mask 监督，Binding Hits 也仅 71.2%，说明物体绑定本身是困难问题

亮点与洞察¶

可控性是目标中心表示的关键缺失环节：CTRL-O 填补了这个空白
无 mask 监督下 61.3% 绑定命中率：不需要分割标注就能实现合理的语言-物体对齐
统一框架支持多任务：物体发现、参考分割、图像生成和 VQA

局限与展望¶

同类多实例需要额外的位置消歧（质心坐标）
MLP 解码器的 mBO（27.2）略低于 Dinosaur（27.7）
VQA 60.25% 仍远低于大语言模型方案（>80%）
扩散生成存在物体变形/重复的失败案例

评分¶

新颖性: ⭐⭐⭐⭐ 将语言控制引入目标中心学习是自然但重要的扩展
实验充分度: ⭐⭐⭐⭐ 物体发现+分割+生成+VQA多角度验证
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐⭐ 统一多任务的可控物体表示有长期研究价值