Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions¶
会议: ICCV 2025
arXiv: 2504.08531
代码: https://hsp-iit.github.io/embodied-captioning/
领域: LLM Agent / 具身智能
关键词: 具身感知, 图像描述, 自监督学习, 伪标注, 对比学习
一句话总结¶
提出一个三阶段自监督框架,通过agent自主导航收集多视角观测、LLM共识机制生成伪标注、对比学习微调captioner,显著提升室内环境中同一物体跨视角描述的一致性和准确性。
研究背景与动机¶
领域现状:图像描述(Image Captioning)模型在自主agent上部署时,对同一物体的不同视角常产生不一致甚至错误的描述,特别是存在遮挡或不利视角时。
现有痛点:导航式方法(如CaBOT)需要预知最佳视角且只处理简单场景;噪声标注方法(如ECO)依赖CLIP对齐可能选中错误描述;摘要方法(如IC3)仅用采样多样性生成摘要但无法过滤错误信息。
核心矛盾:需要在复杂室内环境中,无人工标注地自动提升captioner对同一物体不同视角描述的一致性。
本文切入角度:将问题分解为三个可解耦阶段——导航采集、伪标注生成、模型微调。
核心idea:利用3D体素地图聚合同一物体的多视角描述,通过LLM结合频率信息和上下文学习蒸馏出一致伪标注,再用triplet loss强制相同物体的视觉特征接近。
方法详解¶
整体框架¶
三阶段pipeline:(1) Agent在模拟环境中自主导航,构建语义体素地图并聚合检测与描述;(2) 对每个3D物体实例,用LLM将所有关联描述蒸馏为单一伪标注;(3) 用伪标注+对比学习微调captioner。
关键设计¶
-
导航与3D聚类(Phase 1):
- 功能:Agent按策略探索环境,用Mask2Former检测物体,投影到体素地图并按连通分量聚类得到唯一物体实例
- 核心思路:将2D检测的logits、mask和caption通过深度图投影到3D体素空间,用26-连通3D连通分量算法给每个体素分配唯一物体ID
- 设计动机:将多时刻多视角的观测关联到同一3D物体,解决跨视角关联问题
- 探索策略CLA:基于caption间不一致度(SBERT余弦距离)构建disagreement map引导导航
-
LD-CPS伪标注生成(Phase 2):
- 功能:为每个聚类物体实例生成一致的伪标注
- 核心思路:预处理去除captioner偏差文本(如"A picture of..."),将所有描述及其出现频率输入LLM提示,利用in-context learning让LLM判断哪些描述更可靠并蒸馏出简洁一致的伪标注
- 设计动机:频率信息确保多数一致的描述被采纳而噪声被抑制;in-context示例提升LLM蒸馏质量
-
对比学习微调(Phase 3):
- 功能:用伪标注微调captioner并增强视角一致性
- 核心思路:标准captioning loss + triplet loss;对每个anchor,正例是同一物体实例的不同视角,负例是其他物体:\(\mathcal{L} = \mathcal{L}_{cap} + \lambda_{tr}\mathcal{L}_{tr}\)
- 设计动机:triplet loss强制同一物体不同视角的视觉表征靠近,提升描述一致性
损失函数 / 训练策略¶
总损失 = 交叉熵captioning loss + \(\lambda_{tr}\) × triplet loss(\(\lambda_{tr}=0.1\),margin \(\epsilon=2\))。CoCa禁用其自带的对比loss以避免惩罚encoder;BLIP-2采用LoRA微调Q-Former模块。
实验关键数据¶
主实验¶
| 方法 | 数据集 | B4 | METEOR | CIDEr | SPICE | CS(语义相似度) |
|---|---|---|---|---|---|---|
| CoCa off-the-shelf | Gibson | 7.30 | 20.16 | 0.45 | 22.22 | 66.01 |
| CoCa + LD-CPS | Gibson | 14.70 | 25.13 | 1.05 | 30.39 | 72.08 |
| CoCa + LD-CPS + triplet | Gibson | 15.47 | 26.22 | 1.10 | 31.75 | 72.91 |
| BLIP2 off-the-shelf | Gibson | 6.59 | 17.91 | 0.35 | 19.32 | 63.32 |
| BLIP2 + LD-CPS + triplet | Gibson | 14.05 | 23.89 | 1.19 | 28.25 | 71.46 |
消融实验¶
| 伪标注方法 | B4 | CS |
|---|---|---|
| ECO(选择最优caption) | 10.07-14.70 | 69.43 |
| IC3(LLM摘要) | 1.25 | 56.68 |
| LD-CPS(本文) | 14.70 | 72.08 |
关键发现¶
- CLA策略能挖掘50%数据的caption相似度低于其他策略,更有效发现高分歧区域
- LD-CPS在所有指标上显著优于ECO和IC3,特别是语义相似度高6-16个点
- Triplet loss在所有策略+captioner组合下均一致提升性能
- 自监督微调后的CoCa甚至接近ChatGPT o1的描述质量
亮点与洞察¶
- 三阶段解耦设计非常实用:每个阶段可独立替换(换探索策略、换伪标注方法、换captioner),是一个通用框架
- 频率+上下文学习的伪标注思路巧妙:利用"多数投票+噪声过滤"的直觉,用LLM实现了鲁棒的跨视角标注一致化
- learned探索策略CLA:基于caption一致度驱动导航的想法新颖,把主动感知和语义理解结合
局限与展望¶
- 仅评估6类室内物体,类别多样性有限
- 3D体素投影会引入遮挡和投影噪声,影响物体实例聚类质量
- CLA训练基于CoCa的disagreement,换captioner需重训策略
- 未探索开放词汇检测器对框架的影响
相关工作与启发¶
- vs CaBOT: CaBOT需预知最佳视角且场景简单;本文无需先验,适用复杂室内环境
- vs ECO: ECO依赖CLIP对齐选caption,本文用LLM+频率信息蒸馏更鲁棒
- vs IC3: IC3无法处理大量噪声caption,本文LD-CPS利用频率+in-context显著更优
评分¶
- 新颖性: ⭐⭐⭐⭐ 框架设计新颖但个别组件相对常规
- 实验充分度: ⭐⭐⭐⭐ 多数据集多captioner多策略充分对比
- 写作质量: ⭐⭐⭐⭐ 结构清晰、模块化好
- 价值: ⭐⭐⭐⭐ 对具身场景下视觉理解有实际价值
相关论文¶
- [ACL 2025] Enhancing Interpretable Image Classification Through LLM Agents and Conditional Concept Bottleneck Models
- [CVPR 2026] Gen-n-Val: Agentic Image Data Generation and Validation
- [AAAI 2026] PerTouch: VLM-Driven Agent for Personalized and Semantic Image Retouching
- [CVPR 2025] TANGO: Training-free Embodied AI Agents for Open-world Tasks
- [ACL 2025] Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement