Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions¶

会议: ICCV 2025
arXiv: 2504.08531
代码: https://hsp-iit.github.io/embodied-captioning/
领域: LLM Agent / 具身智能
关键词: 具身感知, 图像描述, 自监督学习, 伪标注, 对比学习

一句话总结¶

提出一个三阶段自监督框架，通过agent自主导航收集多视角观测、LLM共识机制生成伪标注、对比学习微调captioner，显著提升室内环境中同一物体跨视角描述的一致性和准确性。

研究背景与动机¶

领域现状：图像描述（Image Captioning）模型在自主agent上部署时，对同一物体的不同视角常产生不一致甚至错误的描述，特别是存在遮挡或不利视角时。

现有痛点：导航式方法（如CaBOT）需要预知最佳视角且只处理简单场景；噪声标注方法（如ECO）依赖CLIP对齐可能选中错误描述；摘要方法（如IC3）仅用采样多样性生成摘要但无法过滤错误信息。

核心矛盾：需要在复杂室内环境中，无人工标注地自动提升captioner对同一物体不同视角描述的一致性。

本文切入角度：将问题分解为三个可解耦阶段——导航采集、伪标注生成、模型微调。

核心idea：利用3D体素地图聚合同一物体的多视角描述，通过LLM结合频率信息和上下文学习蒸馏出一致伪标注，再用triplet loss强制相同物体的视觉特征接近。

方法详解¶

整体框架¶

三阶段pipeline：(1) Agent在模拟环境中自主导航，构建语义体素地图并聚合检测与描述；(2) 对每个3D物体实例，用LLM将所有关联描述蒸馏为单一伪标注；(3) 用伪标注+对比学习微调captioner。

关键设计¶

导航与3D聚类（Phase 1）:
- 功能：Agent按策略探索环境，用Mask2Former检测物体，投影到体素地图并按连通分量聚类得到唯一物体实例
- 核心思路：将2D检测的logits、mask和caption通过深度图投影到3D体素空间，用26-连通3D连通分量算法给每个体素分配唯一物体ID
- 设计动机：将多时刻多视角的观测关联到同一3D物体，解决跨视角关联问题
- 探索策略CLA：基于caption间不一致度（SBERT余弦距离）构建disagreement map引导导航
LD-CPS伪标注生成（Phase 2）:
- 功能：为每个聚类物体实例生成一致的伪标注
- 核心思路：预处理去除captioner偏差文本（如"A picture of..."），将所有描述及其出现频率输入LLM提示，利用in-context learning让LLM判断哪些描述更可靠并蒸馏出简洁一致的伪标注
- 设计动机：频率信息确保多数一致的描述被采纳而噪声被抑制；in-context示例提升LLM蒸馏质量
对比学习微调（Phase 3）:
- 功能：用伪标注微调captioner并增强视角一致性
- 核心思路：标准captioning loss + triplet loss；对每个anchor，正例是同一物体实例的不同视角，负例是其他物体：\(\mathcal{L} = \mathcal{L}_{cap} + \lambda_{tr}\mathcal{L}_{tr}\)
- 设计动机：triplet loss强制同一物体不同视角的视觉表征靠近，提升描述一致性

损失函数 / 训练策略¶

总损失 = 交叉熵captioning loss + \(\lambda_{tr}\) × triplet loss（\(\lambda_{tr}=0.1\)，margin \(\epsilon=2\)）。CoCa禁用其自带的对比loss以避免惩罚encoder；BLIP-2采用LoRA微调Q-Former模块。

实验关键数据¶

主实验¶

方法	数据集	B4	METEOR	CIDEr	SPICE	CS(语义相似度)
CoCa off-the-shelf	Gibson	7.30	20.16	0.45	22.22	66.01
CoCa + LD-CPS	Gibson	14.70	25.13	1.05	30.39	72.08
CoCa + LD-CPS + triplet	Gibson	15.47	26.22	1.10	31.75	72.91
BLIP2 off-the-shelf	Gibson	6.59	17.91	0.35	19.32	63.32
BLIP2 + LD-CPS + triplet	Gibson	14.05	23.89	1.19	28.25	71.46

消融实验¶

伪标注方法	B4	CS
ECO（选择最优caption）	10.07-14.70	69.43
IC3（LLM摘要）	1.25	56.68
LD-CPS（本文）	14.70	72.08

关键发现¶

CLA策略能挖掘50%数据的caption相似度低于其他策略，更有效发现高分歧区域
LD-CPS在所有指标上显著优于ECO和IC3，特别是语义相似度高6-16个点
Triplet loss在所有策略+captioner组合下均一致提升性能
自监督微调后的CoCa甚至接近ChatGPT o1的描述质量

亮点与洞察¶

三阶段解耦设计非常实用：每个阶段可独立替换（换探索策略、换伪标注方法、换captioner），是一个通用框架
频率+上下文学习的伪标注思路巧妙：利用"多数投票+噪声过滤"的直觉，用LLM实现了鲁棒的跨视角标注一致化
learned探索策略CLA：基于caption一致度驱动导航的想法新颖，把主动感知和语义理解结合

局限与展望¶

仅评估6类室内物体，类别多样性有限
3D体素投影会引入遮挡和投影噪声，影响物体实例聚类质量
CLA训练基于CoCa的disagreement，换captioner需重训策略
未探索开放词汇检测器对框架的影响

评分¶

新颖性: ⭐⭐⭐⭐ 框架设计新颖但个别组件相对常规
实验充分度: ⭐⭐⭐⭐ 多数据集多captioner多策略充分对比
写作质量: ⭐⭐⭐⭐ 结构清晰、模块化好
价值: ⭐⭐⭐⭐ 对具身场景下视觉理解有实际价值