跳转至

Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions

会议: ICCV 2025
arXiv: 2504.08531
代码: https://hsp-iit.github.io/embodied-captioning/
领域: LLM Agent / 具身智能
关键词: 具身感知, 图像描述, 自监督学习, 伪标注, 对比学习

一句话总结

提出一个三阶段自监督框架,通过agent自主导航收集多视角观测、LLM共识机制生成伪标注、对比学习微调captioner,显著提升室内环境中同一物体跨视角描述的一致性和准确性。

研究背景与动机

领域现状:图像描述(Image Captioning)模型在自主agent上部署时,对同一物体的不同视角常产生不一致甚至错误的描述,特别是存在遮挡或不利视角时。

现有痛点:导航式方法(如CaBOT)需要预知最佳视角且只处理简单场景;噪声标注方法(如ECO)依赖CLIP对齐可能选中错误描述;摘要方法(如IC3)仅用采样多样性生成摘要但无法过滤错误信息。

核心矛盾:需要在复杂室内环境中,无人工标注地自动提升captioner对同一物体不同视角描述的一致性。

本文切入角度:将问题分解为三个可解耦阶段——导航采集、伪标注生成、模型微调。

核心idea:利用3D体素地图聚合同一物体的多视角描述,通过LLM结合频率信息和上下文学习蒸馏出一致伪标注,再用triplet loss强制相同物体的视觉特征接近。

方法详解

整体框架

三阶段pipeline:(1) Agent在模拟环境中自主导航,构建语义体素地图并聚合检测与描述;(2) 对每个3D物体实例,用LLM将所有关联描述蒸馏为单一伪标注;(3) 用伪标注+对比学习微调captioner。

关键设计

  1. 导航与3D聚类(Phase 1):

    • 功能:Agent按策略探索环境,用Mask2Former检测物体,投影到体素地图并按连通分量聚类得到唯一物体实例
    • 核心思路:将2D检测的logits、mask和caption通过深度图投影到3D体素空间,用26-连通3D连通分量算法给每个体素分配唯一物体ID
    • 设计动机:将多时刻多视角的观测关联到同一3D物体,解决跨视角关联问题
    • 探索策略CLA:基于caption间不一致度(SBERT余弦距离)构建disagreement map引导导航
  2. LD-CPS伪标注生成(Phase 2):

    • 功能:为每个聚类物体实例生成一致的伪标注
    • 核心思路:预处理去除captioner偏差文本(如"A picture of..."),将所有描述及其出现频率输入LLM提示,利用in-context learning让LLM判断哪些描述更可靠并蒸馏出简洁一致的伪标注
    • 设计动机:频率信息确保多数一致的描述被采纳而噪声被抑制;in-context示例提升LLM蒸馏质量
  3. 对比学习微调(Phase 3):

    • 功能:用伪标注微调captioner并增强视角一致性
    • 核心思路:标准captioning loss + triplet loss;对每个anchor,正例是同一物体实例的不同视角,负例是其他物体:\(\mathcal{L} = \mathcal{L}_{cap} + \lambda_{tr}\mathcal{L}_{tr}\)
    • 设计动机:triplet loss强制同一物体不同视角的视觉表征靠近,提升描述一致性

损失函数 / 训练策略

总损失 = 交叉熵captioning loss + \(\lambda_{tr}\) × triplet loss(\(\lambda_{tr}=0.1\),margin \(\epsilon=2\))。CoCa禁用其自带的对比loss以避免惩罚encoder;BLIP-2采用LoRA微调Q-Former模块。

实验关键数据

主实验

方法 数据集 B4 METEOR CIDEr SPICE CS(语义相似度)
CoCa off-the-shelf Gibson 7.30 20.16 0.45 22.22 66.01
CoCa + LD-CPS Gibson 14.70 25.13 1.05 30.39 72.08
CoCa + LD-CPS + triplet Gibson 15.47 26.22 1.10 31.75 72.91
BLIP2 off-the-shelf Gibson 6.59 17.91 0.35 19.32 63.32
BLIP2 + LD-CPS + triplet Gibson 14.05 23.89 1.19 28.25 71.46

消融实验

伪标注方法 B4 CS
ECO(选择最优caption) 10.07-14.70 69.43
IC3(LLM摘要) 1.25 56.68
LD-CPS(本文) 14.70 72.08

关键发现

  • CLA策略能挖掘50%数据的caption相似度低于其他策略,更有效发现高分歧区域
  • LD-CPS在所有指标上显著优于ECO和IC3,特别是语义相似度高6-16个点
  • Triplet loss在所有策略+captioner组合下均一致提升性能
  • 自监督微调后的CoCa甚至接近ChatGPT o1的描述质量

亮点与洞察

  • 三阶段解耦设计非常实用:每个阶段可独立替换(换探索策略、换伪标注方法、换captioner),是一个通用框架
  • 频率+上下文学习的伪标注思路巧妙:利用"多数投票+噪声过滤"的直觉,用LLM实现了鲁棒的跨视角标注一致化
  • learned探索策略CLA:基于caption一致度驱动导航的想法新颖,把主动感知和语义理解结合

局限与展望

  • 仅评估6类室内物体,类别多样性有限
  • 3D体素投影会引入遮挡和投影噪声,影响物体实例聚类质量
  • CLA训练基于CoCa的disagreement,换captioner需重训策略
  • 未探索开放词汇检测器对框架的影响

相关工作与启发

  • vs CaBOT: CaBOT需预知最佳视角且场景简单;本文无需先验,适用复杂室内环境
  • vs ECO: ECO依赖CLIP对齐选caption,本文用LLM+频率信息蒸馏更鲁棒
  • vs IC3: IC3无法处理大量噪声caption,本文LD-CPS利用频率+in-context显著更优

评分

  • 新颖性: ⭐⭐⭐⭐ 框架设计新颖但个别组件相对常规
  • 实验充分度: ⭐⭐⭐⭐ 多数据集多captioner多策略充分对比
  • 写作质量: ⭐⭐⭐⭐ 结构清晰、模块化好
  • 价值: ⭐⭐⭐⭐ 对具身场景下视觉理解有实际价值

相关论文