跳转至

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Models

会议: ACL 2025
arXiv: 2506.21294
代码: 无
领域: LLM/NLP
关键词: referring expression, visual grounding, dialogue, autoregressive model, multimodal

一句话总结

提出使用自回归模型在视觉对话中检测指代表达(referring expressions),将 RE 检测建模为序列标注任务的自回归变体,在 PhotoBook 和 MeetUp 数据集上实现 SOTA。

研究背景与动机

  1. 领域现状:视觉对话中的指代表达检测对理解对话参与者的意图至关重要。
  2. 现有痛点:传统方法依赖于分类模型或 span 提取,难以处理对话上下文中的复杂指代。
  3. 核心矛盾:如何利用 LLM 的生成能力进行精确的序列标注?
  4. 本文要解决什么? 探索自回归模型在 RE 检测这一结构化预测任务上的潜力。
  5. 切入角度:将 RE 检测重新形式化为自回归序列生成问题。
  6. 核心idea一句话:用 LLM 直接生成带 RE 标注的对话序列,而非训练额外分类头。

方法详解

整体框架

输入视觉对话上下文 -> 自回归模型生成带标注的输出序列 -> 解析标注得到 RE 边界。

关键设计

  1. 序列格式设计:将 RE 检测转化为序列到序列问题,用特殊标记标注 RE 起止
  2. 视觉上下文融合:整合图像特征作为对话上下文的一部分
  3. 多轮对话建模:利用完整对话历史提升 RE 分辨能力

实验关键数据

主实验

数据集 之前SOTA 本文方法 提升
PhotoBook ~75% F1 ~80% F1 +5%
MeetUp ~70% F1 ~76% F1 +6%

消融

配置 F1 说明
无视觉 -8% 视觉信息关键
无历史 -5% 对话历史有帮助
Full 最佳 完整模型

关键发现

  • 自回归方法在 RE 检测上超越传统分类方法
  • 视觉上下文和对话历史都是重要信号

亮点与洞察

  • 将结构化预测任务转化为生成任务是 LLM 时代的趋势
  • 视觉对话中的 RE 检测是连接语言和视觉的重要桥梁

局限性 / 可改进方向

  • 自回归生成可能产生格式错误
  • 计算成本高于简单分类器

相关工作与启发

  • vs 传统 span extraction: 自回归方法避免了固定长度限制

评分

  • 新颖性: ⭐⭐⭐ 将成熟的生成范式应用于 RE 检测
  • 实验充分度: ⭐⭐⭐ 两个数据集验证
  • 写作质量: ⭐⭐⭐⭐ 清晰
  • 价值: ⭐⭐⭐ 对视觉对话理解有贡献