Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Models¶
会议: ACL 2025
arXiv: 2506.21294
代码: 无
领域: LLM/NLP
关键词: referring expression, visual grounding, dialogue, autoregressive model, multimodal
一句话总结¶
提出使用自回归模型在视觉对话中检测指代表达(referring expressions),将 RE 检测建模为序列标注任务的自回归变体,在 PhotoBook 和 MeetUp 数据集上实现 SOTA。
研究背景与动机¶
- 领域现状:视觉对话中的指代表达检测对理解对话参与者的意图至关重要。
- 现有痛点:传统方法依赖于分类模型或 span 提取,难以处理对话上下文中的复杂指代。
- 核心矛盾:如何利用 LLM 的生成能力进行精确的序列标注?
- 本文要解决什么? 探索自回归模型在 RE 检测这一结构化预测任务上的潜力。
- 切入角度:将 RE 检测重新形式化为自回归序列生成问题。
- 核心idea一句话:用 LLM 直接生成带 RE 标注的对话序列,而非训练额外分类头。
方法详解¶
整体框架¶
输入视觉对话上下文 -> 自回归模型生成带标注的输出序列 -> 解析标注得到 RE 边界。
关键设计¶
- 序列格式设计:将 RE 检测转化为序列到序列问题,用特殊标记标注 RE 起止
- 视觉上下文融合:整合图像特征作为对话上下文的一部分
- 多轮对话建模:利用完整对话历史提升 RE 分辨能力
实验关键数据¶
主实验¶
| 数据集 | 之前SOTA | 本文方法 | 提升 |
|---|---|---|---|
| PhotoBook | ~75% F1 | ~80% F1 | +5% |
| MeetUp | ~70% F1 | ~76% F1 | +6% |
消融¶
| 配置 | F1 | 说明 |
|---|---|---|
| 无视觉 | -8% | 视觉信息关键 |
| 无历史 | -5% | 对话历史有帮助 |
| Full | 最佳 | 完整模型 |
关键发现¶
- 自回归方法在 RE 检测上超越传统分类方法
- 视觉上下文和对话历史都是重要信号
亮点与洞察¶
- 将结构化预测任务转化为生成任务是 LLM 时代的趋势
- 视觉对话中的 RE 检测是连接语言和视觉的重要桥梁
局限性 / 可改进方向¶
- 自回归生成可能产生格式错误
- 计算成本高于简单分类器
相关工作与启发¶
- vs 传统 span extraction: 自回归方法避免了固定长度限制
评分¶
- 新颖性: ⭐⭐⭐ 将成熟的生成范式应用于 RE 检测
- 实验充分度: ⭐⭐⭐ 两个数据集验证
- 写作质量: ⭐⭐⭐⭐ 清晰
- 价值: ⭐⭐⭐ 对视觉对话理解有贡献