跳转至

📚 AI Paper Notes

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Models

Detecting Referring Expressions in Visually Grounded Dialogue with Autoregressive Models¶

会议: ACL 2025
arXiv: 2506.21294
代码: 无
领域: LLM/NLP
关键词: referring expression, visual grounding, dialogue, autoregressive model, multimodal

一句话总结¶

提出使用自回归模型在视觉对话中检测指代表达（referring expressions），将 RE 检测建模为序列标注任务的自回归变体，在 PhotoBook 和 MeetUp 数据集上实现 SOTA。

研究背景与动机¶

领域现状：视觉对话中的指代表达检测对理解对话参与者的意图至关重要。
现有痛点：传统方法依赖于分类模型或 span 提取，难以处理对话上下文中的复杂指代。
核心矛盾：如何利用 LLM 的生成能力进行精确的序列标注？
本文要解决什么？ 探索自回归模型在 RE 检测这一结构化预测任务上的潜力。
切入角度：将 RE 检测重新形式化为自回归序列生成问题。
核心idea一句话：用 LLM 直接生成带 RE 标注的对话序列，而非训练额外分类头。

方法详解¶

整体框架¶

输入视觉对话上下文 -> 自回归模型生成带标注的输出序列 -> 解析标注得到 RE 边界。

关键设计¶

序列格式设计：将 RE 检测转化为序列到序列问题，用特殊标记标注 RE 起止
视觉上下文融合：整合图像特征作为对话上下文的一部分
多轮对话建模：利用完整对话历史提升 RE 分辨能力

实验关键数据¶

主实验¶

数据集	之前SOTA	本文方法	提升
PhotoBook	~75% F1	~80% F1	+5%
MeetUp	~70% F1	~76% F1	+6%

消融¶

配置	F1	说明
无视觉	-8%	视觉信息关键
无历史	-5%	对话历史有帮助
Full	最佳	完整模型

关键发现¶

自回归方法在 RE 检测上超越传统分类方法
视觉上下文和对话历史都是重要信号

亮点与洞察¶

将结构化预测任务转化为生成任务是 LLM 时代的趋势
视觉对话中的 RE 检测是连接语言和视觉的重要桥梁

局限性 / 可改进方向¶

自回归生成可能产生格式错误
计算成本高于简单分类器

相关工作与启发¶

vs 传统 span extraction: 自回归方法避免了固定长度限制

评分¶

新颖性: ⭐⭐⭐ 将成熟的生成范式应用于 RE 检测
实验充分度: ⭐⭐⭐ 两个数据集验证
写作质量: ⭐⭐⭐⭐ 清晰
价值: ⭐⭐⭐ 对视觉对话理解有贡献