跳转至

🗣️ 对话系统

🎞️ ECCV2024 · 2 篇论文解读

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

提出 BI-MDRG 框架,通过桥接图像历史信息来增强多模态对话中文本回复的图像 grounding 能力和连续图像回复中物体的一致性。

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation

在多模态对话响应生成(MDRG)中,通过视觉交叉注意力层+注意力掩码调制桥接图像历史到文本回复,通过Citation Module标注跨轮重复物体并结合定制化T2I模型生成一致的图像回复。