🗣️ 对话系统¶
🎞️ ECCV2024 · 2 篇论文解读
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation
-
提出 BI-MDRG 框架,通过桥接图像历史信息来增强多模态对话中文本回复的图像 grounding 能力和连续图像回复中物体的一致性。
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation
-
在多模态对话响应生成(MDRG)中,通过视觉交叉注意力层+注意力掩码调制桥接图像历史到文本回复,通过Citation Module标注跨轮重复物体并结合定制化T2I模型生成一致的图像回复。