🗣️ 对话系统¶

🎞️ ECCV2024 · 2 篇论文解读

BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation: 提出 BI-MDRG 框架，通过桥接图像历史信息来增强多模态对话中文本回复的图像 grounding 能力和连续图像回复中物体的一致性。
BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation: 在多模态对话响应生成（MDRG）中，通过视觉交叉注意力层+注意力掩码调制桥接图像历史到文本回复，通过Citation Module标注跨轮重复物体并结合定制化T2I模型生成一致的图像回复。