💡 LLM 推理¶
📷 CVPR2025 · 共 1 篇
- Interleaved-Modal Chain-of-Thought
-
提出交错模态思维链(ICoT),在推理步骤中穿插图像区域 crop 作为视觉 rationale,通过无参数的 Attention-driven Selection(ADS)从输入图像中智能选取关键区域插入生成序列,在 Chameleon 和 Qwen2-VL 上相比现有多模态 CoT 提升高达 14%。
📷 CVPR2025 · 共 1 篇
提出交错模态思维链(ICoT),在推理步骤中穿插图像区域 crop 作为视觉 rationale,通过无参数的 Attention-driven Selection(ADS)从输入图像中智能选取关键区域插入生成序列,在 Chameleon 和 Qwen2-VL 上相比现有多模态 CoT 提升高达 14%。