Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains¶

vs CoT for VLMs: 一般CoT不针对多图场景的焦点选择，VISC每步动态选择相关图像子集，更有针对性
vs 直接蒸馏GPT-4o: 成本高且不可靠（GPT-4o在多图上也会出错），FCDS完全基于开源模型更高效可控
vs Mantis/LLaVA-OneVision: 这些模型架构支持多图但训练范式未针对多图推理优化，VISC-150K填补了数据空白
vs Tree-of-Thought: ToT是通用推理框架，VISC针对多图场景的视觉焦点选择做了特化设计

会议: ACL 2025
arXiv: 2504.20199
代码: https://github.com/VISC
领域: 多模态VLM
关键词: 多图推理, 视觉推理链, 焦点分解, 数据合成, 多图基准

一句话总结¶

本文提出 Focus-Centric Visual Chain 推理范式，将多图复杂任务分解为聚焦子集图像的逐步推理序列，并提出 FCDS 数据合成框架构建 VISC-150K 数据集，在 7 个多图基准上平均提升 3.16% 和 2.24%。

推理范式：模型在每步生成子问题 \(q_i\) 并选择焦点图像子集 \(G_i\)，回答后决定是否继续推理。数据合成框架 FCDS：自底向上地从特征提取 → 配对连接 → 关系标注 → 问题生成，完全使用开源模型。

Focus-Centric Visual Chain:
- 每步推理产生 \((q_i, G_i, a_i, z_i)\)：子问题、焦点图像、中间答案、终止信号
- 渐进式信息聚合，最终综合所有中间答案得到最终回答
FCDS 数据合成:
- 特征提取：为每张图生成结构化 profile（整体视图、背景、物体属性、交互）
- 配对连接：基于物体共现和事件关联识别图像对
- 关系标注：分为时间、空间、语义三类关系
- 问题生成：基于图像网络和关系标注构建推理路径和问题
自底向上设计: 从单图特征到图对关系再到链式推理，确保每步都有可靠的基础。

标准的指令微调损失。

基准	LLaVA-OV	+VISC-150K	提升
7个多图基准平均	baseline	+3.16%	在4/7基准上SOTA

基准	LLaVA-OV	+VISC	Δ
NLVR2	83.2	87.1	+3.9
QBench	72.5	76.8	+4.3
MuirBench	68.1	70.3	+2.2