Parallel In-context Learning for Large Vision Language Models¶

会议: CVPR 2026
arXiv: 2603.16092
代码: 无
领域: 多模态VLM
关键词: In-context Learning, 推理加速, Product-of-Experts, 多模态学习, 上下文分块

一句话总结¶

提出 Parallel-ICL，将多模态 in-context learning 的长 demonstration 上下文分块并行处理，通过加权 Product-of-Experts 在 logit 层集成，实现与全上下文 MM-ICL 相当甚至更优的性能，同时显著降低推理延迟。

领域现状：大型视觉语言模型（LVLM）通过 MM-ICL 利用多个 demonstration 示例来适应新任务，示例越多性能越好。
现有痛点：Transformer 的注意力计算代价随上下文长度二次增长，而 LVLM 中每张图片需要数千个视觉 token，导致增加 demonstration 数量会急剧增加推理延迟。例如 32-shot 比 8-shot 慢约 3.5 倍。
核心矛盾：准确率与推理效率之间存在严重的 trade-off：性能需要更多 demonstration，但推理速度要求更短的上下文。
本文要解决什么：在推理时高效近似长上下文 MM-ICL，无需额外训练或数据集。
切入角度：各个 demonstration 之间是独立的，不需要必须作为一个长序列处理。可以分块并行处理后再集成结果。
核心idea：将长 demonstration 上下文分成多个短"块"（chunk），并行处理后用加权 PoE 在 logit 层合并预测，理论依据来自集成学习中 Fano 不等式的 diversity-relevance 分析。

输入：N 个 demonstration + 查询 → Context Chunking（分块）→ 并行处理每个 chunk → Context Compilation（加权 PoE 集成 logit）→ 输出预测。

Context Chunking（上下文分块）:
使用 k-means 聚类对 demonstration 的多模态特征（CLIP 的图像+文本特征拼接）进行分组
每个聚类作为一个 chunk，使得 chunk 间差异最大化
设计动机：基于 Fano 不等式，集成学习的误差下界与预测多样性负相关（\(I_{redun}\) 越小越好），聚类可以最大化 chunk 间多样性
Context Compilation（上下文编译）:
用加权 Product-of-Experts (PoE) 集成各 chunk 的预测分布
在 logit 层实现：\(\hat{l}_\theta(y_i) = \sum_{k=1}^{K} w_k l_\theta(y_i | C_k, x, t)\)
权重 \(w_k\) 基于 chunk 与查询的相似度计算（softmax 归一化的余弦相似度）
设计动机：基于 Fano 不等式的 relevance 项（\(I_{relev}\)），给与查询更相关的 chunk 更高权重
理论基础:
基于 Theorem 5.1（Brown & Zhou-Li），集成预测误差被分解为 relevance（各模型与真值的相关性）和 redundancy（模型间重复信息）
低误差需要：高 relevance（每个 chunk 的预测准确）+ 高 diversity（chunk 间信息冗余低）
这两个性质直接指导了 chunking（最大化多样性）和 compilation（基于相关性加权）的设计

无需任何训练，纯推理时方法（plug-and-play）。

方法	Token长度	准确率	总延迟(s)
Zero-shot	2,557	0.00	0.099
MM-ICL (8-shot)	23,318	56.90	1.004
MM-ICL (16-shot)	44,027	58.20	2.376
MM-ICL (32-shot)	84,959	58.90	3.479
Parallel-ICL (32-shot, K=4)	~21K/chunk	≈58.90	~1.5

配置	关键发现
Random chunking vs Clustering	聚类分块在准确率和多样性上均优于随机分块
均匀权重 vs 相似度权重	相似度加权在多数 benchmark 上更优
图像特征 vs 文本特征 vs 多模态特征	多模态特征聚类效果最好
K=2,4 vs K=1(full) at N=32	K=2,4 在部分任务上超过完整上下文，可能缓解"lost in the middle"问题

Parallel-ICL 不改变模型参数也不改变 demonstration 集合，纯粹改变处理方式，实验中观察到的性能提升暗示全上下文 MM-ICL 中存在信息处理瓶颈
PoE 选择优于 MoE 的原因：PoE 适合高维概率分布（如 VLM 的大词汇表），在 logit 加和操作下可以高效实现
实验使用的特征提取器为 CLIP ViT-L/14，特征提取的额外延迟可以忽略
在 MI-Bench-ICL 的 demo-based learning 任务中，Parallel-ICL K=4 at N=32 的延迟仅约为 full-context 的 40%
该方法也可以与 KV cache 共享等技术结合，进一步降低延迟