Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping¶

会议: ICLR 2026 arXiv: 2510.09741 代码: 项目页领域: 机器人 关键词: MLLM, image warping, attention-guided, fine-grained perception, test-time intervention

一句话总结¶

提出 AttWarp，一种即插即用的测试时图像变形方法，利用 MLLM 自身的跨模态注意力图进行矩形网格重采样，扩展高注意力区域、压缩低注意力区域，在5个基准和4个 MLLM 上一致提升准确率、改善组合推理和减少幻觉。

领域现状: 多模态大语言模型（MLLM）如 LLaVA、Qwen-VL 在图像对话和推理方面取得进展，但在细粒度感知方面仍有明显缺陷——遗漏小目标、混淆相似物体、误解空间关系。
现有痛点: 现有改进方法要么需要外部检测器（bounding box/mask），要么需多步推理链，要么裁剪/遮挡导致丢失全局上下文。
核心矛盾: 小目标在特征提取阶段已丢失空间细节，后续的注意力改进无法挽回；但简单放大/裁剪又会丢失全局布局。
本文要解决什么: 在不修改模型权重和架构的前提下，通过输入层面的空间变换增强查询相关区域的分辨率。
切入角度: 类比人类的中央凹视觉（foveal vision）——对关注区域密集采样，对外围稀疏采样，同时保留全局信息。
核心idea一句话: 用模型自身的注意力引导一次矩形线性变形，让同一个模型"看得更清楚"。

输入图像 + 查询 → MLLM 提取跨模态注意力图 → 聚合为注意力得分矩阵 → 计算边缘注意力分布 → CDF 逆变换产生变形映射 → 双线性重采样得到变形图像 → 同一 MLLM 处理变形图像得到答案。

矩形线性变形 (Rectilinear Warping): 将 2D 注意力矩阵分解为水平和垂直边缘分布 $m_x(j), m_y(i)$，计算 CDF 并取逆作为变形映射： $$f_X^{\text{Warp}}(j) = W \cdot M_x^{-1}(j/W), \quad f_Y^{\text{Warp}}(i) = H \cdot M_y^{-1}(i/H)$$ 保持规则网格结构，与标准视觉编码器兼容。所有原始图像信息被保留（非裁剪/遮挡），仅重新分配像素密度。
AttWarp-Chain（迭代变形）: 变形改善注意力 → 更好的注意力产生更好的变形，形成正反馈。用 KL 散度作为终止条件： $$\mathcal{D}_{KL}(P^{(d)} | P^{(d-1)}) < \epsilon_{KL}$$
AttWarp-Distill（蒸馏版）: 训练轻量网络（CLIP ViT-L/14 + FiLM 调制 + Conv1D）直接从图像-文本对预测边缘分布 $(\hat{m}_x, \hat{m}_y)$，跳过注意力提取步骤。L1 损失训练，单次前向传播推理，速度比 ViCrop 快 3x。
注意力得分矩阵: 从 MLLM 指定解码器层提取跨模态注意力，跨输出 token、注意力头、层进行平均，上采样到图像分辨率并平滑： $$\tilde{A}_{i,j} = \frac{1}{n_{\text{out}} \cdot n_{\text{heads}} \cdot |\mathcal{L}|} \sum_{\ell \in \mathcal{L}} \sum_m \sum_h a^{(\ell,h)}_{m,t}$$

LLaVA-v1.5-7B 上的结果（准确率%）:

方法	TextVQA	GQA	MMMU	POPE	DocVQA
Base MLLM	49.3	60.5	36.9	85.3	18.1
ViCrop	56.3	60.9	37.2	87.0	22.5
AttWarp	58.1	63.7	40.4	87.5	25.5
AttWarp-Chain	60.3	64.4	41.6	88.2	27.6
Δ vs 最强基线	+4.0	+3.5	+4.4	+1.2	+5.1

Qwen2.5-VL 上同样一致提升 (+2.1~3.6%)。

注意力分布改善验证 (TextVQA):

指标	无变形	有 AttWarp
Pointing Game Accuracy	37.4%	42.4% (+5%)
Proportion (bbox 内注意力占比)	0.117	0.155 (+3.8%)

分布偏移分析：AttWarp KID=31.5 vs Non-Rectilinear Warp KID=174.9（与训练分布的距离），证明矩形线性变形几乎不引入分布偏移。