跳转至

Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping

会议: ICLR 2026 arXiv: 2510.09741 代码: 项目页 领域: 机器人 关键词: MLLM, image warping, attention-guided, fine-grained perception, test-time intervention

一句话总结

提出 AttWarp,一种即插即用的测试时图像变形方法,利用 MLLM 自身的跨模态注意力图进行矩形网格重采样, 扩展高注意力区域、压缩低注意力区域,在5个基准和4个 MLLM 上一致提升准确率、改善组合推理和减少幻觉。

研究背景与动机

  1. 领域现状: 多模态大语言模型(MLLM)如 LLaVA、Qwen-VL 在图像对话和推理方面取得进展,但在细粒度感知方面仍有明显缺陷——遗漏小目标、混淆相似物体、误解空间关系。
  2. 现有痛点: 现有改进方法要么需要外部检测器(bounding box/mask),要么需多步推理链,要么裁剪/遮挡导致丢失全局上下文。
  3. 核心矛盾: 小目标在特征提取阶段已丢失空间细节,后续的注意力改进无法挽回;但简单放大/裁剪又会丢失全局布局。
  4. 本文要解决什么: 在不修改模型权重和架构的前提下,通过输入层面的空间变换增强查询相关区域的分辨率。
  5. 切入角度: 类比人类的中央凹视觉(foveal vision)——对关注区域密集采样,对外围稀疏采样,同时保留全局信息。
  6. 核心idea一句话: 用模型自身的注意力引导一次矩形线性变形,让同一个模型"看得更清楚"。

方法详解

整体框架

输入图像 + 查询 → MLLM 提取跨模态注意力图 → 聚合为注意力得分矩阵 → 计算边缘注意力分布 → CDF 逆变换产生变形映射 → 双线性重采样得到变形图像 → 同一 MLLM 处理变形图像得到答案。

关键设计

  1. 矩形线性变形 (Rectilinear Warping): 将 2D 注意力矩阵分解为水平和垂直边缘分布 \(m_x(j), m_y(i)\),计算 CDF 并取逆作为变形映射: $\(f_X^{\text{Warp}}(j) = W \cdot M_x^{-1}(j/W), \quad f_Y^{\text{Warp}}(i) = H \cdot M_y^{-1}(i/H)\)$ 保持规则网格结构,与标准视觉编码器兼容。所有原始图像信息被保留(非裁剪/遮挡),仅重新分配像素密度。

  2. AttWarp-Chain(迭代变形): 变形改善注意力 → 更好的注意力产生更好的变形,形成正反馈。用 KL 散度作为终止条件: $\(\mathcal{D}_{KL}(P^{(d)} | P^{(d-1)}) < \epsilon_{KL}\)$

  3. AttWarp-Distill(蒸馏版): 训练轻量网络(CLIP ViT-L/14 + FiLM 调制 + Conv1D)直接从图像-文本对预测边缘分布 \((\hat{m}_x, \hat{m}_y)\),跳过注意力提取步骤。L1 损失训练,单次前向传播推理,速度比 ViCrop 快 3x。

  4. 注意力得分矩阵: 从 MLLM 指定解码器层提取跨模态注意力,跨输出 token、注意力头、层进行平均,上采样到图像分辨率并平滑: $\(\tilde{A}_{i,j} = \frac{1}{n_{\text{out}} \cdot n_{\text{heads}} \cdot |\mathcal{L}|} \sum_{\ell \in \mathcal{L}} \sum_m \sum_h a^{(\ell,h)}_{m,t}\)$

损失函数 / 训练策略

  • AttWarp/AttWarp-Chain: 无训练,纯测试时方法
  • AttWarp-Distill: 在 TextVQA/GQA/DocVQA 训练集上用教师注意力作为目标,L1 损失训练

实验关键数据

主实验

LLaVA-v1.5-7B 上的结果(准确率%):

方法 TextVQA GQA MMMU POPE DocVQA
Base MLLM 49.3 60.5 36.9 85.3 18.1
ViCrop 56.3 60.9 37.2 87.0 22.5
AttWarp 58.1 63.7 40.4 87.5 25.5
AttWarp-Chain 60.3 64.4 41.6 88.2 27.6
Δ vs 最强基线 +4.0 +3.5 +4.4 +1.2 +5.1

Qwen2.5-VL 上同样一致提升 (+2.1~3.6%)。

消融实验

注意力分布改善验证 (TextVQA):

指标 无变形 有 AttWarp
Pointing Game Accuracy 37.4% 42.4% (+5%)
Proportion (bbox 内注意力占比) 0.117 0.155 (+3.8%)

分布偏移分析:AttWarp KID=31.5 vs Non-Rectilinear Warp KID=174.9(与训练分布的距离),证明矩形线性变形几乎不引入分布偏移。

关键发现

  • 变形确实让注意力更集中于正确区域,Pointing Game 准确率提升 5%
  • 矩形线性设计是关键——非矩形变形导致严重分布偏移(KID 从 31.5 增至 174.9)
  • AttWarp-Distill 仅 8.7 TFLOPs,接近 Base MLLM 的 8.5 TFLOPs,远优于 ViCrop 的 24.2 TFLOPs
  • 错误分析显示 AttWarp 主要减少了细粒度细节和组合推理的错误

亮点与洞察

  • "建设性扭曲"的哲学: 受人类中央凹视觉启发,主动变形输入是合理且有效的策略
  • 即插即用: 无需修改模型,跨 4 种不同架构的 MLLM(LLaVA, Qwen-VL, InternVL, InstructBLIP)一致有效
  • 保信息性: 与裁剪/遮挡不同,变形保留了所有像素信息,仅重新分配密度
  • CDF 逆变换框架: 将注意力分布转化为变形映射的数学框架优雅简洁,单次 CDF 前向传播即可
  • AttWarp-Chain 的正反馈: 变形改善注意力、注意力改善变形的迭代增强,KL 散度自动终止
  • 分布保持分析: 严格验证了矩形变形不引入分布偏移(KID/FID/Mahalanobis)

局限性 / 可改进方向

  • 需要两次 MLLM 前向传播(一次提取注意力、一次推理),延迟翻倍
  • 变形可能抑制外围上下文对全局推理的帮助,特别是需要全场景理解的问题
  • 绝对尺度信息在变形后丢失,尺寸相关问题可能受影响
  • AttWarp-Chain 的迭代次数依赖 KL 阈值超参
  • 注意力质量是前提——如果初始注意力完全偏离,变形会适得其反
  • 变形幅度无理论上界,极端变形可能导致非目标区域的严重压缩
  • 未探索在视频理解模型中的应用(时序一致性的变形)

相关工作与启发

  • 与 FGVP/SoM/ViCrop 等测试时干预方法对比:AttWarp 是唯一保留完整图像信息的方法
  • 与 APIPrompting 对比:后者叠加注意力热力图,引入了非原始信息; AttWarp 保持纯图像输入
  • seam carving、saliency-aware warping 等经典方法的现代复兴,但传统方法多基于优化(单张数分钟),AttWarp 基于 CDF 单次前向传播
  • 启发:在输入层面干预(而非中间表征)是改善感知模型的被忽视但有效的策略
  • 对具身 AI / AR 设备的启发:AttWarp-Distill 的单次推理适合低延迟场景

评分

  • 新颖性: ⭐⭐⭐⭐ 注意力引导变形的思路新颖,CDF 逆变换框架优雅,受 foveal vision 启发
  • 实验充分度: ⭐⭐⭐⭐⭐ 5基准+4模型+分布分析+注意力验证+错误分析,非常充分
  • 写作质量: ⭐⭐⭐⭐⭐ 动机→方法→实验逻辑流畅,图示清晰,分析彻底
  • 价值: ⭐⭐⭐⭐ 即插即用的实际价值高,但本质是测试时 trick,理论深度有限