跳转至

Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization

会议: ICCV 2025
arXiv: 2504.18397
代码: https://github.com/kesenzhao/UV-CoT
领域: LLM Reasoning / Multimodal
关键词: Visual CoT, 偏好优化, 无监督学习, 多模态推理, Bounding Box

一句话总结

提出UV-CoT框架,通过自动生成偏好数据和改进的Score-DPO损失函数,在不需要人工标注bounding box的情况下实现图像级链式思维(Visual CoT)推理,在6个基准上超越有监督的Visual-CoT方法。

研究背景与动机

CoT推理显著提升了MLLM的可解释性和问题求解能力,但现有方法集中于文本CoT,无法动态调整对输入图像不同空间区域的关注。唯一的Visual CoT工作(Visual-CoT)虽然引入了图像级推理,但存在两个关键缺陷:(1)依赖大规模人工标注bounding box数据,成本高且难以扩展;(2)基于SFT仅从正样本学习,泛化能力受限。

UV-CoT的核心动机是:能否不用任何人工标注,让模型自主学会"先看哪里、再推理"的能力?关键洞察在于——直接让MLLM生成精确坐标很困难,但让它在多个候选区域之间做排序(ranking)则简单得多。这将困难的坐标回归问题转化为了更可处理的偏好比较问题。

方法详解

整体框架

UV-CoT在推理时模拟人类感知过程:给定原图和问题,先通过CoT提示引导模型生成关键区域的bounding box坐标,然后通过视觉采样器裁剪该区域,最后综合原图和裁剪图的视觉token生成更精确的答案。训练包含两个核心阶段:偏好数据自动生成和基于Score-DPO的偏好优化。

关键设计

  1. 自动偏好数据生成管线(Algorithm 1):

    • Response Generation: 给定图像-问题对 \(x\),目标模型 \(f_{\text{tar}}\)(LLaVA-1.5-7B)通过模板提示和随机解码,生成 \(n\) 个不同的候选bounding box及对应回答 \(\{y_t^i\}_{i=1}^n\)
    • Response Evaluation: 评估器模型 \(f_{\text{eval}}\)(OmniLMM-12B)为每个回答打分。关键创新在于引入累积评估:\(s^i = s_{\text{cur}}^i + \gamma s_{\text{nxt}}^i\),其中 \(s_{\text{nxt}}^i\) 衡量当前区域对后续推理步骤的影响,\(\gamma\) 为超参数。
    • Pair Construction: 从 \(n\) 个候选中随机选取 \(k\) 个偏好对(preferred vs dis-preferred),每对包含完整推理链和对应分数 \(\{y_w, s_w, y_l, s_l\}\)
    • Response Selection: 保留最高分回答作为下一步推理的上下文,形成"最优链"。
  2. Score-DPO(sDPO)损失函数: 标准DPO仅排序偏好数据而不量化偏好强度。UV-CoT改进为引入分数间距的sDPO: \(\mathcal{L}_{\text{sDPO}}(\theta) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[\log \sigma\left(\beta \log\frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log\frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)} - (g(s_w) - g(s_l))\right)\right]\) 其中 \(g(\cdot)\) 为单调递增函数,将偏好分数映射到DPO目标的logit空间。基于Gumbel分布推导可知,\(\Delta_r = g(s_w) - g(s_l)\) 量化偏好对之间的差异程度,使模型不仅区分偏好顺序,还优化偏好差异的幅度。

  3. 迭代学习策略(Algorithm 2): 为避免标准DPO中静态偏好数据与模型演进分布不匹配的问题,将训练查询集 \(\mathcal{X}\) 均分为 \(m\) 个子集,迭代 \(m\) 次。每次迭代用当前模型 \(f_{\text{tar}}^i\) 在子集 \(\mathcal{X}_i\) 上生成新偏好数据 \(\mathcal{D}_i\),然后训练得到 \(f_{\text{tar}}^{i+1}\)。这确保偏好数据始终与模型当前能力匹配。实际用4次迭代,共249K偏好数据对(少于Visual-CoT的376K标注数据)。

损失函数 / 训练策略

使用AdamW优化器,每次迭代训练4个epoch,学习率 \(5\times10^{-7}\)\(\beta=0.1\),batch size为8。数据生成80小时,训练60小时,均在8×A100 40GB上完成。目标模型为LLaVA-1.5-7B,评估器为OmniLMM-12B。

实验关键数据

主实验

模型 DocVQA TextVQA GQA VSR 平均
LLaVA-1.5-7B 0.198 0.507 0.480 0.504 0.393
OmniLMM-12B(评估器) 0.254 0.578 0.509 0.523 0.443
Visual-CoT-7B(100%标注) 0.294 0.673 0.546 0.532 0.482
UV-CoT(0%标注) 0.265 0.686 0.536 0.548 0.473
UV-CoT(10%标注) 0.283 0.711 0.568 0.553 0.494
零样本数据集 Visual-CoT UV-CoT UV-CoT* 说明
DUDE 0.206 0.241 0.253 文档理解
Visual7w 0.397 0.432 0.455 通用VQA
V*Bench OCR 0.593 0.677 - 高分辨率OCR
V*Bench Avg 0.347 0.402 - 高分辨率推理

消融实验

配置 平均精度 说明
UV-CoT(10%标注) 0.494 完整模型
无UV-CoT推理 0.417 移除CoT直接回答,-7.7%
UV-CoT用GT BBox 0.618 上限参考,+12.4%
用标准DPO 0.475 -1.9%,无法定量偏好强度
无迭代学习 0.459 -3.5%,静态数据分布不匹配
\(\gamma\)(不考虑下一步影响) 0.406 -8.8%,MLLM难以直接评估BBox质量

关键发现

  • UV-CoT超越了其评估器OmniLMM-12B平均5.1%,说明这不是简单的模型蒸馏
  • 仅用10%标注数据的UV-CoT就超过了使用100%标注的Visual-CoT(0.494 vs 0.482)
  • 在V*Bench高分辨率图像推理上,Visual CoT方法的优势最为显著(相比非CoT基线提升>50%OCR性能),而UV-CoT进一步超过Visual-CoT 5.5%
  • \(\gamma\)参数的消融表明"考虑区域对后续推理的影响"至关重要(-8.8%),MLLM无法直接可靠地评估bounding box质量

亮点与洞察

  • 将Visual CoT问题巧妙转化为偏好排序问题,规避了MLLM坐标生成不精确的瓶颈
  • sDPO损失的数学推导基于Gumbel分布,理论上比标准DPO更适合刻画连续偏好差异
  • 迭代学习+自动数据生成构成了"自我改进循环",体现了online learning的精神
  • 评估时考虑当前+下一步影响的设计(\(\gamma\)参数)类似于强化学习中的时序差分思想

局限与展望

  • 当前每步仅生成一个bounding box,多步推理的链长度和分支数受限
  • 数据生成需要80小时+训练60小时,效率可进一步提升
  • 在DocVQA和InfographicsVQA上与GT BBox的差距仍较大,精确定位仍有提升空间
  • 仅在7B规模模型上验证,对更大模型是否同样有效尚不确定

相关工作与启发

  • 与RLHF/DPO的文本CoT优化工作互补——UV-CoT专注于图像级决策
  • 自动偏好数据生成管线可推广到其他需要空间推理的视觉任务
  • sDPO的margin设计思想可应用到其他需要量化偏好强度的场景

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 无监督Visual CoT的首次成功尝试,sDPO理论推导扎实
  • 实验充分度: ⭐⭐⭐⭐ 10个数据集覆盖多任务,消融完善,零样本验证说服力强
  • 写作质量: ⭐⭐⭐⭐ 算法描述清晰,图例信息丰富
  • 价值: ⭐⭐⭐⭐⭐ 无需标注即可超越有监督方法,实用性和可扩展性优秀

相关论文