CycleCap: Improving VLMs Captioning via Self-Supervised Cycle Consistency¶

日期: 2026-03-18
arXiv: 2603.18282
领域: 图像生成 / 多模态/VLM
代码: 无
关键词: 循环一致性, 自监督, GRPO, 图像描述, VLM微调

一句话总结¶

将循环一致性（图→文→图重建相似度）作为 GRPO 奖励信号自监督微调 VLM，仅需原始图像无需标注数据，在 1B-7B 模型上一致提升 captioning 和减少幻觉。

领域现状: VLM 在图像描述任务上取得显著进展，但仍存在视觉-语言对齐不足——生成过于笼统或包含幻觉的描述。现有改进方法依赖昂贵的人工标注指令数据或复杂的推理时多阶段管线。
现有痛点: 指令微调需要大规模标注的图文对数据集（成本高）；推理时精炼方案依赖 GPT-4V + DALL-E 3 等多模型协作（推理开销大、不可扩展）。之前利用循环一致性的方法（RICO、CyclePref）仅将其作为偏好数据集的排序标准，需要多步流程和外部 API。
核心矛盾: captioning 质量改进需要高质量监督信号，但人工标注昂贵且主观——需要一种不依赖人工标注的自动化质量评估方式。
切入角度: "好的 caption 应该能完整重建原图"——这是一个天然的自监督信号，不需要任何文本标注。循环一致性 Sim(x, G(F(x))) 越高，说明 caption 捕获的视觉语义越完整。
核心 idea: 将循环一致性直接作为 GRPO 训练信号——VLM 生成 caption \(y = F(x)\)，冻结的文生图模型重建 \(x' = G(y)\)，用 DreamSim 计算 \(R = \text{Sim}(x, G(F(x)))\) 作为奖励，引导 VLM 生成能更好还原原图的描述。

图像 \(x\) → VLM 生成 \(n\) 个候选 caption → 每个 caption 送入冻结的 SD3 重建图像 → DreamSim 计算原图与重建图相似度作为奖励 → GRPO 优化 VLM 参数。

循环一致性奖励 (Cycle Consistency Reward):
- 做什么：评估生成文本描述的视觉忠实度
- 核心思路：\(R = \text{Sim}(x, G(F(x)))\)，用 DreamSim 度量原图与重建图的感知-语义相似度
- 设计动机：能精准还原原图的 caption 必然捕获了关键视觉语义——无需参考标注即可评估描述质量
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练
GRPO 微调:
- 做什么：用相对优势引导 VLM 生成更好的描述
- 核心思路：每张图生成 8 个候选 caption，计算各自的循环奖励后归一化为相对优势 \(A_i\)，用 PPO 风格的 clipped 目标函数更新 VLM（LoRA rank=64）
- 设计动机：GRPO 使用组内相对排序，无需额外 critic 模型，训练效率高
- 实现细节：该模块在训练中采用端到端优化，与其他组件联合学习，无需单独预训练

模型	CompreCap ↑	CAPability ↑	CapsBench ↑	MMHal ↑
InternVL3-1B	56.6	64.3	73.2	2.52
+ CycleCap	59.0	66.8	75.1	2.72
Qwen2-VL-7B	62.8	72.1	76.8	3.01
+ CycleCap	64.6	73.5	78.9	3.15