CycleCap: Improving VLMs Captioning Performance via Self-Supervised Cycle Consistency Fine-Tuning¶
日期: 2026-03-20
arXiv: 2603.18282
代码: 无
领域: 多模态VLM
关键词: image captioning, cycle consistency, GRPO, self-supervised, DreamSim
一句话总结¶
提出 CycleCap,用循环一致性作为自监督奖励(图像→Caption→重建图像,DreamSim 衡量一致性)配合 GRPO 微调 VLM captioning 能力,无需标注数据,在 CompreCap/CAPability/CapsBench 上稳定提升 1.3-3.2 分,且减少幻觉。
研究背景与动机¶
-
领域现状: VLM 在 image captioning 上仍存在描述过于笼统或产生幻觉的问题。现有改进方案要么需要昂贵的偏好标注数据(DPO-style),要么依赖 GPT-4 迭代精修(RICO)。
-
现有痛点: (a) 偏好数据标注成本高且难以规模化;(b) 测试时精修方法需要外部 API 调用,推理成本高;(c) 图像-文本对齐仍是根本挑战——模型倾向生成"安全但无信息"的描述。
-
核心 idea: 好的 caption 应该能唯一地"重建"原始图像——如果 text-to-image 模型从 caption 生成的图像与原图相似,说明 caption 准确、详细、无幻觉。用此循环一致性作为免标注的奖励信号。
方法详解¶
关键设计¶
-
循环一致性奖励:
- Image → VLM → Caption → Frozen T2I model (SD3/FLUX.1-dev) → Reconstructed Image
- 奖励 = DreamSim(原图, 重建图)——DreamSim 比 LPIPS 和 CLIP 更好平衡感知和语义
- T2I 模型全程冻结,只更新 VLM 参数
-
GRPO 微调:
- 每张图采样 n=8 个候选 caption
- 计算组内相对优势(advantage)
- 裁剪策略梯度 + KL 正则化
- 训练数据:83K COCO 图像,1 epoch,LoRA rank 64
实验关键数据¶
CompreCap (统一分数 0-100)¶
| 模型 | Base | +CycleCap | 提升 |
|---|---|---|---|
| InternVL3-1B | 60.24 | 62.49 | +2.25 |
| Qwen2-VL-2B | 59.35 | 62.09 | +2.74 |
| Qwen2.5-VL-3B | 59.21 | 62.42 | +3.21 |
| Qwen2-VL-7B | 61.73 | 63.06 | +1.33 |
CAPability (0-100)¶
| 配置 | Qwen2-VL-7B |
|---|---|
| Base | 70.47 |
| +CycleCap (SD3) | 72.95 (+2.48) |
| +CycleCap (FLUX.1-dev) | 73.73 (+3.26) |
| RICO-Flash | 62.93 |
幻觉减少 (MMHal, 0-6)¶
Qwen2-VL-7B: 3.85 → 4.02 (+0.17)
消融(奖励指标对比)¶
- DreamSim: 最佳整体表现(平衡感知+语义)
- LPIPS: 主要帮助 CompreCap,其他不稳定
- CLIP similarity: 弱,主要帮助幻觉鲁棒性
关键发现¶
- 更强的 T2I 模型带来更高提升:FLUX.1-dev > SD3
- 跨规模一致有效:1B-7B 参数模型都受益
- 可与监督方法叠加:CycleCap on RICO-Flash 达到 77.72 CapsBench
亮点与洞察¶
- 循环一致性作为自监督信号的直觉极其自然:好 caption = 能重建原图——无需人工标注,理论上无限可扩展
- 免 API 调用是重要工程优势:vs RICO 的迭代 GPT-4 精修,CycleCap 完全本地化
- DreamSim 作为奖励指标的选择有讲究——纯感知(LPIPS)或纯语义(CLIP)都不够好
局限性 / 可改进方向¶
- T2I 生成本身引入噪声——如果 T2I 模型对某些 caption 理解有偏差,奖励信号会不准
- GRPO 采样 8 个候选 × T2I 生成 → 训练成本仍不低
- 奖励信号质量受限于 T2I 模型能力——未来更强的 T2I 可进一步释放潜力
评分¶
- 新颖性: ⭐⭐⭐⭐ 循环一致性用于 captioning 训练的思路优雅
- 实验充分度: ⭐⭐⭐⭐ 多模型/多 benchmark/多奖励指标消融
- 价值: ⭐⭐⭐⭐ 免标注的 captioning 提升方案,实用且可扩展