Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences¶

会议: ICCV 2025
arXiv: 2506.02095
代码: https://cyclereward.github.io/
领域: 多模态VLM / 图文对齐 / 奖励建模
关键词: cycle consistency, reward model, image-text alignment, preference learning, DPO, self-supervised

一句话总结¶

提出CycleReward，利用cycle consistency作为自监督信号替代人工偏好标注——将caption用T2I模型重建为图像再比较相似度来排序，构建866K偏好对数据集CyclePrefDB，训练的奖励模型在detailed captioning上比HPSv2/PickScore/ImageReward高6%+，且DPO训练后提升VLM在多个VL任务上的性能，无需任何人工标注。

研究背景与动机¶

领域现状：图文对齐度量是多模态学习的核心挑战。现有奖励模型（ImageReward、HPSv2、PickScore）依赖大规模人工偏好标注，成本高且难以扩展。GPT-4V标注虽可用但昂贵、闭源且rate-limited。
现有痛点：(1) 人工偏好数据收集成本高、难以规模化；(2) 现有偏好数据主要针对短文本（~20 token），无法有效评估长描述性caption；(3) CLIP等嵌入式方法对长文本不敏感。
核心矛盾：长描述性caption越来越重要（ShareGPT4V、LLaVA等生成的详细描述），但缺乏能有效评估它们的alignment metric。直接比较图文很难，但把文本映射回图像空间后，图图比较就容易得多。
本文要解决什么：用cycle consistency构建无需人工标注的偏好数据集和奖励模型，特别针对长描述性caption的对齐评估。
切入角度：经典的cycle consistency思想——\(x \xrightarrow{F} y \xrightarrow{G} x'\)，如果caption \(y\)越准确，重建图像\(x' = G(y)\)就越接近原图\(x\)。把这个相似度作为偏好信号而非直接作为metric。
核心idea一句话：用cycle consistency score排序caption/image候选，构建偏好数据集训练奖励模型，实现无人工标注的图文对齐学习。

方法详解¶

整体框架¶

(1) Cycle consistency scoring: Image→Caption(多个模型生成)→T2I重建→DreamSim相似度；Text→Image(多个模型生成)→I2T重建→SBERT相似度。(2) 偏好排序：相似度更高的为preferred。(3) 构建866K偏好对数据集CyclePrefDB。(4) 训练奖励模型CycleReward（BLIP backbone + Bradley-Terry loss）。

关键设计¶

Cycle Consistency作为偏好信号:
Image-to-Text方向：给定图像\(x\)，11个I2T模型（BLIP2, LLaVA系列, InternVL2系列）生成不同质量的caption \(\{y_i\}\)，用Stable Diffusion 3将每个caption反向重建为图像\(G(y_i)\)，用DreamSim计算\(d_{img}(x, G(y_i))\)。更高相似度 = preferred。
Text-to-Image方向：给定caption \(y\)，4个T2I模型（SD1.5, SDXL, SD3, FLUX）×3 seeds生成候选图像\(\{x_i\}\)，用LLaVA-1.5-13B将每张图reverse-caption为\(F(x_i)\)，用SBERT计算\(d_{text}(y, F(x_i))\)。更高相似度 = preferred。
设计动机：直接比较跨模态（图文）不如同模态（图图或文文）比较准确。Cycle consistency巧妙地将跨模态对齐问题转化为同模态相似度问题。
CyclePrefDB数据集:
866K偏好对（398K I2T + 468K T2I），基于7.6K DCI数据集的高分辨率图像和dense caption。
平均文本长度56 token，远高于HPDv2 (19 token)和Pick-A-Pic (24 token)—— 特别适合评估detailed captioning。
数据过滤：移除重复、过滤奖励差距过小的对（\(|r_i - r_j| < \tau_{sim}\)）和preferred奖励过低的对。
设计动机：使用多个不同能力的模型（从BLIP2到InternVL2-40B）生成质量梯度明显的候选，确保偏好对的信息量。
CycleReward奖励模型:
架构：BLIP backbone（ViT-L/16 + BERT-base + 5层MLP + 标量输出头）。
三种变体：I2T-only、T2I-only、Combo（联合训练\(\mathcal{L} = \mathcal{L}_{text} + \lambda \mathcal{L}_{img}\)）。
训练证明了一个关键结论：蒸馏cycle consistency训练的奖励模型优于直接使用raw cycle consistency score——即使多seed平均的raw score也无法达到CycleReward的性能（+4%在DetailCaps上），因为奖励模型学到了比pixel重建更丰富的对齐概念。

DPO应用¶

I2T方向：用CyclePrefDB-I2T对Qwen-VL-Chat做DPO → 在detailed captioning提升同时，在perception/reasoning/hallucination等VL任务上全面提升，比VLFeedback（GPT-4V标注）效果相当或更好。
T2I方向：用CyclePrefDB-T2I对SD1.5做Diffusion DPO → 在T2I-CompBench和PartiPrompts上超过或媲美Pick-A-Pic（人工标注851K对）。

实验关键数据¶

对齐度量（Pairwise Accuracy）¶

方法	DetailCaps-4870	GenAI-Bench	标注类型
CLIPScore	51.66	49.73	无
VQAScore (11B)	50.24	64.13	无
HPSv2	54.34	56.13	人工
PickScore	51.01	57.05	人工
ImageReward	50.70	56.70	人工
Raw Cycle Consistency	56.46	52.52	自监督
CycleReward-Combo	60.50	55.52	自监督

CycleReward在detailed captioning上比所有人工标注方法高6%+，比VQAScore (11B, 24×更大)高10.26%。

Best-of-N采样¶

LLaVA-WD和DeCapBench上CycleReward的BoN增益最大（远超VQAScore、ImageReward）
T2I-CompBench上与ImageReward（人工标注）相当，在complex prompts上甚至更好

DPO结果¶

I2T DPO (Qwen-VL-Chat):

模型	DeCapBench	LLaVA-W	MMMU	MME-P	MMHal
Base	26.47	61.67	73.10	1460.2	2.99
DPO w/ VLFeedback (GPT-4V标注)	28.03	69.17	76.39	1551.5	3.32
DPO w/ CyclePrefDB-I2T	30.63	70.00	74.13	1485.7	3.11

消融¶

Similarity Metric	DetailCaps	GenAI
DreamSim (ours)	58.02	53.49
LPIPS	53.16	52.97
CLIP	57.90	53.30

关键发现¶

蒸馏奖励模型 > 原始cycle consistency score：CycleReward在所有benchmark上优于raw cycle consistency（+4% on DetailCaps），因为：(1) 奖励模型学到了超越pixel重建的高层对齐概念（如Figure 7的红鸟vs蓝鸟）；(2) 奖励模型更快（单次forward vs T2I重建）；(3) 可微分。
无需人工标注即可匹敌人工标注方法：IRDB-Cycle（在ImageRewardDB数据上用cycle consistency重标注）与原始ImageReward效果相当——证明cycle consistency是人工偏好的有效proxy。
DPO泛化性惊人：CyclePrefDB-I2T只包含captioning指令，但DPO后在perception、reasoning、hallucination等多个任务上全面提升，说明detailed captioning能力的提升对通用VL能力有正迁移。
I2T decoder越强越好：InternVL2-26B作为text-to-image cycle的I2T decoder显著优于LLaVA-1.5-13B (+5.47% on DetailCaps)，因为更强的LLM可以更准确地重建caption。
DreamSim优于LPIPS和CLIP做图像相似度：因为DreamSim专门建模人类视觉相似性判断。

亮点与洞察¶

"cycle一致性不需要实时计算"的关键insight：之前Image2Text2Image等方法直接用cycle consistency作为metric（慢、不可微）。CycleReward将其作为偏好信号训练奖励模型，获得了更好的性能+更快的推理+可微性——这是"离线蒸馏优于在线计算"的又一例证。
理论连接到PMI：cycle consistency score在理论上等价于log p(x,y) + PMI(x,y)，即同时度量了pair的似然和互信息。这提供了为什么cycle consistency作为对齐信号有效的理论基础。
"training-free data annotation at scale"范式：不用人工、不用GPT-4V，只用开源模型的cycle consistency就能自动标注百万级偏好数据。这对降低RLHF/DPO的数据获取成本有重要意义。

局限性 / 可改进方向¶

依赖T2I/I2T模型的质量——重建质量差时会产生错误偏好。
Stable Diffusion 3的77-token限制制约了更长文本的评估。
在text-to-image generation上VQAScore (11B)仍然更强——CycleReward更擅长captioning评估。
继承了底层模型的偏差（如DreamSim偏好前景相似、SD3生成偏差等）。
未探索视频/音频等其他模态的cycle consistency。

评分¶

新颖性: ⭐⭐⭐⭐⭐ Cycle consistency作为大规模偏好信号是全新且优雅的想法，理论连接到PMI清晰
实验充分度: ⭐⭐⭐⭐⭐ 5个alignment benchmark+BoN+DPO(I2T和T2I)+消融(metric/decoder/数据规模/filtering)+Winoground+与human preference的agreement rate，极其全面
写作质量: ⭐⭐⭐⭐⭐ 清晰优雅，Figure 1的overview、Figure 7的failure analysis都很好
价值: ⭐⭐⭐⭐⭐ 替代人工标注的自监督偏好学习范式，对降低VLM对齐成本有重大意义