VIVECaption: A Split Approach to Caption Quality Improvement¶

日期: 2026-03-08
arXiv: 2603.07401
代码: 无
领域: 图像生成
关键词: image captioning, character detection, VLM finetuning, text-to-image, gold-standard dataset

一句话总结¶

提出 VIVECaption，通过"两侧"策略改善 T2I/T2V 训练数据的图文对齐——Side A 用 CLIP 聚类+HDBSCAN 分层采样构建 310 张金标准数据集，Side B 用 SFT 微调 VLM 的角色检测能力，7B SFT 模型的角色 MacroF1 从 0.66 提升至 0.92。

研究背景与动机¶

领域现状: T2I/T2V 生成模型的训练质量严重依赖图文对齐的 caption 质量。自动生成的 caption 在角色识别和场景描述上错误频繁。
现有痛点: (a) VLM 在特定领域（如动画电影角色）的识别能力差；(b) 大规模人工标注成本高；(c) 缺乏系统化的 caption 质量改善流程。
核心 idea: 用少量金标准（310 张/14.35%）微调角色检测，再用检测结果引导结构化 caption 生成——少标注高杠杆。

方法详解¶

整体框架¶

动画数据 → Side A（金标准构建）: 视觉聚类采样+人工标注 → 角色参考集 → Side B（模型对齐）: In-Context 对齐 + SFT 参数对齐 → 高质量角色检测器 → Caption 管线: 检测角色 → 生成结构化 JSON 描述

Side A: 金标准数据集构建（关键步骤详解）¶

视觉嵌入: Sprite Fright 动画 2161 帧 → CLIP ViT-B/32 提取嵌入
聚类采样: UMAP 降维 → HDBSCAN 聚类（310 簇，覆盖各种场景/角色配置）→ 每簇采样 1 帧 → 310 张代表性帧
人工标注: 为每帧标注出现的角色集合（角色名列表）
设计动机: 随机采样 310 帧可能全是相似场景→聚类确保视觉多样性覆盖（14.35% 帧覆盖率但信息量远超随机采样）

Side B: 模型对齐（三步管线）¶

In-Context 对齐: 为 VLM 提供每个角色的参考图像+文字描述作为上下文→零样本角色识别
SFT 参数对齐: 310 张标注帧的 80/20 split → 二元交叉熵损失 → PEFT 微调（LoRA）→ 5 epochs → 学习识别特定角色出现的视觉模式
Caption 生成管线: Qwen2.5-VL 检测当前帧出现的角色名 → InternVL3-38B 基于角色名+帧图像生成结构化 JSON caption（含 characters/scene/actions/camera 字段）

核心设计动机¶

为什么分 Side A/B？角色检测（谁在场）和场景描述（发生什么）是两个正交且互补的子问题。先精准识别角色→再条件化生成描述→避免角色混淆污染整个 caption
为什么用 JSON 格式？T2I 模型训练需要结构化数据（分离角色/场景/动作/镜头），自由文本难以可靠提取这些维度

实验关键数据¶

主实验¶

模型	Precision	Recall	MacroF1	#Mistakes
Baseline 7B	0.71	0.64	0.66	0.87
SFT 7B	0.92	0.93	0.92	0.21
Baseline 32B	0.75	0.75	0.74	0.50
SFT 32B	0.91	0.94	0.92	0.23

Caption 质量（VLM-as-eval, Gemini 2.5-Pro 评分 1-10）¶

指标	无检测	SFT 7B
Overall	5.89	7.35
Characters	3.89	5.44
Scene	4.81	6.94

关键发现¶

3B SFT 模型性能接近 32B baseline——少量标注+微调的杠杆效应惊人
310 张金标准足以训练出高质量角色检测器
结构化 JSON caption 比自由文本更适合 T2I 训练

亮点与洞察¶

少标注高杠杆: 14.35% 的采样+微调即可大幅改善整体 caption 质量
聚类采样保证多样性: HDBSCAN 确保金标准覆盖视觉多样性
工程实现考量：该方法的计算开销可控，在标准 GPU 上可以合理时间内完成训练和推理，具有实际部署潜力

局限性 / 可改进方向¶

仅在单部电影（Sprite Fright）上验证
假设角色在影片中外观一致
缺乏与其他 caption 改善方法的对比
与其他 SOTA 方法的公平对比需要统一实验设置，当前对比可能存在实现差异
更大规模和更多样化数据上的泛化能力需要进一步验证
消融实验的完整性可进一步提升，对各超参数的敏感性分析将增强结论的说服力
计算效率分析（FLOPs、延迟、内存占用）应作为标准评估维度纳入

评分¶

新颖性: ⭐⭐⭐ 实用的工程方案
实验充分度: ⭐⭐⭐⭐ 多指标+VLM-as-eval+显著性检验
写作质量: ⭐⭐⭐⭐ 两侧策略组织清晰
价值: ⭐⭐⭐ 对 T2I 数据质量改善有参考