Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search¶
会议: ACL 2025
arXiv: 2506.11155
代码: https://github.com/tjunlp-lab/MCTS-VCB
领域: 多模态VLM
关键词: 视频描述, MCTS, 评估基准, 关键点生成, 视频理解
一句话总结¶
提出AutoCaption框架,利用蒙特卡洛树搜索(MCTS)自动迭代生成细粒度视频描述关键点(平均122个/视频),构建MCTS-VCB基准评估20+个MLLM的视频描述能力,并证明生成的数据可用于微调显著提升模型性能。
研究背景与动机¶
- 领域现状:视频描述(Video Captioning)是评估MLLM视频理解能力的重要任务,现有方法通过创建关键点(描述性句子)并与模型生成的描述比较来评估。
- 现有痛点:(a) 现有基准的关键点不充分或同质化——如DREAM-1K平均每个视频仅6.3个关键点,容易漏掉细节;(b) 关键点多以动作为主,忽略外观、环境、物体属性等维度;(c) 人工标注成本极高,难以规模化。
- 核心矛盾:要全面评估MLLM的视频理解能力,需要覆盖视频内容的各个维度和细节,但手动创建如此细粒度的关键点既昂贵又不完整,导致现有评估容易高估或不准确。
- 本文要解决什么? (a) 如何自动生成大量多样、细粒度的视频描述关键点?(b) 如何构建全面覆盖视频内容各维度的评估基准?(c) 生成的数据能否用于提升模型性能?
- 切入角度:将MCTS的迭代搜索能力应用于视频描述——通过定义6种描述动作(整体、细节、时序、空间、背景、镜头运动),在搜索树中不断扩展新节点来发现视频中更深层的细节。
- 核心idea一句话:用MCTS迭代搜索视频内容的描述空间,自动生成平均122个经过验证的关键点,构建比人工标注更全面的细粒度视频描述基准。
方法详解¶
整体框架¶
输入:视频\(v\)。AutoCaption通过MCTS构建搜索树\(T\),根节点为视频,每条边代表一个描述动作(6种之一),子节点代表动作执行后的状态(新描述)。通过迭代的Selection → Expansion → Evaluation → Backpropagation四步,不断发现新的视频细节。最后对所有节点的描述进行后处理(去重、验证),得到经过验证的关键点集合。
关键设计¶
- 6种描述动作的设计:
- 做什么:定义覆盖视频内容各维度的动作类型
- 核心思路:A1整体描述(仅在根节点后执行一次,由GPT-4o和Gemini初始化)、A2细节描述(采样概率是其他动作的2倍,采用两阶段过程:先发现新细节→再提取尚未描述的属性进一步描述)、A3时间视角描述、A4空间视角描述、A5背景描述、A6镜头运动描述。每个节点随机扩展2个动作
-
设计动机:视频内容是多维的,仅靠动作描述无法全面覆盖。6种动作确保从外观、时间、空间、环境、镜头等多角度挖掘信息
-
MCTS节点评估与选择:
- 做什么:平衡正确性和多样性来选择最有价值的节点进行扩展
- 核心思路:节点状态值 \(Q(s,a) = \alpha^{1-MC(s)} \cdot \beta^{SM(s)}\),其中\(MC(s)\)是蒙特卡洛值(关键点验证通过比例),\(SM(s)\)是与路径上其他节点的相似度。高\(MC\)(正确)低\(SM\)(新颖)的节点有更高价值。选择时用PUCT算法:\(s_i = \arg\max_{s \in L(T)}[Q(s,a) + c\frac{\sqrt{N_{parent}(s)}}{1+N(s)}]\)
-
设计动机:MCTS的核心在于explore-exploit平衡,MC值确保扩展的节点产生正确描述,SM值避免重复已有信息
-
关键点验证流程:
- 做什么:自动验证生成的关键点是否准确描述了视频内容
- 核心思路:三步验证——(i) 从描述中提取需验证的关键信息;(ii) 为每条信息生成验证问题(是/否);(iii) 用两个不同的MLLM(GPT-4o和Qwen2-VL-72B)看视频回答验证问题,只有两个模型都确认通过的关键点才保留。这保证了关键点的准确性
- 设计动机:MLLM生成的描述可能包含幻觉,用双模型交叉验证可以过滤掉错误信息,确保基准的质量
损失函数 / 训练策略¶
AutoCaption本身不涉及训练。但论文展示了用AutoCaption生成的约10K样本微调InternVL2.5-8B的效果:在MCTS-VCB上提升25.0%,在DREAM-1K上提升16.3%。
实验关键数据¶
主实验¶
20+个MLLM在MCTS-VCB上的F1分数对比(5个维度+总体):
| 模型 | 外观 | 动作 | 环境 | 物体 | 镜头 | 总体F1 |
|---|---|---|---|---|---|---|
| Gemini-1.5-Pro | - | - | - | - | - | 71.2 |
| GPT-4o | - | - | - | - | - | 70.6 |
| LLaVA-OV-72B | 56.9 | 68.3 | 70.9 | 55.7 | 57.7 | 64.1 |
| InternVL2.5-78B | 48.2 | 53.8 | 60.3 | 44.4 | 40.6 | 52.4 |
| InternVL2.5-8B | 46.8 | 51.0 | 59.4 | 42.7 | 40.1 | 50.8 |
消融实验¶
AutoCaption数据微调InternVL2.5-8B的效果:
| 配置 | MCTS-VCB F1 | DREAM-1K F1 |
|---|---|---|
| InternVL2.5-8B (原始) | 50.8 | 基准 |
| + AutoCaption 10K微调 | 63.5 (+25.0%) | +16.3% |
关键发现¶
- Gemini-1.5-Pro最强但仅71.2 F1:说明MCTS-VCB的评估难度较高,即使最强闭源模型也有30%左右的关键点无法覆盖
- 开闭源差距显著:最好的开源模型LLaVA-OV-72B(64.1)与Gemini-1.5-Pro(71.2)相差7.1pp
- 物体属性和镜头运动是薄弱环节:所有模型在Object Description和Camera Movement维度上表现最差,说明现有MLLM对细粒度物体属性和镜头语言理解不足
- 规模不总等于质量:InternVL2.5系列中8B到78B的提升仅1.6pp(50.8→52.4),而LLaVA-OV-7B直接达到62.8,说明训练数据和策略比模型规模更重要
- AutoCaption数据的微调效果惊人:仅10K样本就提升25.0%,且迁移到DREAM-1K也提升16.3%,证明AutoCaption不只是好的评估工具,也是优秀的数据生成工具
- 平均122个关键点 vs DREAM-1K的6.3个:约20倍的关键点密度使评估更全面,不容易被"幸运"覆盖所欺骗
亮点与洞察¶
- MCTS用于内容发现的创新应用:MCTS通常用于决策和推理,但这里被用于"搜索视频内容的描述空间"——让AI系统性地发现视频中的每一个可描述的细节。这个思路可以迁移到图像细节描述、文档信息抽取等场景
- 双模型交叉验证的质量控制:用两个不同的MLLM验证关键点的正确性,比单模型验证更可靠,有效控制了幻觉
- 评估即数据的双重价值:AutoCaption生成的评估关键点本身也是高质量训练数据,一个框架同时解决了评估和数据两个问题
局限性 / 可改进方向¶
- 依赖强大MLLM做初始化:A1整体描述动作需要GPT-4o和Gemini-1.5-Pro,验证也需要GPT-4o,对API成本有较高要求
- 长视频处理能力有限:MCTS-VCB的视频大多较短,对长视频(>5分钟)的适用性未验证
- 6种动作的设计偏人工:动作类型是预定义的,可能无法覆盖所有类型的视频内容(如情感、叙事结构等)
- 可改进方向:将动作设计也交给MCTS自动发现;将框架扩展到多语言视频描述
相关工作与启发¶
- vs DREAM-1K: DREAM-1K人工标注关键点,平均仅6.3个/视频且偏向事件描述;MCTS-VCB自动生成122个/视频且覆盖5个维度,评估更全面
- vs MSR-VTT/MSCV: 传统基准仅提供单句描述,完全无法用于细粒度评估
- vs MCTS在推理中的应用: MCTS在数学推理(如AlphaProof)中用于搜索解题路径,本文将其用于搜索"描述路径",是一种有趣的跨领域迁移
评分¶
- 新颖性: ⭐⭐⭐⭐ MCTS用于视频内容发现是新颖的应用
- 实验充分度: ⭐⭐⭐⭐⭐ 20+模型评估+微调验证+跨基准迁移
- 写作质量: ⭐⭐⭐⭐ 框架描述清楚,动机和流程阐述充分
- 价值: ⭐⭐⭐⭐ 既是评估工具又是数据生成工具,双重价值