Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search¶

会议: ACL 2025
arXiv: 2506.11155
代码: https://github.com/tjunlp-lab/MCTS-VCB
领域: 多模态VLM
关键词: 视频描述, MCTS, 评估基准, 关键点生成, 视频理解

一句话总结¶

提出AutoCaption框架，利用蒙特卡洛树搜索(MCTS)自动迭代生成细粒度视频描述关键点（平均122个/视频），构建MCTS-VCB基准评估20+个MLLM的视频描述能力，并证明生成的数据可用于微调显著提升模型性能。

研究背景与动机¶

领域现状：视频描述(Video Captioning)是评估MLLM视频理解能力的重要任务，现有方法通过创建关键点（描述性句子）并与模型生成的描述比较来评估。
现有痛点：(a) 现有基准的关键点不充分或同质化——如DREAM-1K平均每个视频仅6.3个关键点，容易漏掉细节；(b) 关键点多以动作为主，忽略外观、环境、物体属性等维度；(c) 人工标注成本极高，难以规模化。
核心矛盾：要全面评估MLLM的视频理解能力，需要覆盖视频内容的各个维度和细节，但手动创建如此细粒度的关键点既昂贵又不完整，导致现有评估容易高估或不准确。
本文要解决什么？ (a) 如何自动生成大量多样、细粒度的视频描述关键点？(b) 如何构建全面覆盖视频内容各维度的评估基准？(c) 生成的数据能否用于提升模型性能？
切入角度：将MCTS的迭代搜索能力应用于视频描述——通过定义6种描述动作（整体、细节、时序、空间、背景、镜头运动），在搜索树中不断扩展新节点来发现视频中更深层的细节。
核心idea一句话：用MCTS迭代搜索视频内容的描述空间，自动生成平均122个经过验证的关键点，构建比人工标注更全面的细粒度视频描述基准。

方法详解¶

整体框架¶

输入：视频\(v\)。AutoCaption通过MCTS构建搜索树\(T\)，根节点为视频，每条边代表一个描述动作（6种之一），子节点代表动作执行后的状态（新描述）。通过迭代的Selection → Expansion → Evaluation → Backpropagation四步，不断发现新的视频细节。最后对所有节点的描述进行后处理（去重、验证），得到经过验证的关键点集合。

关键设计¶

6种描述动作的设计:
做什么：定义覆盖视频内容各维度的动作类型
核心思路：A1整体描述（仅在根节点后执行一次，由GPT-4o和Gemini初始化）、A2细节描述（采样概率是其他动作的2倍，采用两阶段过程：先发现新细节→再提取尚未描述的属性进一步描述）、A3时间视角描述、A4空间视角描述、A5背景描述、A6镜头运动描述。每个节点随机扩展2个动作
设计动机：视频内容是多维的，仅靠动作描述无法全面覆盖。6种动作确保从外观、时间、空间、环境、镜头等多角度挖掘信息
MCTS节点评估与选择:
做什么：平衡正确性和多样性来选择最有价值的节点进行扩展
核心思路：节点状态值 \(Q(s,a) = \alpha^{1-MC(s)} \cdot \beta^{SM(s)}\)，其中\(MC(s)\)是蒙特卡洛值（关键点验证通过比例），\(SM(s)\)是与路径上其他节点的相似度。高\(MC\)（正确）低\(SM\)（新颖）的节点有更高价值。选择时用PUCT算法：\(s_i = \arg\max_{s \in L(T)}[Q(s,a) + c\frac{\sqrt{N_{parent}(s)}}{1+N(s)}]\)
设计动机：MCTS的核心在于explore-exploit平衡，MC值确保扩展的节点产生正确描述，SM值避免重复已有信息
关键点验证流程:
做什么：自动验证生成的关键点是否准确描述了视频内容
核心思路：三步验证——(i) 从描述中提取需验证的关键信息；(ii) 为每条信息生成验证问题（是/否）；(iii) 用两个不同的MLLM（GPT-4o和Qwen2-VL-72B）看视频回答验证问题，只有两个模型都确认通过的关键点才保留。这保证了关键点的准确性
设计动机：MLLM生成的描述可能包含幻觉，用双模型交叉验证可以过滤掉错误信息，确保基准的质量

损失函数 / 训练策略¶

AutoCaption本身不涉及训练。但论文展示了用AutoCaption生成的约10K样本微调InternVL2.5-8B的效果：在MCTS-VCB上提升25.0%，在DREAM-1K上提升16.3%。

实验关键数据¶

主实验¶

20+个MLLM在MCTS-VCB上的F1分数对比（5个维度+总体）：

模型	外观	动作	环境	物体	镜头	总体F1
Gemini-1.5-Pro	-	-	-	-	-	71.2
GPT-4o	-	-	-	-	-	70.6
LLaVA-OV-72B	56.9	68.3	70.9	55.7	57.7	64.1
InternVL2.5-78B	48.2	53.8	60.3	44.4	40.6	52.4
InternVL2.5-8B	46.8	51.0	59.4	42.7	40.1	50.8

消融实验¶

AutoCaption数据微调InternVL2.5-8B的效果：

配置	MCTS-VCB F1	DREAM-1K F1
InternVL2.5-8B (原始)	50.8	基准
+ AutoCaption 10K微调	63.5 (+25.0%)	+16.3%

关键发现¶

Gemini-1.5-Pro最强但仅71.2 F1：说明MCTS-VCB的评估难度较高，即使最强闭源模型也有30%左右的关键点无法覆盖
开闭源差距显著：最好的开源模型LLaVA-OV-72B（64.1）与Gemini-1.5-Pro（71.2）相差7.1pp
物体属性和镜头运动是薄弱环节：所有模型在Object Description和Camera Movement维度上表现最差，说明现有MLLM对细粒度物体属性和镜头语言理解不足
规模不总等于质量：InternVL2.5系列中8B到78B的提升仅1.6pp（50.8→52.4），而LLaVA-OV-7B直接达到62.8，说明训练数据和策略比模型规模更重要
AutoCaption数据的微调效果惊人：仅10K样本就提升25.0%，且迁移到DREAM-1K也提升16.3%，证明AutoCaption不只是好的评估工具，也是优秀的数据生成工具
平均122个关键点 vs DREAM-1K的6.3个：约20倍的关键点密度使评估更全面，不容易被"幸运"覆盖所欺骗

亮点与洞察¶

MCTS用于内容发现的创新应用：MCTS通常用于决策和推理，但这里被用于"搜索视频内容的描述空间"——让AI系统性地发现视频中的每一个可描述的细节。这个思路可以迁移到图像细节描述、文档信息抽取等场景
双模型交叉验证的质量控制：用两个不同的MLLM验证关键点的正确性，比单模型验证更可靠，有效控制了幻觉
评估即数据的双重价值：AutoCaption生成的评估关键点本身也是高质量训练数据，一个框架同时解决了评估和数据两个问题

局限性 / 可改进方向¶

依赖强大MLLM做初始化：A1整体描述动作需要GPT-4o和Gemini-1.5-Pro，验证也需要GPT-4o，对API成本有较高要求
长视频处理能力有限：MCTS-VCB的视频大多较短，对长视频（>5分钟）的适用性未验证
6种动作的设计偏人工：动作类型是预定义的，可能无法覆盖所有类型的视频内容（如情感、叙事结构等）
可改进方向：将动作设计也交给MCTS自动发现；将框架扩展到多语言视频描述

评分¶

新颖性: ⭐⭐⭐⭐ MCTS用于视频内容发现是新颖的应用
实验充分度: ⭐⭐⭐⭐⭐ 20+模型评估+微调验证+跨基准迁移
写作质量: ⭐⭐⭐⭐ 框架描述清楚，动机和流程阐述充分
价值: ⭐⭐⭐⭐ 既是评估工具又是数据生成工具，双重价值