CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos¶

会议: ICLR 2026
arXiv: 2505.18561
代码: 未公开
领域: segmentation / video understanding
关键词: reasoning VOS, chain-of-thought, zero-shot, keyframe selection, MLLM, temporal reasoning

一句话总结¶

提出 CoT-RVS，一种无训练的多智能体框架，利用 MLLM 的零样本 Chain-of-Thought 能力进行时间-语义推理以选择关键帧，实现对复杂隐式查询的推理视频分割，在多个 benchmark 上大幅超越已有方法。

背景与动机¶

推理视频分割(Reasoning VOS)需要根据复杂隐式文本查询生成视频掩码序列
现有方法微调 MLLM 生成分割 token，但在时间敏感查询下表现差
例如"哪个球员投了三分球"需要时间推理而非简单物体检索
已有推理分割方法在图像域成功但缺乏视频时间域的"思考"
微调过程耗时且限制了与闭源 MLLM 的兼容性
当前方法难以整合时间信息与空间/文本上下文

方法详解¶

多智能体框架: 三个模块协作——MLLM 关键帧选择器 \(\mathcal{F}_{key}\) + 推理图像分割模型 \(\mathcal{F}_{seg}\) + 视频处理器 \(\mathcal{F}_{vid}\)

MLLM 关键帧选择器 (核心): - 均匀采样 ~8 个关键帧候选 - 对每个候选帧自动合成一系列 CoT 问题：从通用语义 → 时间相关 → 细节 - 最终输出：目标实例列表 + 对应关键帧 + 帧内目标描述 - 支持 GPT-4o / Gemma3 / LLaVA1.5

推理图像分割: 使用 Seg-Zero 在选定关键帧上生成 key mask

视频处理器: 使用 SAM2 将 key mask 沿时间轴追踪生成完整掩码序列

在线扩展: 每 \(\xi\) 帧周期性地用 CoT 更新关键帧，支持流式视频

实验关键数据¶

方法	MeViS J&F	Refer-DAVIS J&F	ReasonVOS J&F
VISA-13B	44.5	70.4	-
SAMWISE	49.5	70.6	-
VideoLISA (Po)	44.4	68.8	47.5
GLUS	51.3	-	49.9
CoT-RVS-GPT-4o	52.2	79.1	65.5

Refer-DAVIS-17 上 J&F 79.1，比 HyperSeg (71.2) 高出 +7.9
ReasonVOS 上 J&F 65.5，比 GLUS (49.9) 高出 +15.6
开源版本 CoT-RVS-Gemma3-12B 也有竞争力（MeViS 44.2, Refer-DAVIS 74.6）
在时间敏感查询子集 T-ReasonVOS 上优势更显著

亮点¶

完全无训练: 兼容闭源/开源 MLLM，无需微调任何模块
时间推理能力强: CoT 过程让 MLLM 真正"思考"帧间时间语义关联
模块化可替换: 分割模型(LISA/Seg-Zero)和视频处理器(SAM2/Cutie)可灵活替换
支持在线流式: 少有的在线推理视频分割方案

局限性¶

GPT-4o 版本推理成本高（API 调用），不适合大规模应用
开源版本(LLaVA/Gemma3)性能显著低于 GPT-4o
依赖均匀帧采样，可能错过关键时刻
多实例场景下实例间可能存在冲突需后处理

评分¶

新颖性: ⭐⭐⭐⭐ (零样本 CoT 用于视频时间推理)
实验充分度: ⭐⭐⭐⭐ (4 个 benchmark + 消融 + 在线扩展)
写作质量: ⭐⭐⭐⭐ (表述清晰，示例生动)
价值: ⭐⭐⭐⭐ (无训练范式有实用意义，但依赖强MLLM)