跳转至

🎬 视频理解

📷 CVPR2026 · 共 44

A4VL: A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning

提出 A4VL,一个 training-free 的多 Agent 感知-行动联盟框架:多个异构 VLM Agent 在多轮循环中执行感知探索(事件分区 + CLIP 线索对齐定位关键帧)和行动探索(独立推理 → 交叉评分 → 共识/剪枝),在 5 个 VideoQA 基准上全面超越 18 个 VLM 和 11 个长视频专用方法,且推理延迟显著更低(MLVU 上 74s vs GPT-4o 127s)。

A Multi-Agent Perception-Action Alliance for Efficient Long Video Reasoning

提出 A4VL,一个无训练的多智能体感知-行动联盟框架,通过事件驱动视频分块、线索引导的关键帧选择和多轮智能体协商剪枝机制,在五个视频问答基准上以显著更低的推理延迟全面超越 28 个基线方法。

Attend Before Attention Efficient And Scalable Video Understanding Via Autoregre

提出 AutoGaze——一个仅 3M 参数的轻量自回归模块,在 ViT 之前以多尺度方式选择最少量 patch 并去除时空冗余,实现 4×-100× token 压缩和最高 19× ViT 加速,使 MLLM 可扩展到 1K 帧 4K 分辨率视频。

AutoGaze: Attend Before Attention — Efficient and Scalable Video Understanding via Autoregressive Gazing

提出AutoGaze——在ViT/MLLM处理视频之前,用一个轻量模块自回归地选择最少的多尺度patch,减少4x-100x视觉token,加速最高19x,支持1K帧4K视频并在VideoMME达67.0%。

Beyond Single-Sample Reliable Multi-Sample Distillation For Video Understanding

揭示视频 LVLM 黑盒蒸馏中单样本 teacher 响应存在严重不可靠性(跨问题方差 σ=0.22、采样内方差 σ=0.07~0.15、格式违规 1%~10%),提出 R-MSD 框架通过多样本 teacher pool + 任务自适应匹配 + 两阶段 SFT→RL 对抗蒸馏解决该问题,4B student 在 VideoMME/Video-MMMU/WorldSense 上全面超越同规模 Qwen3-VL-4B。

Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

提出 R-MSD 框架,通过每输入采样 K 个教师响应构建教师池,结合任务自适应质量匹配(封闭题质量加权、开放题均匀配对)和在线判别器对抗蒸馏,解决视频 LVLM 黑盒蒸馏中单样本监督不可靠的问题。

Do You See What I Am Pointing At? Gesture-Based Egocentric Video Question Answering

提出 EgoPointVQA 数据集和 HINT(Hand Intent Tokens)方法,通过将 3D 手部关键点编码为手意图 token 并与视觉 token 交错输入 MLLM,解决第一人称视频中基于手势指向的指示性问答任务,HINT-14B 达 68.1% 准确率超越 InternVL3-14B 5.4pp。

Dual-Agent Reinforcement Learning For Adaptive And Cost-Aware Visual-Inertial Od

提出双智能体强化学习框架,通过 Select Agent(基于IMU信号决定是否启动视觉前端)和 Fusion Agent(自适应融合视觉-惯性状态)两个轻量RL策略,在不完全移除VIBA的前提下大幅降低其调用频率和计算开销,实现精度-效率-显存的更优折中。

Echoes Of Ownership Adversarial-Guided Dual Injection For Copyright Protection I

提出 AGDI 框架,通过对抗优化生成 trigger image 进行 MLLM 黑盒版权追踪:双注入机制同时在 response 级(CE loss 驱动辅助模型输出 target answer)和 semantic 级(最小化 trigger image 与 target text 的 CLIP 余弦距离)注入版权信息,并引入模型对抗训练模拟 fine-tune 抵抗,在 Qwen2-VL/LLaVA-1.5 上全面超越 PLA 和 RNA 基线。

EgoPointVQA: Gesture-Based Egocentric Video Question Answering

提出 EgoPointVQA 数据集(4000 合成 + 400 真实第一人称视频)和 HINT 方法,通过 3D 手部关键点编码为手势意图 token 并与视觉 token 交织输入 MLLM,使模型能理解用户指向手势并回答指示性问题,HINT-14B 达到 68.1% 准确率,超越 InternVL3-14B 6.6 个百分点。

Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking

提出基于等保序回归的后校准(post-hoc calibration)方法,仅用50个标定样本即可修正视线追踪模型在域偏移下的不确定性估计失准,并引入CPE(Coverage Probability Error)指标替代EUC正确评估不确定性质量——校准后CPE从8%-45%降至~5%,95%置信区间覆盖率从16%-67%提升至86%-89%。

Enhancing Accuracy of Uncertainty Estimation in Appearance-based Gaze Tracking with Probabilistic Evaluation and Calibration

提出一种数据高效的后验校准方法,通过等保序回归将不确定性感知视线追踪模型的预测分布与真实观测分布对齐,并引入 Coverage Probability Error (CPE) 指标替代不可靠的误差-不确定性相关性(EUC)来评估不确定性质量。

FC-Track: Overlap-Aware Post-Association Correction for Online Multi-Object Tracking

提出轻量后关联校正框架 FC-Track,通过 IoA 触发的外观更新抑制和局部检测-轨迹错配重分配,将长期身份切换比例从 36.86% 降至 29.55%,同时保持 MOT17/MOT20 上的 SOTA 水平。

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

提出 FlashMotion 三阶段训练框架——先训轨迹 adapter、再蒸馏少步生成器、最后用扩散+对抗混合目标微调 adapter——在少步推理下实现高质量轨迹可控视频生成,并发布 FlashBench 评估基准。

FluxMem: Adaptive Hierarchical Memory for Streaming Video Understanding

提出 FluxMem,一个无需训练的流式视频理解框架,通过层级化记忆设计(短期/中期/长期)和两个自适应 token 压缩模块(TAS 去时间冗余 + SDC 去空间冗余),在丢弃 60-70% 视觉 token 的同时在 StreamingBench 和 OVO-Bench 上取得新 SOTA。

Frame2Freq Spectral Adapters For Fine-Grained Video Understanding

提出 Frame2Freq——首个在频域进行时序建模的 PEFT 适配器族,通过 FFT 将冻结 VFM 的帧嵌入变换到频谱空间并学习频带级滤波,在五个细粒度动作识别基准上以 <10% 的可训练参数超越全量微调模型。

Learning to Assist: Physics-Grounded Human-Human Control via Multi-Agent Reinforcement Learning

提出 AssistMimic,将人-人辅助交互动作的物理模仿建模为多智能体强化学习(MARL)问题,通过运动先验初始化、动态参考重定向和接触促进奖励,首次实现了力交换型辅助动作的物理仿真跟踪。

Let Your Image Move With Your Motion -- Implicit Multi-Object Multi-Motion Trans

FlexiMMT 是首个支持隐式多目标多运动迁移的 I2V 框架,通过运动解耦掩码注意力机制 (MDMA) 和差异化掩码提取机制 (DMEM),将多个参考视频的不同运动独立分配给目标图像中的不同物体,实现灵活组合式运动迁移。

Longvideo-R1 Smart Navigation For Low-Cost Long Video Understanding

提出 LongVideo-R1,一个配备推理能力的多模态 Agent,通过层次化视频树结构和智能导航策略,以平均仅 10.5 轮工具调用实现高效长视频问答,在精度-效率权衡上显著优于穷举式方法。

Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

提出遮挡感知跟踪框架 OA-SORT,通过显式建模目标遮挡状态来缓解位置代价混淆和 Kalman Filter 估计不稳定问题,在 DanceTrack/SportsMOT/MOT17 上均取得 SOTA 级提升,且组件可即插即用地集成到多种跟踪器中。

OpenMarcie: Dataset for Multimodal Action Recognition in Industrial Environments

提出目前最大规模的工业场景多模态动作识别数据集 OpenMarcie,融合可穿戴传感器与视觉数据共 8 种模态、200+ 通道、37+ 小时录制,并在 HAR 分类、开放词表描述、跨模态对齐三个基准上验证了惯性+视觉融合的优越性。

Question-Guided Visual Compression With Memory Feedback For Long-Term Video Unde

提出 QViC-MF 框架,通过问题引导的多帧视觉压缩(QMSA)和上下文记忆反馈机制,在长视频理解任务上以极少的视觉 token(每帧仅 16 个)实现了 MLVU/LVBench/VNBench 等多个基准上的 SOTA。

Ragtrack Language-Aware Rgbt Tracking With Retrieval-Augmented Generation

首次将文本描述引入 RGBT 跟踪,提出基于检索增强生成(RAG)的框架 RAGTrack,通过多模态 Transformer 编码器、自适应 Token 融合和上下文感知推理模块,在四个 RGBT 基准上取得 SOTA。

Real-World Point Tracking With Verifier-Guided Pseudo-Labeling

提出 Verifier——一个元模型,通过学习逐帧评估多个预训练跟踪器预测的可靠性,从中选取最优候选构建高质量伪标签轨迹,实现无需人工标注的真实世界点跟踪微调,在四个真实基准上达到 SOTA。

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling

提出一个可学习的Verifier元模型,通过逐帧评估多个预训练tracker预测的可靠性来生成高质量伪标签,实现合成数据到真实世界的高效域适应,在四个真实世界点跟踪基准上达到SOTA。

FlexHook: Rethinking Two-Stage Referring-by-Tracking in RMOT

提出 FlexHook,一种新颖的两阶段 Referring-by-Tracking 框架,通过基于采样的 Conditioning Hook(C-Hook)重新定义特征构建,并用 Pairwise Correspondence Decoder(PCD)替换 CLIP 余弦相似度匹配,首次使两阶段方法全面超越当前 SOTA 的一阶段方法。

FlexHook: Rethinking Two-Stage Referring-by-Tracking in RMOT

FlexHook重新激活了两阶段RBT(Referring-by-Tracking)范式:用C-Hook从backbone直接采样目标特征(替代双编码)并注入语言条件线索,用PCD(成对对应解码器)替代CLIP余弦相似度做主动对应建模,首次让两阶段方法全面超越一阶段RMOT的SOTA——Refer-KITTI-V2上HOTA从10.32(iKUN)提升到42.53,训练仅1.91小时(2×4090)。

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

提出 SAIL,通过跨模态相似度引导的语义感知掩码生成和 LLM 合成字幕的辅助监督,在仅有字幕标注(无时间边界)的弱监督设置下,在 ActivityNet 和 YouCook2 上实现密集视频描述和事件定位的双 SOTA。

Sava-X Ego-To-Exo Imitation Error Detection Via Scene-Adaptive View Alignment An

提出 SAVA-X 框架,通过自适应采样、场景感知视角嵌入和双向交叉注意力融合三个互补模块,解决第三人称示范→第一人称模仿场景下的跨视角时序错误检测问题,在 EgoMe 基准上全面超越现有基线。

SAVA-X: Ego-to-Exo Imitation Error Detection via Scene-Adaptive View Alignment and Bidirectional Cross View Fusion

提出Align-Fuse-Detect框架SAVA-X,通过Gumbel Top-K自适应采样去冗余、场景自适应视角嵌入缩小域差距、双向交叉注意力融合互补语义,在EgoMe数据集上Mean AUPRC达22.36,超越最强baseline +13.56%。

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

提出 SpikeTrack,首个完全符合脉冲驱动范式的 RGB 视觉跟踪框架,通过非对称时间步扩展、单向信息流和脑启发记忆检索模块(MRM),在 SNN 跟踪器中达到 SOTA 并与 ANN 跟踪器持平,同时能耗仅为 TransT 的 1/26。

Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning

ROS-DVC通过为DETR-based密集视频描述设计角色专用查询初始化(分离定位和描述查询)+跨任务对比对齐损失+重叠抑制损失,在YouCook2上无需预训练即达到CIDEr 39.18的SOTA,超越使用GPT-2的DDVC。

Stay in your Lane: Role Specific Queries with Overlap Suppression Loss for Dense Video Captioning

提出 ROS-DVC,通过将 DETR-based DVC 框架中的共享 query 分离为独立的 localization query 和 caption query,并设计 Overlap Suppression Loss 惩罚 query 间的时序重叠、Cross-Task Contrastive Alignment 保证跨任务语义一致性,在 YouCook2 和 ActivityNet Captions 上实现了 SOTA 的 captioning 和 localization 性能。

StreamingTOM: Streaming Token Compression for Efficient Video Understanding

提出 StreamingTOM,一个无需训练的两阶段流式视频理解框架:Causal Temporal Reduction (CTR) 在 LLM 前通过因果时序选择将每帧 token 从 196 压缩到 50,Online Quantized Memory (OQM) 在 LLM 后通过 4-bit 量化和按需检索限制 kv-cache 增长,实现 15.7× 压缩比、1.2× 更低峰值显存和 2× 更快 TTFT。

StreamingTOM: Streaming Token Compression for Efficient Video Understanding

针对流式视频 VLM 面临的因果性(无法访问未来帧)和累积性(token 无界增长)两个约束,提出 StreamingTOM——一个免训练、即插即用的两阶段框架,通过因果时序缩减(减少 pre-LLM prefill)和在线量化记忆(4-bit KV-cache 存储+按需检索反量化),实现 15.7× KV-cache 压缩比、较 SOTA LiveVLM 降低 1.2× 峰值内存和 2× 更快 TTFT,在离线基准平均 63.8% 和流式基准 RVS 55.8% 达到免训练方法 SOTA。

StreamReady: Learning What to Answer and When in Long Streaming Videos

提出就绪性感知的流式视频理解范式,通过可学习的 <RDY> token 和 Answer Readiness Score (ARS) 指标,让模型不仅回答正确,还能在证据出现的恰当时刻作答,在 9 个流式/离线视频基准上取得 SOTA。

The Devil is in the Details: Enhancing Video Virtual Try-On via Keyframe-Driven Details Injection

提出 KeyTailor 框架,通过关键帧驱动的细节注入策略(服装动态增强 + 协同背景优化)在不修改 DiT 架构的前提下,大幅提升视频虚拟试穿的服装保真度与背景一致性,同时发布 15K 高清数据集 ViT-HD。

Trajtok Learning Trajectory Tokens Enables Better Video Understanding

提出 TrajTok——一种端到端可微的轨迹 tokenizer,将视频像素隐式聚类为目标轨迹 token,取代外部分割+跟踪流水线;在从头训练 (TrajViT2)、特征适配 (TrajAdapter) 和视觉语言模型连接器 (TrajVLM) 三种场景下均取得显著提升,尤其在长视频 QA 上大幅超越 patch pooling。

TrajTok: 学习轨迹Token实现更好的视频理解

提出TrajTok——首个端到端可微的轨迹视频tokenizer,通过隐式时空聚类将视频编码为物体轨迹token,无需外部分割/跟踪管线,在分类、检索和长视频QA上全面超越patch-based方法。

Uetrack A Unified And Efficient Framework For Single Object Tracking

Utptrack Towards Simple And Unified Token Pruning For Visual Tracking

提出 UTPTrack,首个在 one-stream Transformer 跟踪器中同时对搜索区域 (SR)、动态模板 (DT) 和静态模板 (ST) 三个组件进行联合 token 剪枝的统一框架,在 RGB 和多模态/语言引导跟踪中实现 65–67% 的视觉 token 裁减,且保持 99.7%–100.5% 的基线性能。

Videochat-M1 Collaborative Policy Planning For Video Understanding Via Multi-Age

提出VideoChat-M1,用多智能体协作策略规划(CPP)+ 多智能体强化学习(MARL)替代传统固定工具调用策略,让多个策略Agent动态生成、执行和沟通工具调用计划,在8个视频理解基准上取得SOTA,LongVideoBench超Gemini 2.5 Pro 3.6%、超GPT-4o 15.6%。

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

VideoChat-M1 提出了多智能体协作策略规划(CPP)范式 + 多智能体强化学习(MARL)训练框架,让 4 个异构 VLM agent 动态生成和更新工具调用策略来理解视频,在 LongVideoBench 上超过 Gemini 2.5 Pro 3.6%,超过 GPT-4o 15.6%。

Wavelet-Based Frame Selection By Detecting Semantic Boundary For Long Video Unde

提出 WFS-SB,一种免训练的帧选择框架,利用小波变换从查询-帧相似度信号中检测语义边界,将视频分割为语义连贯的片段后自适应分配帧预算并做多样性采样,在 VideoMME/MLVU/LongVideoBench 上大幅超越 SOTA。