🎬 视频理解¶
🤖 AAAI2026 · 共 8 篇
- 3D4D: An Interactive Editable 4D World Model via 3D Video Generation
-
提出 3D4D,一个集成 WebGL 和 Supersplat 渲染的交互式 4D 可视化框架,通过四个后端模块(3D重建、图像生视频、视频分帧、4D场景生成)将静态图片和文本转化为可实时交互的 4D 场景,并引入 VLM 引导的注视点渲染策略在保持语义一致性的同时实现 60fps 实时交互。
- APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
-
提出APVR,一个训练免费的双粒度视觉信息检索框架:帧级别通过查询扩展+时空语义置信度打分迭代检索关键帧(最多1024帧),token级别通过查询感知的注意力驱动选择压缩视觉token,突破内存墙限制处理小时级长视频,在LongVideoBench/VideoMME/MLVU上分别提升最高9.5%/4.6%/9.7%。
- Balancing Multimodal Domain Generalization via Gradient Modulation and Projection
-
提出 Gradient Modulation Projection (GMP) 策略,通过解耦分类与域不变梯度的调制(IGDM)以及冲突自适应梯度投影(CAGP),解决多模态域泛化中模态间优化不平衡和任务间梯度冲突问题,在多个基准上达到 SOTA。
- BAT: Learning Event-based Optical Flow with Bidirectional Adaptive Temporal Correlation
-
提出双向自适应时序相关性(BAT)框架,将事件相机的时序密集运动线索转化为空间密集线索,实现高精度事件光流估计,在 DSEC-Flow 基准上排名第一。
- Distillation Dynamics: Towards Understanding Feature-Based Distillation in Vision Transformers
-
提出"蒸馏动力学"分析框架(频谱分析+信息熵+激活幅值),揭示ViT具有独特的U型信息处理模式(先压缩后扩展),证明feature-based蒸馏在ViT中失败的根本原因是teacher后层的分布式高维编码范式与student有限通道容量之间的表征范式不匹配,而非简单的容量差距。
- DreamRunner: Fine-Grained Compositional Story-to-Video Generation with Retrieval-Augmented Motion Adaptation
-
提出 DreamRunner 框架,通过 LLM 双层规划 + 检索增强运动先验学习 + 时空区域3D注意力模块(SR3AI),实现细粒度可控的多角色多事件故事视频生成。
- MambaMia: State-Space Hierarchical Compression for Hour-Long Video Understanding in Large Multimodal Models
-
MambaMia 提出了基于双向 Mamba 的两阶段层次化视频 Token 压缩框架:门控 Patch 聚合(GPA)做空间-时间局部压缩 + 时间轴聚合器(TAA)利用 Mamba 的自适应步长 \(\Delta_t\) 做数据驱动的关键帧采样,将小时级视频压缩到仅 4.7K Token,在 LVBench 上达到 44.6 分超越 Qwen2-VL 和 mPLUG-Owl3。
- VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction
-
提出VIR-Bench——一个基于200个日本旅行vlog视频的benchmark,通过行程重建任务(visiting order graph构建)评估MLLM的地理空间和时间理解能力,发现SOTA模型(包括GPT-4.1和Gemini-2.5)在POI识别和时间转移推理上仍困难重重。