跳转至

📈 时间序列

📹 ICCV2025 · 4 篇论文解读

I²-World: Intra-Inter Tokenization for Efficient Dynamic 4D Scene Forecasting

提出 I²-World,通过将 3D 场景 tokenization 解耦为帧内(intra-scene)多尺度残差量化和帧间(inter-scene)时序量化两个互补过程,在保持 3D tokenizer 高压缩率的同时获得 4D tokenizer 的时序建模能力,实现高效且高质量的 4D occupancy 预测。

V2XPnP: Vehicle-to-Everything Spatio-Temporal Fusion for Multi-Agent Perception and Prediction

提出 V2XPnP,一个基于统一 Transformer 架构的 V2X 时空融合框架,在单步通信策略下实现多智能体端到端感知与预测,同时构建了首个支持所有 V2X 协作模式的大规模真实世界时序数据集,在感知和预测任务上达到 SOTA。

VA-MoE: Variables-Adaptive Mixture of Experts for Incremental Weather Forecasting

提出增量天气预报新范式和VA-MoE框架,通过变量自适应的MoE架构和索引嵌入机制,实现在仅25%可训练参数和50%初始训练数据的条件下达到与全量训练可比的预报精度。

VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models

提出 VLRMBench,一个包含 12634 个问题、12 项任务的综合且具有挑战性的视觉语言奖励模型(VLRM)基准,覆盖过程理解、结果判断和批评生成三大方面,在 26 个模型上的广泛实验揭示了当前 VLRM 的显著不足。