跳转至

📅 2026-03-24 精选笔记

20


3DCity-LLM: Empowering Multi-modality Large Language Models for 3D City-scale Perception and Understanding

🧩 多模态/VLM / 3D理解 / 城市级感知

提出 3DCity-LLM,将多模态 LLM 扩展到 3D 城市级感知:通过粗到细四分支编码(文本/物体/关系/场景)处理城市尺度下数千异质物体的空间关系,构建 120 万样本的 3DCity-LLM-1.2M 数据集覆盖 7 类任务,在 BLEU-4(30.64)和逻辑性(7.33/10)上超越 City-VLM。


ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

📄 具身智能 / 世界模型

ABot-PhysWorld 是一个 14B Diffusion Transformer 世界模型,通过物理感知标注的 300 万操作视频训练 + 基于 DPO 的解耦物理对齐后训练(分别判别物理合理性和视觉质量),生成视觉逼真且物理一致的可控操作视频,在 PBench 和新提出的 EZSbench 上超越 Veo 3.1 和 Sora v2 Pro。


AeroScene: Progressive Scene Synthesis for Aerial Robotics

🧊 3D视觉 / 场景生成 / 无人机

提出 AeroScene,面向无人机仿真的层次化 3D 场景生成模型:通过可学习的 tokenizability 分数将物体路由到粗/细分支 + 跨尺度渐进注意力(top-down/bottom-up 交替)+ 碰撞/一致性/语义三重引导,在自建 1016 场景数据集上碰撞率 6.2%,无人机导航成功率 91%。


ClusterSTM: Cluster-Wise Spatio-Temporal Masking for Efficient Video-Language Pretraining

🎬 视频理解 / 多模态预训练

ClusterSTM 提出语义聚类驱动的时空遮掩策略来高效预训练视频语言模型:先帧内聚类将视觉token分为语义独立组,再按时间密度选保留token,确保保留token覆盖整体视频内容且有强时间关联。配合视频-文本相关性重建目标,在检索/QA/字幕任务上建立新SOTA。


Cog3DMap: Multi-View Vision-Language Reasoning with 3D Cognitive Maps

🧊 多模态VLM / 3D视觉

Cog3DMap 提出从多视角图像递归构建显式 3D 认知地图的框架——每个 token 在 3D 空间中有明确位置并同时携带语义和几何信息,使 MLLM 直接对空间结构化的 3D 地图进行推理,在多个空间推理 benchmark 上达到 SOTA。


CoMaTrack: Competitive Multi-Agent Game-Theoretic Tracking with Vision-Language-Action Models

🎬 视频理解 / 具身智能 / 多智能体

将具身视觉追踪(EVT)从单智能体模仿学习转变为多智能体对抗博弈 RL:tracker 和 opponent 在动态对抗环境中共同进化,用 3B VLM 超越所有 7B 模型的 SOTA(STT 92.1%, DT 74.2%, AT 57.5%),并发布首个对抗式 EVT benchmark。


DBAutoDoc: Automated Discovery and Documentation of Undocumented Database Schemas

🦾 LLM Agent / 数据库

DBAutoDoc 通过结合统计数据分析与迭代式 LLM 精炼,自动发现和文档化无文档数据库的关系模式(主键/外键/列含义/ER图),核心思想是将模式理解建模为图结构上的迭代语义传播问题,在 benchmark 上加权得分达 96.1%,确定性流水线比纯 LLM 的 FK 检测 F1 提升 23 点。


E3Flow: Efficient Hybrid SE(3)-Equivariant Visuomotor Flow Policy via Spherical Harmonics

🧊 3D视觉 / 机器人操作 / 等变学习

首次统一 SE(3) 等变学习和 rectified flow,提出 E3Flow:用球谐函数保证旋转等变性 + Feature Enhancement Module 融合点云和图像 + flow matching 实现 7× 快速推理,在 MimicGen 8 任务上达 79% 成功率(+3.12% vs SDP)且推理快 7 倍。


ForeSea: AI Forensic Search with Multi-modal Queries for Video Surveillance

🎬 视频理解 / 监控分析 / VideoRAG

提出 ForeSea,一个面向监控视频的多模态 RAG 系统(人物跟踪→多模态嵌入→VideoLLM 推理),以及 ForeSeaQA——首个支持图文混合查询+时间戳定位的监控视频 QA benchmark(1041 问题/6 子任务),在准确率(66.0%)和时间 IoU(13.6%)上均超越现有 VideoRAG 方法。


GeoTikzBridge: Advancing Multimodal Code Generation for Geometric Perception and Reasoning

🧩 多模态/VLM / 几何推理 / 代码生成

提出 GeoTikzBridge,一个几何图像到 TikZ 代码的生成框架:通过迭代自精炼从 145K 种子对扩展到 250 万高质量几何图-代码对(CLIP 过滤+局部化代码变换增强),构建 GeoTikz-Base (2.5M) 和 GeoTikz-Instruct (419K) 数据集,InternVL3-78B 达 0.860 CLIP-S / 92.3% 代码成功率,即插即用集成下游任务。


I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation

🧊 3D视觉 / 视频生成 / 场景一致性

提出 I3DM,用隐式 3D 感知的记忆检索+注入机制解决长视频场景重访时的"转头即忘"问题:利用预训练 NVS 模型的中间特征评估视角相关性(无需显式 3D 重建),贪心最大覆盖算法选互补帧,联合微调 NVS+DiT 注入对齐记忆,在 Re10K 上 PSNR 24.73dB(+8.7dB vs WorldPlay)。


InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance

🎬 视频理解 / 数字人 / 多人对话生成

提出 InterDyad,一个双人对话视频生成框架:通过 Interactivity Injector 注入参考视频的运动先验,MetaQuery 模态对齐机制将对话语音映射到交互模式空间,RoDG 解决极端头部姿态下的唇同步问题,在视觉质量、唇同步和新提出的交互指标上全面超越 MultiTalk/InfiniteTalk/LongCat。


MultiCam: On-the-fly Multi-Camera Pose Estimation Using Spatiotemporal Overlaps of Known Objects

🧊 3D视觉 / AR / 相机位姿估计

提出 MultiCam,一个无标记的多相机位姿估计系统:利用场景中已知物体的时空视野重叠构建动态场景图,通过物体级 bundle adjustment 联合优化相机和物体位姿,在 YCB-V 和 T-LESS 数据集上超越现有方法,并发布了首个支持时序视野重叠的多相机多物体位姿数据集。


PEPO: Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

🧩 多模态/VLM / LLM推理 / 强化学习

提出 PEPO(Perception-Exploration Policy Optimization),通过 token 级视觉感知先验(隐状态与视觉 token 的余弦相似度)和熵引导探索信号的自适应融合,重新加权 GRPO 策略梯度,在几何/视觉推理/视觉定位等任务上比标准 GRPO 提升 +3.67%,首次揭示多模态 CoT 中视觉锚定和推理探索的互补角色。


SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions

🧩 多模态/VLM / 视觉感知 / 鲁棒性

发现 MLLM 在隐藏模式视觉错觉(如隐字画)上严重失败的根因是高频注意力偏置,提出 SMSP:通过 FFT 低通滤波(模拟眯眼)+ 空间缩放(模拟远距离观看)的即插即用感知调整策略,将 Qwen3-VL-8B 准确率从 13% 提升到 84%(+71%),无需任何重训练。


SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

🧩 多模态/VLM / LLM效率 / Agentic AI

提出 SpecEyes,将投机推理从 token 级提升到 agent 级:四阶段 pipeline(大模型判断工具必要性→小模型无状态投机→认知门控验证→失败回退 agentic 路径),在 V* Bench/HR-Bench/POPE 上实现 1.1-3.35× 加速且保持甚至提升准确率(+6.7%),通过异构并行实现吞吐量倍增。


TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning

📄 多模态VLM / 文档解析

TDATR 提出"感知-融合"两阶段端到端表格识别框架:先通过多任务语言建模联合感知表格结构和内容细节,再融合隐式表格细节生成结构化 HTML 输出,配合结构引导的单元格定位模块增强视觉-语言对齐,在有限数据下 7 个 benchmark 上取得 SOTA 或高度竞争力。


TreeTeaming: Autonomous Red-Teaming of Vision-Language Models via Hierarchical Strategy Exploration

🧩 多模态/VLM / AI安全 / 红队测试

提出 TreeTeaming,首个自主进化的 VLM 红队框架:LLM 编排器动态扩展层次化策略树(探索新分支或深化已有路径),配合 11 种多模态工具的执行器 + 一致性检查器,在 12 个 VLM 上 11 个取得 SOTA 攻击成功率(GPT-4o 87.6%),发现超越已知公开越狱策略的新攻击范式。


UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

🎨 图像生成 / 强化学习 / 多模态统一模型

提出 UniGRPO,将 "Prompt → 推理 → 生成图像" 的多模态交错生成建模为统一 MDP,用 GRPO 联合优化文本推理和 Flow Matching 图像生成策略,去掉 CFG + 用速度场 MSE 正则替代 latent KL,在 TA 和 GenEval 上取得 SOTA(0.8381 / 0.90)。


ViBe: Ultra-High-Resolution Video Synthesis Born from Pure Images

🎨 图像生成 / 视频生成 / 高分辨率

提出 ViBe,一个纯图像训练的超高分辨率视频生成框架:通过 Relay LoRA(两阶段解耦模态对齐与空间外推)+ GCLFA(全局粗粒度+局部细粒度注意力)+ HFATO(高频感知训练目标)将 Wan2.2 等视频 DiT 从 480P 升级到 4K,在 VBench 上超越了使用高分辨率视频数据训练的 SOTA(74.4 vs 73.6)。