跳转至

📹 ICCV2025 论文笔记

121 篇笔记,覆盖 20 个领域。

领域概览

领域 篇数
🧊 3D 视觉 45
🧩 多模态 VLM 22
🚗 自动驾驶 9
🎨 图像生成 6
✂️ 语义分割 5
🏥 医学图像 4
🧑 人体理解 3
🖼️ 图像恢复 3
🎯 目标检测 3
🎬 视频理解 3
🛡️ AI 安全 2
🎵 音频/语音 2
🔄 自监督/表示学习 2
🦾 LLM Agent 1
💬 LLM / NLP 1
💡 LLM 推理 1
📦 模型压缩 1
🛰️ 遥感 1
🤖 机器人/具身智能 1
📂 其他 6

🧊 3D 视觉

3D Mesh Editing using Masked LRMs

提出MaskedLRM,将3D形状编辑重构为条件重建问题——训练时随机生成3D遮挡物遮盖多视角输入,用一张干净条件视图引导被遮挡区域的补全;推理时用户定义编辑区域并提供单张编辑图像,模型在<3秒单次前传中完成3D网格编辑,比优化方法快2-10倍,能执行拓扑变化编辑(加孔/加把手),重建质量与SOTA持平。

3D Test-time Adaptation via Graph Spectral Driven Point Shift

提出GSDTTA,首次将3D点云的测试时适应从空间域转移到图谱域,通过仅优化最低10%频率分量(减少约90%参数)实现全局结构调整,并结合特征图引导的自训练策略生成伪标签,在ModelNet40-C和ScanObjectNN-C上显著超越现有3D TTA方法。

3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

提出3DGraphLLM,首个将3D语义场景图的可学习表示直接输入LLM的方法——通过k近邻子图+三元组(object1, relation, object2)编码物体间语义关系,然后投影到LLM的token嵌入空间。在ScanRefer上Acc@0.5提升+6.4%(vs无语义关系的Chat-Scene),在Multi3DRefer上F1@0.5提升+7.5%,推理速度比GPT4Scene-HDM快5倍。

4D Gaussian Splatting SLAM

提出首个完整的4D Gaussian Splatting SLAM系统,在动态场景中同时进行相机位姿跟踪和4D高斯辐射场重建——将高斯原语分为静态/动态集合,通过稀疏控制点+MLP建模动态物体运动,并创新性地渲染2D光流图监督动态高斯学习。

4D Visual Pre-training for Robot Learning

FVP提出将3D视觉预训练建模为"下一帧点云预测"问题,用条件扩散模型从历史帧点云预测未来帧点云来学习3D视觉表示,在12个真实世界操作任务中将DP3的平均成功率提升28%,达到SOTA水平。

7DGS: Unified Spatial-Temporal-Angular Gaussian Splatting

提出7DGS,将场景元素建模为7维高斯分布(3D空间+1D时间+3D视角方向),通过条件切片机制将7D高斯转换为与时间和视角相关的条件3D高斯,统一处理动态场景+视角依赖效果,在自定义7DGS-PBR数据集上比4DGS PSNR提升高达7.36dB,仅用15.3%的高斯点数,401FPS实时渲染。

A3GS: Arbitrary Artistic Style into Arbitrary 3D Gaussian Splatting

提出A³GS,首个前馈式零样本3DGS风格迁移网络——使用图卷积网络(GCN)自编码器将3DGS场景编码到潜在空间,通过AdaIN注入任意风格图像特征,仅需10秒即可将任意风格迁移到任意3D场景,无需逐风格优化,可处理大规模3DGS场景。

A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision

提出一种用2D图像监督训练3D扩散模型的框架:利用预训练的确定性3D重建模型作为"噪声教师"生成3D噪声样本,通过多步去噪策略和渲染损失实现跨模态(3D去噪+2D监督)训练,在用更小模型的情况下超越教师模型0.5-0.85 PSNR。

A Recipe for Generating 3D Worlds from a Single Image

将单图到3D世界生成分解为两个更简单的子问题——全景合成(无训练in-context learning)和点云条件修复(仅5k步微调ControlNet),结合3DGS重建出可在VR中2米范围内导航的沉浸式3D环境,在图像质量指标上全面超越WonderJourney和DimensionX。

AAA-Gaussians: Anti-Aliased and Artifact-Free 3D Gaussian Rendering

通过在3DGS渲染管线的所有环节中融入完整的3D评估(而非2D splat近似),提出自适应3D平滑滤波器、视空间边界计算和基于视锥的tile剔除,统一解决了3DGS中的锯齿、投影伪影和弹出伪影(popping),在OOD视角下大幅优于现有方法,同时保持实时渲染(>100 FPS)。

AdaHuman: Animatable Detailed 3D Human Generation with Compositional Multiview Diffusion

提出AdaHuman框架,通过姿态条件的联合3D扩散模型(在扩散过程中同步进行多视角图像生成与3DGS重建以保证3D一致性)和组合式3DGS细化模块(利用crop-aware camera ray map融合局部精细细节),从单张野外图片生成高保真可动画的3D人体avatar,在重建和重姿态任务上全面超越现有SOTA。

Adversarial Exploitation of Data Diversity Improves Visual Localization

提出RAP(Robust Absolute Pose regression)——基于外观感知3DGS的双分支联合训练框架,通过对抗判别器弥合合成-真实域差距+外观/位姿增强数据作为额外监督,在Cambridge Landmarks上平移/旋转误差分别降低38-50%/41-44%,在日夜场景和驾驶场景中表现尤为突出。

AJAHR: Amputated Joint Aware 3D Human Mesh Recovery

首个面向截肢者的3D人体网格恢复框架——通过合成100万+截肢者图像(A3D)、设计BPAC-Net截肢分类器区分截肢与遮挡、以及双Tokenizer切换策略分别编码截肢/正常位姿先验,在截肢者数据上大幅领先(ITW-amputee上MVE比TokenHMR低16.87),非截肢者数据上也保持竞争力。

Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images

提出Amodal3R,一个端到端的遮挡感知3D重建模型,通过在TRELLIS基础上引入mask加权交叉注意力和遮挡感知注意力层,直接在3D潜空间中从部分遮挡的2D图像重建完整的3D物体形状和外观,大幅超越先前"2D补全→3D重建"的两阶段方法。

Amodal Depth Anything: Amodal Depth Estimation in the Wild

提出非模态相对深度估计新范式,构建大规模真实数据集ADIW(564K),基于Depth Anything V2和DepthFM设计两个互补框架(Amodal-DAV2和Amodal-DepthFM),通过最小化修改预训练模型实现遮挡区域深度预测,在ADIW上RMSE比之前SOTA提升27.4%。

AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation

提出AnimateAnyMesh,首个前馈式文本驱动通用Mesh动画框架:通过DyMeshVAE将动态Mesh分解为初始位置和相对轨迹并压缩到潜空间,再用基于Rectified Flow的MMDiT模型学习文本条件下的轨迹分布,配合4M+规模的DyMesh数据集训练,在6秒内即可为任意拓扑Mesh生成高质量动画,全面碾压DG4D、L4GM和Animate3D。

AnyI2V: Animating Any Conditional Image with Motion Control

提出AnyI2V,一个无需训练的框架,可接受任意模态图像(mesh、点云、深度图、骨架等)作为首帧条件,结合用户定义的轨迹实现运动控制的视频生成,在FID/FVD/ObjMC指标上优于现有training-free方法并与训练方法竞争。

AR-1-to-3: Single Image to Consistent 3D Object Generation via Next-View Prediction

提出AR-1-to-3,一种基于扩散模型的自回归下一视角预测框架,通过"先近后远"的渐进式生成策略,配合Stacked-LE(堆叠局部特征编码)和LSTM-GE(全局特征编码)两种条件注入机制,显著提升了单图到多视角生成的一致性,在GSO数据集上PSNR达13.18(相比InstantMesh的10.67提升23.5%),Chamfer Distance降至0.063(InstantMesh为0.117)。

Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description

提出Articulate3D(280个真实室内场景、8类铰接标注的大规模数据集)和USDNet(基于Mask3D扩展的统一框架),通过密集逐点预测机制同时完成可动零件分割和运动参数估计,在铰接参数预测上比Mask3D†提升5.7%,并支持LLM场景编辑和机器人策略训练。

ATLAS: Decoupling Skeletal and Shape Parameters for Expressive Parametric Human Modeling

提出ATLAS参数化人体模型,通过显式解耦外部表面形状和内部骨骼参数,并引入稀疏非线性姿态校正变形,在60万高分辨率扫描数据上训练,实现了比SMPL-X更精确、更可控的3D人体建模。

AutoOcc: Automatic Open-Ended Semantic Occupancy Annotation via Vision-Language Guided Gaussian Splatting

提出AutoOcc,一个以视觉为中心的全自动开放式语义占据标注流水线,通过视觉-语言模型引导的可微高斯泼溅(VL-GS)实现无需人工标签的3D语义占据生成,在Occ3D-nuScenes上以纯视觉输入就达到IoU 83.01/mIoU 20.92,大幅超越现有自动标注方法。

Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction

提出BA-Track框架,通过学习型3D点追踪器将观测到的运动解耦为相机引起的运动和物体自身运动,使传统束调整(BA)能够无差别地处理静态和动态点,在相机位姿估计(ATE在Sintel上达到0.034,较SOTA降低一半以上)和稠密3D重建上取得显著提升。

Baking Gaussian Splatting into Diffusion Denoiser for Fast and Scalable Single-stage Image-to-3D Generation and Reconstruction

提出DiffusionGS,将3D高斯点云直接嵌入扩散模型的去噪器中,通过单阶段3D扩散实现从单张图片到3D物体生成和场景重建,在ABO/GSO上PSNR超越SOTA 2.20/1.25 dB,RealEstate10K上超1.34 dB,推理速度约6秒(A100)。

BANet: Bilateral Aggregation Network for Mobile Stereo Matching

提出双边聚合网络BANet,通过将代价体分离为高频细节体和低频平滑体分别聚合再融合,仅使用2D卷积即可在移动设备上实现实时高精度立体匹配(骁龙8 Gen 3上45ms,KITTI 2015 D1-all=1.83%,比MobileStereoNet-2D精度高35.3%)。

Benchmarking and Learning Multi-Dimensional Quality Evaluator for Text-to-3D Generation

构建MATE-3D基准(8类prompt×8种方法=1280个textured mesh,4维度×21人主观评分=107520标注)并提出HyperScore多维质量评估器:通过可学习条件特征+条件特征融合(模拟注意力转移)+超网络生成维度自适应映射函数(模拟决策过程变化),在语义对齐、几何、纹理、整体4个维度上全面超越现有指标。

Benchmarking Egocentric Visual-Inertial SLAM at City Scale

提出 LaMAria——首个城市尺度的第一人称多传感器 VIO/SLAM 基准数据集,利用测绘级控制点提供厘米精度的地面真值,系统评估了学术界主流 SLAM 方案在真实第一人称场景下的表现,揭示了现有方法与商业系统之间的巨大差距。

BézierGS: Dynamic Urban Scene Reconstruction with Bézier Curve Gaussian Splatting

用可学习的Bézier曲线显式建模动态物体的运动轨迹,替代传统依赖精确bbox标注的范式,实现了对自动驾驶街景中动/静态成分的准确分离与高保真重建。

BillBoard Splatting (BBSplat): Learnable Textured Primitives for Novel View Synthesis

提出BBSplat——用可学习的RGB纹理和alpha贴图替代2D Gaussian Splatting中的高斯分布不透明度,使每个平面基元具有任意形状和逐像素颜色控制,在用更少基元的情况下弥补2DGS与3DGS之间的渲染质量差距,同时保留精确网格提取能力并实现最高×17的存储压缩。

Blended Point Cloud Diffusion for Localized Text-guided Shape Editing

提出 BlendedPC,将局部文本引导的3D形状编辑重新定义为语义inpainting问题,通过在Point·E基础上训练Inpaint-E模型,并在推理时引入无需反演(inversion-free)的坐标混合(coordinate blending)机制,在保持原始形状身份的同时实现精准局部编辑,在ShapeTalk数据集上全面超越现有方法。

Bolt3D: Generating 3D Scenes in Seconds

提出一种基于潜在扩散模型的前馈式3D场景生成方法,通过将3D场景表示为多组Splatter Image并使用专门训练的几何VAE,在单GPU上7秒内生成完整3D场景,推理成本比优化式方法(CAT3D)降低300倍。

Boost 3D Reconstruction using Diffusion-based Monocular Camera Calibration

提出DM-Calib——基于扩散模型的单目相机内参估计方法:设计Camera Image表示(将内参无损编码为3通道图像=方位角+仰角+灰度图),微调Stable Diffusion生成Camera Image,用RANSAC提取内参,在5个零样本数据集上超越所有基线,并将相机标定扩展到度量深度估计、位姿估计和稀疏视角3D重建。

Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction

SGCDet通过几何与上下文感知的聚合模块(3D可变形注意力+多视角注意力融合)和基于占据概率的稀疏体素构建策略,在无需ground-truth几何监督的情况下,实现了多视角室内3D目标检测的SOTA性能,同时大幅降低计算开销。

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

提出Bootstrap3D框架,利用视频扩散模型生成合成多视图数据,并通过微调的MV-LLaVA进行质量过滤与密集描述重写,结合Training Timestep Reschedule (TTR)策略训练多视图扩散模型,在不牺牲视图一致性的前提下大幅提升图像质量和文本对齐能力。

BoxDreamer: Dreaming Box Corners for Generalizable Object Pose Estimation

提出以3D包围盒角点作为中间表示,通过Transformer解码器预测查询视图中角点的2D投影热图,结合PnP算法实现可泛化的稀疏视角6DoF物体位姿估计,在遮挡和稀疏视角场景下显著优于现有方法。

PASDF: Bridging 3D Anomaly Localization and Repair via High-Quality Continuous Geometric Representation

提出PASDF框架,通过姿态对齐模块(PAM)将点云对齐到标准姿态 + 神经SDF网络学习连续几何表示 + 基于SDF偏差的异常评分,统一实现3D点云异常检测与异常修复(Marching Cubes提取零等值面作为修复模板),在Real3D-AD上O-AUROC 80.2%、Anomaly-ShapeNet上90.0%均达SOTA。

3DSR: Bridging Diffusion Models and 3D Representations for 3D Consistent Super-Resolution

提出3DSR——将扩散超分模型与3DGS表示交替迭代实现3D一致超分:每步去噪后将SR图像训练到3DGS中获得3D一致渲染→重编码回潜在空间引导下一步去噪,无需微调任何模型即显式保证跨视角一致性,在LLFF上PSNR提升1.16dB+FID降低50%(vs StableSR)。

Bring Your Rear Cameras for Egocentric 3D Human Pose Estimation

首次研究HMD后置相机对全身姿态追踪的价值,提出Transformer-based多视角热力图精炼模块(利用可变形注意力+不确定性感知遮罩),解决后视角2D关节检测不可靠的问题,并发布两个大规模数据集(Ego4View-Syn/RW),在Ego4View-RW上MPJPE比SOTA EgoPoseFormer提升>10%(63.38→56.94mm)。

BUFFER-X: Towards Zero-Shot Point Cloud Registration in Diverse Scenes

通过几何自适应bootstrapping确定体素大小/搜索半径、用FPS替代学习型关键点检测器、以及patch级坐标归一化,构建了一个无需人工调参即可在11个跨域数据集上实现零样本点云配准的pipeline BUFFER-X,在室内外多传感器多场景下取得了平均排名第一的成功率。

CAD-Recode: Reverse Engineering CAD Code from Point Clouds

将CAD sketch-extrude序列表示为Python代码,利用轻量级点云投影器 + 预训练LLM解码器将点云翻译为可执行Python代码来重建CAD模型,在DeepCAD/Fusion360/真实世界CC3D数据集上显著超越现有方法,且输出代码可被通用LLM理解用于CAD编辑和问答。

Can3Tok: Canonical 3D Tokenization and Latent Modeling of Scene-Level 3D Gaussians

提出Can3Tok——首个场景级3DGS VAE:通过cross-attention将大量(40K)无序3D Gaussian压缩到低维canonical token(256×768→64×64×4) + 3DGS归一化解决跨场景尺度不一致 + 语义感知过滤去除floater噪声,在DL3DV-10K上唯一成功的场景级3DGS潜在建模方法(L2=30.1, 失败率2.5%),支持text-to-3DGS和image-to-3DGS前馈生成。

CATSplat: Context-Aware Transformer with Spatial Guidance for Generalizable 3D Gaussian Splatting from A Single-View Image

提出CATSplat——单视图前馈3DGS重建的泛化Transformer框架:利用VLM文本嵌入(上下文先验)和3D点云特征(空间先验)通过双重cross-attention增强图像特征,在RE10K等数据集上在PSNR/SSIM/LPIPS全面超越Flash3D,且跨数据集泛化性优异。

CHARM3R: Towards Unseen Camera Height Robust Monocular 3D Detector

通过数学推导发现回归深度和地面深度在相机高度变化时呈现方向相反的误差趋势,CHARM3R 直接在模型内对两种深度做简单平均来抵消趋势,从而大幅提升单目3D检测器对未见相机高度的泛化能力(CARLA 上提升超过 45%)。

CoMoGaussian: Continuous Motion-Aware Gaussian Splatting from Motion-Blurred Images

用Neural ODE建模曝光时间内的连续相机运动轨迹,结合刚体变换和可学习的连续运动修正(CMR)变换,从运动模糊图像重建清晰3D高斯场景,在所有benchmark上大幅超越SOTA。

DAP-MAE: Domain-Adaptive Point Cloud Masked Autoencoder for Effective Cross-Domain Learning

提出一种域自适应点云MAE框架(DAP-MAE),通过异构域适配器(HDA)和域特征生成器(DFG)两个模块,让一次跨域预训练即可在物体分类、人脸表情识别、部件分割、目标检测等多个不同域的下游任务上都达到SOTA。

Diorama: Unleashing Zero-shot Single-view 3D Indoor Scene Modeling

提出首个零样本开放世界系统 Diorama,通过模块化地组合 foundation model(GPT-4o、SAM、DinoV2、Metric3D 等),将单张 RGB 图像转化为包含建筑结构和 CAD 物体的完整可组合 3D 室内场景,无需任何端到端训练或人工标注。


🧩 多模态 VLM

AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?

提出AdvDreamer框架从单张图像生成物理可复现的对抗性3D变换(Adv-3DT)样本,通过零样本单目姿态操作+自然度奖励模型+逆语义概率损失,揭示当前VLM(包括GPT-4o)在3D变化下性能下降高达50-80%,并建立首个3D变化鲁棒性VQA基准MM3DTBench。

CoA-VLA: Improving Vision-Language-Action Models via Visual-Textual Chain-of-Affordance

提出Chain-of-Affordance(CoA-VLA)框架,将四类机器人affordance(物体、抓取、空间、运动)以文本和视觉双模态形式注入VLA模型的策略网络,在真实机器人7任务多任务学习中达到85.54%成功率,比OpenVLA高30.65%,并展现出对未见物体姿态和障碍物的泛化能力。

Controlling Multimodal LLMs via Reward-guided Decoding

提出MRGD(Multimodal Reward-Guided Decoding),通过训练一个基于PaliGemma的物体幻觉奖励模型和一个基于OWLv2的物体召回奖励模型,在MLLM推理时通过线性加权组合两个奖励来逐句搜索最优候选输出,在CHAIR上将LLaVA-1.5的CHAIRi从15.05降至4.53(降70%)且支持精度-召回率的动态可控权衡。

Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy

提出Dita,用Transformer架构进行统一的多模态扩散过程直接去噪连续动作序列,通过in-context conditioning实现去噪动作与历史视觉观察的细粒度对齐,在跨embodiment数据集上scaling后实现SOTA仿真性能和10-shot真实世界长horizon任务适应。

DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding

提出DocThinker,首个将GRPO(Group Relative Policy Optimization)强化学习应用于文档理解的框架,通过四目标规则奖励(格式、答案准确度、RoI IoU、问题改写质量)训练MLLM自主生成可解释的推理过程,仅用4K训练数据在DocVQA上将Qwen2.5-VL-7B从0.355提升到0.579(RL vs SFT: 0.579 vs 0.355),并在视觉定位任务上达到82.4%精度。

EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

系统性地探索无视觉编码器VLM的最优架构和训练策略,提出Divide-and-Conquer架构将transformer完全分解为模态专用组件(attention/FFN/LayerNorm各模态独立),在仅100M公开数据下超越所有encoder-free同类并接近encoder-based VLM性能。

FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers

针对高分辨率MLLM中裁切子图导致的视觉编码分裂和token冗余问题,提出可学习的Visual Registers在encoder内部自适应聚合关键信息(ReCompact)并跨子图交互(ReAtten),实现9倍视觉token压缩且性能更优。

Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration

揭示了VLM中视觉token剪枝方法(如FastV)因RoPE的长程衰减特性导致系统性地保留图像底部token的严重缺陷,并提出FEATHER方法通过去除RoPE+均匀采样+两阶段剪枝修复该问题,在定位任务上实现5倍以上的性能提升。

Harmonizing Visual Representations for Unified Multimodal Understanding and Generation

发现Masked Autoregressive (MAR)模型的编码器同时具备优秀的语义理解能力和生成能力,基于此提出Harmon框架——用共享的MAR编码器统一视觉理解和生成任务,通过三阶段渐进训练在生成benchmark上达SOTA同时在理解benchmark上匹配专用语义编码器方法。

IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves

提出IDEATOR,首个用VLM自身做红队攻击VLM的黑盒越狱框架——利用一个弱安全对齐的VLM(MiniGPT-4)作为攻击者,结合Stable Diffusion生成语义丰富的图文越狱对,通过breadth-depth探索策略迭代优化,在MiniGPT-4上达94%攻击成功率(平均5.34次查询),迁移到LLaVA/InstructBLIP/Chameleon达75-88%,并构建VLJailbreakBench(3654样本)揭示11个VLM的安全漏洞。

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

通过构建包含结构化推理标注的LLaVA-CoT-100k数据集,训练VLM自主执行"总结→视觉解读→逻辑推理→结论"四阶段推理,配合测试时SWIRES搜索策略,11B模型超越GPT-4o-mini和Gemini-1.5-pro等大模型。

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models

利用CLIP-ViT中[CLS] token与视觉token之间注意力分数的稀疏特性,通过IQR异常值检测自适应选择重要视觉token,再用k-近邻聚类将被剪除token的信息合并回保留token,实现视觉token 14倍压缩且性能几乎不降。

MetaMorph: Multimodal Understanding and Generation via Instruction Tuning

提出Visual-Predictive Instruction Tuning (VPiT)——一种简单有效的视觉指令微调扩展,让预训练LLM同时预测离散文本token和连续视觉token,发现视觉生成能力是视觉理解能力提升的自然副产物,少量生成数据即可解锁,LLM的预训练知识可以迁移到视觉生成中克服常见失败模式。

MMAT-1M: A Large Reasoning Dataset for Multimodal Agent Tuning

提出首个百万规模的多模态agent调优数据集MMAT-1M,通过四阶段数据引擎(基础数据→推理轨迹生成→反思纠错→格式整合)为MLLM注入CoT推理、工具调用和反思能力,在InternVL2.5-8B上平均提升2.7%,RAG任务上提升8.8%。

MUSE-VL: Modeling Unified VLM through Semantic Discrete Encoding

提出语义离散编码(SDE)视觉tokenizer,在VQGAN基础上加入SigLIP语义特征约束,使离散视觉token与语言token语义对齐,构建统一的自回归VLM(MUSE-VL),在仅用24M数据的条件下理解性能比Emu3提升4.8%,超过LLaVA-NeXT 34B专用理解模型3.7%,同时支持图像生成。

ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models

提出ONLY,一种training-free的单层干预解码方法——通过Text-to-Visual Entropy Ratio(TVER)选择偏向文本的attention head生成textually-enhanced logits,然后与原始logits做自适应对比/协作解码,仅增加1.07×推理时间就在POPE上比VCD/M3ID高3.14%,在CHAIR上降低CHAIR_S 6.2个点。

Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension

提出Vision Value Model(VisVM),用TD learning训练一个能预测VLM生成句子长期价值的价值网络,指导推理时逐句搜索生成更少幻觉、更丰富细节的图像描述,并进一步将VisVM生成的高质量caption用于自训练,在9个benchmark上平均提升LLaVA-Next 10.8%。

Scaling Laws for Native Multimodal Models

通过训练457个不同架构和训练配比的模型进行系统性scaling law研究,发现Native Multimodal Models(NMM)的early-fusion架构(不依赖视觉编码器/tokenizer)在小参数量时优于late-fusion,训练更高效且部署更简单,结合MoE可进一步显著提升性能。

ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

发现MLLM中约60%的层对视觉token的变换几乎不影响模型输出(Layer Contribution极低),提出ShortV方法在这些"ineffective layers"中冻结视觉token(不参与attention query和FFN),在LLaVA-NeXT-13B上实现50% FLOPs降低且性能几乎不变,且与token剪枝方法(如FastV)正交可叠加。

SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs

发现MLLM中仅约5%的attention head主动参与视觉理解(称为"visual heads"),提出基于OCR任务的training-free识别方法量化每个head的视觉相关性,并设计SparseMM——按visual score非对称分配KV-Cache预算的策略,在DocVQA上仅用5.3%的cache(256/4830)即可维持Qwen2-VL的性能,实现1.87×加速和50%内存减少。

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference

提出SparseVILA,将VLM推理时的视觉token稀疏化解耦为两个阶段——prefill阶段做query-agnostic剪枝(去冗余)、decode阶段做query-aware检索(精选相关token),在长视频任务上实现4.0×prefill加速、2.5×decode加速、2.6×端到端加速,同时在视频理解benchmark上精度不降反升。

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

提出ToolVQA,一个23K样本的多模态工具使用VQA数据集,通过ToolEngine数据生成pipeline(图像引导DFS + LCS示例匹配)从真实图像中构造隐式多步推理问题(平均2.78步),在该数据上微调LLaVA-7B后在5个OOD benchmark上超过GPT-3.5-Turbo,并揭示了当前LFM在参数预测和答案总结方面的瓶颈。


🚗 自动驾驶

3D Gaussian Splatting Driven Multi-View Robust Physical Adversarial Camouflage Generation

提出首个基于3D高斯体(3DGS)的物理对抗攻击框架PGA,通过解决高斯体的互遮挡和自遮挡问题保证跨视角一致性,并设计min-max优化策略过滤非鲁棒对抗特征,在数字域和物理域均大幅超越SOTA方法。

3DRealCar: An In-the-wild RGB-D Car Dataset with 360-degree Views

提出首个大规模3D真实汽车数据集3DRealCar,包含2,500辆真实汽车的高分辨率(1920×1440)360度RGB-D扫描(平均每辆200张视角),覆盖100+品牌和三种光照条件(标准/高反光/暗光),提供点云、解析图等丰富标注,并基准测试了多种3D重建方法,揭示了反光和暗光条件下的重建挑战。

4DSegStreamer: Streaming 4D Panoptic Segmentation via Dual Threads

提出4DSegStreamer,一种通用的双线程流式4D全景分割框架——预测线程维护几何和运动记忆并预测未来动态,推理线程通过自我位姿对齐和逆向前向流迭代实现对新到帧的实时查询,可即插即用地集成到现有3D/4D分割方法中,在SemanticKITTI上sLSTQ比PTv3高7.7-15.2%,在高FPS场景下性能鲁棒性远超现有方法。

6DOPE-GS: Online 6D Object Pose Estimation using Gaussian Splatting

利用2D Gaussian Splatting的高效可微渲染能力,提出一种无需CAD模型的在线6D物体位姿估计与跟踪方法,通过联合优化高斯物体场和关键帧位姿,实现比BundleSDF快约5倍的速度同时保持可比精度。

A Constrained Optimization Approach for Gaussian Splatting from Coarsely-posed Images and Noisy LiDAR Point Clouds

提出一种无需SfM的约束优化方法,同时估计相机位姿和做3DGS重建——将相机位姿分解为相机-设备中心和设备中心-世界两步优化,设计参数敏感性条件约束和几何约束,从粗糙位姿和噪声LiDAR点云直接重建3D场景,显著优于COLMAP辅助的3DGS基线。

Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts

首次在单目3D目标检测(M3OD)中提出双重不确定性优化框架DUO:通过凸优化理论推导出无标签的共轭焦点损失(CFL)解决语义不确定性中低分物体被忽略的问题,同时设计语义引导的法线场一致性约束解决几何不确定性中多头深度估计器崩溃的问题,在KITTI-C上Car类别平均提升+2.2 AP₃D。

AGO: Adaptive Grounding for Open World 3D Occupancy Prediction

提出AGO框架,通过噪声增强的接地训练(grounding training)处理已知类别 + 模态适配器的自适应对齐处理未知类别,并用基于信息熵的开放世界识别器在推理时动态选择最佳特征,在Occ3D-nuScenes自监督基准上超越VEON 4.09 mIoU,同时具备开放世界零样本/少样本迁移能力。

Controllable 3D Outdoor Scene Generation via Scene Graphs

首次提出以场景图(Scene Graph)作为控制信号生成大规模3D室外场景的方法——通过GNN将稀疏场景图编码为BEV嵌入图,再经2D→3D级联离散扩散模型生成语义3D场景,并配套交互系统让用户直接编辑场景图来控制生成。

Counting Stacked Objects

将堆叠物体计数问题分解为"体积估计"和"占空比估计"两个子问题,前者用多视角3D重建解决,后者用深度图驱动的神经网络从可见表面推断,首次实现了对不可见堆叠物体的准确计数,性能远超人类。


🎨 图像生成

Aether: Geometric-Aware Unified World Modeling

提出Aether统一框架,通过任务交错特征学习联合优化4D动态重建、动作条件视频预测和目标条件视觉规划三个核心能力,实现geometry-aware的世界建模,纯合成数据训练即可零样本泛化到真实世界。

Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences

提出CycleReward,利用cycle consistency作为自监督信号替代人工偏好标注——将caption用T2I模型重建为图像再比较相似度来排序,构建866K偏好对数据集CyclePrefDB,训练的奖励模型在detailed captioning上比HPSv2/PickScore/ImageReward高6%+,且DPO训练后提升VLM在多个VL任务上的性能,无需任何人工标注。

Dense2MoE: Restructuring Diffusion Transformer to MoE for Efficient Text-to-Image Generation

首次将预训练的dense DiT(如FLUX.1)转换为Mixture-of-Experts结构实现结构化稀疏推理,通过Taylor度量专家初始化+知识蒸馏+Mixture-of-Blocks进一步稀疏化,在激活参数减少60%的同时保持原始生成质量,全面超越剪枝方法。

REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers

回答了"潜空间扩散模型能否与VAE端到端联合训练"的基础问题——发现标准扩散loss无法端到端训练但表示对齐(REPA)loss可以,提出REPA-E实现VAE+DiT联合训练,训练速度比REPA快17倍、比vanilla快45倍,在ImageNet 256×256上达到1.12 FID(w/ CFG)的新SOTA。

SANA-Sprint: One-Step Diffusion with Continuous-Time Consistency Distillation

将预训练的SANA flow matching模型通过无损数学变换转化为TrigFlow,结合连续时间一致性蒸馏(sCM)和潜空间对抗蒸馏(LADD)的混合策略,实现统一的1-4步自适应高质量图像生成,1步生成1024×1024图像仅需0.1s(H100),以7.59 FID和0.74 GenEval超越FLUX-schnell且速度快10倍。

VisualCloze: A Universal Image Generation Framework via Visual In-Context Learning

提出VisualCloze,将多种图像生成任务(编辑、翻译、超分、风格化等)统一为"视觉完形填空"范式——用视觉示例(而非文本指令)定义任务,通过图像infilling模型实现统一生成,并构建Graph200K数据集增强任务间知识迁移,支持域内任务、未见任务泛化、多任务组合和反向生成。


✂️ 语义分割

CorrCLIP: Reconstructing Patch Correlations in CLIP for Open-Vocabulary Semantic Segmentation

揭示CLIP用于分割时patch间"类间相关性"是性能瓶颈的根本原因,提出CorrCLIP通过SAM限制patch交互范围(scope reconstruction)+DINO计算更一致的相似度值(value reconstruction)+空间/语义特征增强+SAM mask后处理,在8个benchmark上training-free方法平均mIoU从48.6%提升到53.6%。

Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild

将reference-target图像对之间的对应关系表示为用扩散模型生成的伪视频序列,利用SAM2的iVOS能力进行分割,结合test-time轻量微调对齐几何变化,在跨域few-shot分割上比SOTA方法提升约5% mIoU,且无需meta-training。

FLOSS: Free Lunch in Open-vocabulary Semantic Segmentation

挑战OVSS中"平均80个模板"的默认做法,发现每个类别存在特定的"专家模板"(class-expert)远优于平均分类器,提出用预测熵无监督选择专家模板+融合专家预测的FLOSS方法,在不需要标签和训练的情况下一致提升现有OVSS方法。

SAM2Long: Enhancing SAM 2 for Long Video Segmentation with a Training-Free Memory Tree

针对SAM 2在长视频中因贪心选择策略导致的错误累积问题,提出一种training-free的约束树搜索记忆策略,维护多条分割路径并在视频级别选择最优结果,在9个VOS和3个VOT benchmark上平均提升3.7 J&F,长视频场景最高提升5.3。

SCORE: Scene Context Matters in Open-Vocabulary Remote Sensing Instance Segmentation

提出SCORE框架,通过引入区域上下文(RAI)和全局上下文适配(GCA)两个模块,将遥感专用CLIP的多粒度场景知识注入到开放词汇实例分割pipeline中,在多个遥感数据集上的跨数据集评估中平均mAP超越前SOTA 5.53%。


🏥 医学图像

An OpenMind for 3D Medical Vision Self-supervised Learning

发布了最大的公开3D医学影像预训练数据集OpenMind(114k脑MRI体积),并在该数据集上系统性benchmark了现有3D SSL方法在最先进CNN(ResEnc-L)和Transformer(Primus-M)架构上的表现,明确了3D医学图像SSL的当前SOTA。

Beyond Brain Decoding: Visual-Semantic Reconstructions to Mental Creation Extension Based on fMRI

提出NeuroCreat——一种结合LLM视觉与文本能力的脑多模态架构,将fMRI解码从单一的视觉刺激重建扩展到图像重建 + 文本描述(captioning)+ 心理创造(creation)三个层次,通过Prompt Variant Alignment模块有效弥合fMRI低分辨率信号与高级语义表征之间的鸿沟。

Boosting Vision Semantic Density with Anatomy Normality Modeling for Medical Vision-language Pre-training

提出 ViSD-Boost,通过疾病级视觉对比学习增强视觉语义 + VQ-VAE 建模解剖正常性分布来放大异常信号,解决医学 VLP 中视觉语义密度低导致的对齐偏差,在腹部 CT 54 种疾病零样本诊断达到 84.9% AUC。

CryoFastAR: Fast Cryo-EM Ab initio Reconstruction Made Easy

首个将DUSt3R式的几何基础模型范式引入冷冻电镜(cryo-EM)领域的工作,通过ViT编码器+跨视图注意力解码器直接从大量含噪粒子图像前馈预测姿态(无需迭代优化),实现了比传统方法快10-33倍的ab initio蛋白质三维重建。


🧑 人体理解

A Quality-Guided Mixture of Score-Fusion Experts Framework for Human Recognition

提出 Quality-guided Mixture of score-fusion Experts (QME) 框架,通过质量引导的 MoE 策略对来自不同生物特征模态(人脸、步态、身体)的相似度分数进行可学习融合,配合伪质量损失和分数三元组损失,在多个全身生物特征识别基准上达到 SOTA。

Avat3r: Large Animatable Gaussian Reconstruction Model for High-fidelity 3D Head Avatars

提出Avat3r——首个可动画的大型3D重建模型(LRM),仅需4张输入图像即可在前馈方式下回归出高质量可驱动的3D高斯头部头像,通过整合DUSt3R位置图和Sapiens语义特征作为先验、并用简单的cross-attention建模表情动画,在Ava256和NeRSemble数据集上大幅超越现有方法。

CarGait: Cross-Attention based Re-ranking for Gait Recognition

提出CarGait——基于cross-attention的步态识别重排序方法:对任意单阶段步态模型的top-K检索结果,通过probe与候选间步态条带(gait strip)的cross-attention学习细粒度pair-wise交互,生成新的条件化表征并重新计算距离进行重排序。在Gait3D/GREW/OU-MVLP三个数据集、7种基线模型上一致提升Rank-1/5准确率,推理速度6.5ms/probe远超现有重排序方法。


🖼️ 图像恢复

ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions

提出ALOcc框架,通过遮挡感知的自适应提升机制、语义原型对齐和BEV代价体flow预测三个改进,在多个占据预测基准上取得SOTA,同时保持较高推理速度。

Benchmarking Burst Super-Resolution for Polarization Images: Noise Dataset and Analysis

针对偏振相机"光效低、分辨率低、噪声大"的硬件瓶颈,构建了两个专用数据集(PolarNS用于噪声统计分析,PolarBurstSR用于burst超分的训练/评测),提出偏振噪声传播分析模型,并将5种SOTA burst超分方法适配到偏振域,证明偏振专用训练在强度图(s0)和偏振角(AoLP)重建上显著优于RGB通用训练。

Blind Noisy Image Deblurring Using Residual Guidance Strategy

提出残差引导策略(RGS),在图像金字塔的粗到细估计过程中,利用相邻粗尺度的卷积残差经 guided filter 去噪后校正当前尺度的模糊图像,从而在高噪声(σ=0.1)下显著提升盲去模糊的核估计精度和恢复质量,无需训练即超越多种深度学习方法。


🎯 目标检测

3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection

提出首个端到端的单目开放集3D目标检测器3D-MOOD,通过将开放集2D检测"提升"到3D空间,结合几何感知3D query生成与canonical image space设计,在Omni3D闭集和Argoverse 2/ScanNet开集基准上均达到SOTA。

Dynamic-DINO: Fine-Grained Mixture of Experts Tuning for Real-time Open-Vocabulary Object Detection

首次将Mixture of Experts引入实时开放词汇目标检测器,通过MoE-Tuning将Grounding DINO 1.5 Edge从dense模型扩展为动态推理框架,提出细粒度专家分解和预训练权重分配策略,仅用1.56M开源数据超越使用20M私有数据训练的原版模型。

YOLOE: Real-Time Seeing Anything

提出YOLOE,在YOLO架构中统一支持文本提示、视觉提示和无提示三种开放场景的检测和分割,通过RepRTA(可重参数化区域-文本对齐)、SAVPE(语义激活视觉提示编码器)和LRPC(懒惰区域-提示对比)三个设计实现高效率高性能,以3x更少的训练成本在LVIS上超越YOLO-World v2。


🎬 视频理解

4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding

提出 4D-Bench,首个评估多模态大语言模型对4D物体(具有时间演化的3D物体)理解能力的基准,包含4D物体问答(751 QA对)和4D物体描述(580物体×5标注)两大任务,发现即使SOTA的GPT-4o也仅达63%准确率(人类91%),揭示了MLLM在多视角时空理解上的巨大差距。

DOLLAR: Few-Step Video Generation via Distillation and Latent Reward Optimization

结合变分分数蒸馏(VSD)和一致性蒸馏实现few-step视频生成,同时提出潜空间奖励模型微调方法进一步优化生成质量,4步生成的10秒视频(128帧@12FPS)在VBench上达82.57分超越teacher模型和Gen-3/Kling等基线,1步蒸馏实现278.6倍加速。

VACE: All-in-One Video Creation and Editing

提出VACE统一视频生成和编辑框架,通过Video Condition Unit(VCU)将参考图→视频生成、视频→视频编辑、mask视频编辑等多种任务的输入统一为标准接口,配合Context Adapter注入时空条件信息,单一模型在各子任务上达到专用模型水平并支持灵活的任务组合。


🛡️ AI 安全

A Framework for Double-Blind Federated Adaptation of Foundation Models

BlindFed提出了双盲联邦基础模型适配框架:通过FHE友好的架构重设计(多项式近似非线性操作)+ 两阶段分割学习(离线知识蒸馏 + 在线加密推理)+ 隐私增强(样本置换 + 随机块采样),在数据方看不到模型、模型方看不到数据的约束下实现了接近LoRA的适配精度。

Active Membership Inference Test (aMINT): Enhancing Model Auditability with Multi-Task Learning

提出Active MINT(aMINT),将成员推断检测作为训练时的优化目标,通过多任务学习让被审计模型与MINT模型联合训练、共享早期特征层,在不显著损失主任务性能的前提下,将训练数据的识别准确率从被动MINT的~60%大幅提升至80%以上。


🎵 音频/语音

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

从YouTube收集2.5年(22,000课时)的教学视频,通过LLM驱动的多级抽取与过滤管线构建高质量交错图文"多模态教科书"语料(6.5M关键帧 + 0.75B文本token),显著提升VLM在知识密集型和推理任务上的预训练效果,尤其在ScienceQA和MathVista上带来大幅提升。

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

提出Lyra,一个以语音为中心的全模态MLLM框架,通过三大核心组件(DTW-based跨模态正则化器、多模态LoRA、Latent多模态提取器)和首个12K长语音SFT数据集,在仅用2.7M数据和少量训练的情况下,同时在视觉-语言、视觉-语音、语音-语言benchmark上达到SOTA,并能处理长达2小时的语音输入。


🔄 自监督/表示学习

LoftUp: Learning a Coordinate-Based Feature Upsampler for Vision Foundation Models

提出LoftUp,通过坐标-cross-attention架构直接将低分辨率VFM特征映射到任意高分辨率,并用class-agnostic mask精炼+自蒸馏构建全分辨率伪GT进行训练,在6个下游任务上平均提升10-20%且在视频目标分割上提升近50%。

Scaling Language-Free Visual Representation Learning

通过在MetaCLIP的20亿web图像上训练DINOv2/MAE系列模型(1B-7B参数),系统性地证明纯视觉自监督学习在模型和数据规模上展现优于CLIP的scaling behavior,5B+参数时在VQA平均性能上超越CLIP——包括传统认为需要语言监督的OCR/Chart任务。


🦾 LLM Agent

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

发现VLM agent在仅基于结果奖励的RL训练中会出现"思维坍塌"(thought collapse)——推理多样性急剧丧失、生成无关推理和无效动作。提出GTR框架通过自动纠正器在每步RL中评估和精炼agent推理,无需人工标注,LLaVA-7b在多种视觉环境中任务成功率提升3-5倍。


💬 LLM / NLP

A Conditional Probability Framework for Compositional Zero-shot Learning

提出条件概率框架(CPF),将组合识别概率分解为对象似然 p(o|x) 和属性条件似然 p(a|o,x) 两部分,通过文本增强对象学习和对象引导属性学习两个模块显式建模属性-对象依赖关系,在三个 CZSL 基准上全面超越 SOTA。


💡 LLM 推理

Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning

提出Corvid,通过混合视觉编码器+GateMixer连接器增强视觉表示、MCoT-Instruct-287K高质量CoT指令数据集+两阶段CoT训练增强推理能力、以及推理时自验证策略避免过度/不足推理,在数学推理和科学问题解决上超越同规模o1-like MLLM。


📦 模型压缩

TokenBridge: Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

TokenBridge提出对预训练VAE连续特征进行后训练维度级量化,将连续token无损转化为离散token,再通过轻量级维度级自回归头高效建模指数级大词表空间,在ImageNet 256×256上用标准交叉熵损失达到了与连续token方法(如MAR)相当的生成质量(FID=1.55),且推理快5.94倍。


🛰️ 遥感

Towards a Unified Copernicus Foundation Model for Earth Vision

提出由Copernicus-Pretrain(1870万张覆盖全部Sentinel任务的对齐图像)、Copernicus-FM(通过扩展动态超网络和Fourier元数据编码处理任意光谱/非光谱传感器的统一基础模型)、Copernicus-Bench(15个分层下游任务基准)三位一体的完整EO基础模型体系,首次实现从地表到大气的跨模态联合预训练,在15个下游任务中11个以冻结编码器超越全参数监督训练。


🤖 机器人/具身智能

Certifiably Optimal Anisotropic Rotation Averaging

提出了一种新的SDP松弛方法,通过强制解落在SO(3)的凸包conv(SO(3))内,首次实现了各向异性代价下的可证明全局最优旋转平均,解决了传统O(3)松弛在各向异性场景下完全失效的问题。


📂 其他

3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark

提出首个全面的3D空间推理基准3DSRBench,包含2,772个人工标注的VQA对(12种问题类型),通过平衡数据分布和新型FlipEval策略实现鲁棒评估,揭示SOTA LMM(包括GPT-4o、Gemini)在3D空间推理上远落后于人类水平(≈52% vs 95.7%),且在非常规视角下性能显著退化。

A Real-world Display Inverse Rendering Dataset

构建了首个基于LCD显示器-相机系统的真实世界逆渲染数据集,包含16个物体的OLAT(逐像素点亮)采集图像、偏振信息和GT几何,并提出简单有效的基线方法(基于Cook-Torrance BRDF的可微渲染优化),在150秒内超越现有逆渲染方法。

AFUNet: Cross-Iterative Alignment-Fusion Synergy for HDR Reconstruction via Deep Unfolding Paradigm

将多曝光HDR重建从MAP估计视角建模,通过空间对应先验将问题分解为对齐和融合两个交替子问题,再展开为端到端可训练的AFUNet(含SAM空间对齐+CFM通道融合+DCM数据一致性模块),在三个HDR基准上取得SOTA,PSNR-μ达44.91dB(Kalantari数据集)。

Auto-Regressively Generating Multi-View Consistent Images (MV-AR)

首次将自回归(AR)模型引入多视角图像生成任务,通过逐视角生成利用所有前序视角信息来增强远距离视角间的一致性,同时设计了统一的多模态条件注入架构和Shuffle Views数据增强策略,使单一模型可同时处理文本/图像/几何形状条件。

C4D: 4D Made from 3D through Dual Correspondences

提出C4D框架,通过在DUSt3R的3D pointmap预测基础上联合捕获双重时序对应(短时光流+动态感知长时点跟踪DynPT),生成运动掩码分离动静区域,并引入相机运动对齐/相机轨迹平滑/点轨迹平滑三个优化目标,将现有3D重建范式升级为完整4D重建(逐帧点云+相机参数+2D/3D轨迹),在深度/位姿/跟踪多个下游任务上达competitive性能。

Despite Exploring Contrastive Deep Skeletonpointcloudimutext

提出 DeSPITE,一个将 LiDAR 点云、骨架姿态、IMU 信号和文本四种模态对齐到联合嵌入空间的对比学习框架,首次以 LiDAR(而非 RGB)作为核心视觉模态,实现了跨模态匹配/检索等此前不可能的任务,同时作为有效的 HAR 预训练策略在 MSR-Action3D 和 HMPEAR 上取得 SOTA。