📷 CVPR2025 论文笔记¶
共 202 篇笔记,覆盖 26 个领域。
领域概览¶
| 领域 | 篇数 |
|---|---|
| 🏥 医学图像 | 39 |
| 🧊 3D 视觉 | 28 |
| 🎨 图像生成 | 17 |
| 🚗 自动驾驶 | 14 |
| ✂️ 语义分割 | 13 |
| 🦾 LLM Agent | 11 |
| 🤖 机器人/具身智能 | 9 |
| 🧑 人体理解 | 8 |
| 🎬 视频理解 | 6 |
| ⚖️ 对齐 / RLHF | 5 |
| 📦 模型压缩 | 5 |
| 🧩 多模态 VLM | 4 |
| 🎯 目标检测 | 4 |
| 🛰️ 遥感 | 4 |
| 🛡️ AI 安全 | 3 |
| 🖼️ 图像恢复 | 3 |
| 🔄 自监督/表示学习 | 3 |
| 📖 NLP 理解 | 2 |
| 🎵 音频/语音 | 1 |
| ⚡ LLM 效率 | 1 |
| 💡 LLM 推理 | 1 |
| ✍️ 文本生成 | 1 |
| 📐 优化/理论 | 1 |
| 🎮 强化学习 | 1 |
| 📈 时间序列 | 1 |
| 📂 其他 | 17 |
🏥 医学图像¶
- A Semi-Supervised Framework for Breast Ultrasound Segmentation with Training-Free Pseudo-Label Generation and Label Refinement
-
提出结合 VLM 无训练伪标签生成(外观描述 prompt 驱动 Grounding DINO + SAM)和双教师不确定性融合精炼的半监督乳腺超声分割框架,仅用 2.5% 标注数据即达到接近全监督的性能。
- Accelerating Stroke MRI with Diffusion Probabilistic Models through Large-Scale Pre-training and Target-Specific Fine-Tuning
-
借鉴基础模型范式,在大规模公开脑 MRI 数据上预训练扩散概率模型(DPM),再在仅 20 例中风患者数据上微调,实现数据受限场景下加速 MRI 重建,临床读者研究证实 2× 加速图像质量不劣于标准治疗。
- Adaptation of Weakly Supervised Localization in Histopathology by Debiasing Predictions
-
提出 SFDA-DeP 方法,受机器遗忘启发,通过识别并纠正源模型在目标域的预测偏差(over-predict 某些类别),解决组织病理学中弱监督定位模型跨器官/跨中心域适应时预测偏差被放大的问题。
- Addressing Data Scarcity in 3D Trauma Detection through Self-Supervised and Semi-Supervised Learning with Vertex Relative Position Encoding
-
提出两阶段标签高效学习框架:先在 1206 例无标注 CT 上用 Masked Image Modeling 自监督预训练 3D U-Net 编码器,再结合 VDETR + Vertex RPE 和 Mean Teacher 半监督学习,仅用 144 例标注数据实现腹部创伤 3D 检测 mAP@0.50 达 45.30%(+115%)。
- Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts
-
在两个大规模肺癌筛查队列(NLST 7980 例、SUMMIT 8561 例)中验证了基于深度学习自动量化的 PPFE(胸膜肺实质纤维弹性组织增生)进展与全因死亡率独立相关,提出 PPFE 纵向变化可作为筛查人群中识别高呼吸发病风险个体的影像生物标志物。
- Automated Detection of Malignant Lesions in the Ovary Using Deep Learning Models and XAI
-
使用 15 种 CNN 变体(LeNet、ResNet、VGG、Inception)在组织病理学图像上检测卵巢癌及亚型,选择 InceptionV3(ReLU)作为最优模型(平均 94.58%),并使用 LIME、SHAP、Integrated Gradients 三种 XAI 方法解释模型预测。
- BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation
-
BiCLIP 提出了一种双向一致性视觉-语言分割框架,通过双向多模态融合(BMF,让视觉特征反向精炼文本嵌入)和图像增强一致性(IAC,跨弱/强扰动正则化),在 COVID-19 CT 分割上以仅 1% 标注数据即可保持鲁棒性能,且对临床图像退化(噪声/模糊)具有容忍力。
- CLoE: Expert Consistency Learning for Missing Modality Segmentation
-
提出 CLoE 框架,将缺失模态分割的鲁棒性问题重新定义为决策层专家一致性控制问题,通过全局模态专家一致性(MEC)和区域专家一致性(REC)双分支约束减少专家漂移,并用轻量门控网络将一致性分数转化为可靠性权重指导特征融合,在 BraTS 2020 和 MSD Prostate 上超越 SOTA。
- CycleULM: A Unified Label-Free Deep Learning Framework for Ultrasound Localisation Microscopy
-
提出 CycleULM,首个统一的无标签深度学习超声定位显微(ULM)框架,通过 CycleGAN 学习 CEUS 帧到简化微泡域的物理仿真双向翻译来弥合仿真-真实域差距,实现微泡定位精度提升达40% recall、46% precision,并以18.3 fps 实现实时处理。
- Decoding Matters: Efficient Mamba-Based Decoder with Distribution-Aware Deep Supervision for Medical Image Segmentation
-
提出 Deco-Mamba,一种以解码器为核心的混合 Transformer-CNN-Mamba 架构,通过 Co-Attention Gate、Vision State Space Module 和可变形卷积精炼块增强解码器能力,并引入基于窗口化 KL 散度的分布感知深度监督策略,在 7 个医学图像分割基准上取得 SOTA 性能,同时保持适中的模型复杂度。
- Deep Learning Based Estimation of Blood Glucose Levels from Multidirectional Scleral Blood Vessel Imaging
-
提出 ScleraGluNet,通过五方向巩膜血管图像结合多分支 CNN + MRFO 特征筛选 + Transformer 跨视图融合,实现三分类代谢状态判别(93.8% 准确率)和连续空腹血糖估计(MAE = 6.42 mg/dL),为无创血糖监测提供了新途径。
- Developing Foundation Models for Universal Segmentation from 3D Whole-Body Positron Emission Tomography
-
构建了最大规模 PET 分割数据集 PETWB-Seg11K(11,041 例全身 PET + 59,831 个分割掩码),并提出 SegAnyPET——基于 3D 架构 + prompt 工程的 PET 通用分割基础模型,在多中心、多示踪剂、多疾病场景下展现强零样本泛化能力。
- Diffusion-Based Feature Denoising and Using NNMF for Robust Brain Tumor Classification
-
提出一种结合非负矩阵分解(NNMF)特征提取、统计特征筛选、轻量 CNN 分类和扩散式特征空间去噪的脑肿瘤分类框架,在保持 ~85% 干净准确率的同时,将 AutoAttack 下的鲁棒准确率从 0.47% 提升至 59.5%。
- EquivAnIA: A Spectral Method for Rotation-Equivariant Anisotropic Image Analysis
-
提出 EquivAnIA,一种基于 cake wavelet 和 ridge filter 的频谱方法,用于对图像进行旋转等变的各向异性分析,在合成和真实图像(含 CT)上展现出优于传统 angular binning 的旋转鲁棒性。
- Evidential learning driven Breast Tumor Segmentation with Stage-divided Vision-Language Interaction
-
提出 TextBCS 模型,通过阶段分割的视觉-语言交互模块(SVLI)和证据学习(EL)策略,利用文本提示辅助乳腺肿瘤分割,在 Duke-Breast-Cancer-MRI 数据集上 Dice 达 85.33%,超越所有对比方法。
- Federated Modality-specific Encoders and Partially Personalized Fusion Decoder for Multimodal Brain Tumor Segmentation
-
提出 FedMEPD 联邦学习框架,通过模态专属编码器(全局联邦)和部分个性化融合解码器,同时解决多模态 MRI 脑肿瘤分割中的模态间异质性和客户端个性化问题,在 BraTS 2018/2020 上客户端平均 mDSC 达 75.70%/75.90%。
- GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis
-
提出 GIIM,一种基于多异构图(MHG)的多视图医学图像分类框架,同时建模视图内(intra-view)和视图间(inter-view)的病灶依赖关系,在肝脏 CT、乳腺 X 线和乳腺 MRI 三种模态上均显著优于现有多视图方法,并对缺失视图具有鲁棒性。
- Human Knowledge Integrated Multi-modal Learning for Single Source Domain Generalization
-
提出 GenEval,通过域共形界(DCB)理论量化因果覆盖差距,并将人类专家知识与 MedGemma-4B 视觉语言模型结合,实现单源域泛化(SDG),在糖尿病视网膜病变分级(8 个数据集)和癫痫灶检测(2 个数据集)上大幅超越现有方法。
- MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification
-
提出 MIL-PF 框架,利用冻结的基础视觉模型预计算特征,配合仅 ~40k 参数的轻量 MIL 聚合头,在乳腺 X 光分类任务上达到 SOTA 性能,大幅降低训练成本。
- Multimodal Classification of Radiation-Induced Contrast Enhancements and Tumor Recurrence Using Deep Learning
-
提出 RICE-NET,一个多模态 3D 深度学习模型,融合纵向 MRI 数据与放疗剂量分布图,用于区分胶质母细胞瘤术后放射性对比增强(RICE)与肿瘤复发,在独立测试集上达到 F1=0.92。
- Multimodal Protein Language Models for Enzyme Kinetic Parameters: From Substrate Recognition to Conformational Adaptation
-
提出 ERBA 适配器,将酶动力学预测建模为"底物识别→构象适应"的分阶段条件化过程,通过 MRCA 注入底物语义、G-MoE 融合活性位点3D几何、ESDA 保持 PLM 先验,在 kcat/Km/Ki 三个动力学端点上一致超越现有方法。
- Multiscale Structure-Guided Latent Diffusion for Multimodal MRI Translation
-
提出 MSG-LDM 框架,在潜在空间中显式解耦风格与结构信息,通过高频注入块 (HFIB)、多模态结构特征融合 (MMSF) 和多尺度结构增强 (MSSE) 提取模态不变的多尺度结构先验来引导扩散过程,解决任意模态缺失下 MRI 翻译的解剖不一致和纹理退化问题。
- NOIR: Neural Operator Mapping for Implicit Representations
-
NOIR 将医学图像计算任务重新建模为连续函数空间之间的算子学习问题,通过隐式神经表示(INR)将离散医学信号嵌入连续函数空间,再用神经算子(NO)学习函数间的映射,实现分辨率无关的分割、形状补全、图像翻译和合成。
- Novel Architecture of RPA In Oral Cancer Lesion Detection
-
本文将 Singleton 和 Batch Processing 设计模式集成到基于 Python 的 RPA 自动化管道中,结合 EfficientNetV2B1 模型实现口腔癌病灶检测,相比 UiPath/Automation Anywhere 等传统 RPA 平台实现 60-100× 的推理加速。
- Nyxus: A Next Generation Image Feature Extraction Library for the Big Data and AI Era
-
Nyxus 是一个面向大数据和 AI 时代的下一代图像特征提取库,支持 2D/3D 数据的 out-of-core 可扩展提取,覆盖 radiomics 和细胞分析两大领域共 261+ 特征,在速度上比 CellProfiler 快 3–131×、比 PyRadiomics/MITK 快数倍至数百倍。
- LoV3D: Grounding Cognitive Prognosis Reasoning in Longitudinal 3D Brain MRI via Regional Volume Assessments
-
LoV3D 提出一套端到端纵向 3D 脑 MRI 视觉-语言模型管线,通过结构化可验证输出设计实现解剖区域评估 + 纵向对比 + 三分类诊断推理,并利用临床加权 Verifier 驱动 DPO 训练(无需人工标注),在 ADNI 上达到 93.7% 三分类准确率且零非相邻诊断错误。
- Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting
-
ProtoSR 提出从大规模自由文本放射学报告中挖掘模板对齐的原型知识库,并通过原型条件化的后期融合残差模块注入结构化报告预测,在 Rad-ReStruct 基准上实现 SOTA,尤其在细粒度属性问题 (L3) 上获得 72.1% 的相对提升。
- Reinforcing the Weakest Links: Modernizing SIENA with Targeted Deep Learning Integration
-
将深度学习模块(SynthStrip/SynthSeg)模块化替换 SIENA 管线中的经典颅骨剥离和组织分割步骤,在保留管线可解释性的前提下显著提升纵向脑萎缩(PBVC)估计的临床敏感性和鲁棒性。在 ADNI 和 PPMI 两个纵向队列上验证。
- Residual SODAP: Residual Self-Organizing Domain-Adaptive Prompting with Structural Knowledge Preservation for Continual Learning
-
针对无任务 ID 和无数据回放的领域增量学习(DIL),提出 Residual SODAP 框架,通过 α-entmax 稀疏 prompt 选择与残差聚合、基于特征统计的伪回放蓏馏、prompt 使用模式漂移检测和不确定性加权,同时解决表示适配和分类器遗忘问题。在 DR、皮肤癌和 CORe50 上均达 SOTA。
- SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection
-
提出 SALIENT,一个基于小波域扩散的掩码条件生成框架,通过频率感知的可解释优化目标和配对的病灶-掩码体积生成,实现长尾 CT 检测中可控、高效的合成数据增强与精度拯救。首次系统表征增强剂量-反应曲线。
- SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation
-
提出 SAW(Surgical Action World),通过四种轻量级条件信号(语言提示、参考帧、组织功能图、工具轨迹)驱动视频扩散模型,实现可控、可扩展的手术动作视频生成,用于罕见动作增强和手术仿真。
- Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation
-
提出 SCDL 即插即用模块,通过学习类条件代理分布并进行双向对齐(CDBA)+ 语义锚约束(SAC),在嵌入空间显式重塑类条件特征结构,缓解半监督医学影像分割中的监督偏差和表示不平衡。
- SemiTooth: a Generalizable Semi-supervised Framework for Multi-Source Tooth Segmentation
-
提出 SemiTooth 多教师多学生半监督框架,通过 Stricter Weighted-Confidence Constraint 实现多源 CBCT 牙齿分割的跨域泛化。
- Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging for Osteoporosis Classification
-
首次将 SegFormer 用于 HR-pQCT 影像的多区域(骨+软组织)自动分割与放射组学分析,发现肌腱组织特征在骨质疏松分类中优于传统骨指标。
- UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis
-
提出 UltrasoundAgents 层次化多智能体框架,通过主智能体定位病灶+子智能体识别属性+证据链推理的流程,对齐乳腺超声临床诊断工作流并实现可追溯的 BI-RADS 分级与良恶性判断。
- Uncertainty-Aware Concept and Motion Segmentation for Semi-Supervised Angiography Videos
-
提出 SMART 框架,基于 SAM3 的教师-学生结构结合文本概念提示、置信度感知一致性正则化和双流时序一致性,实现 X 光冠脉造影视频的半监督血管分割。
- UNIStainNet: Foundation-Model-Guided Virtual Staining of H&E to IHC
-
提出 UNIStainNet,首次将冻结病理基础模型 UNI 的稠密空间 token 作为生成器的直接条件信号,实现 H&E 到 IHC 的虚拟染色,单一统一模型同时服务四种 IHC 标记物并达到 SOTA。
- Unleashing Video Language Models for Fine-grained HRCT Report Generation
-
提出 AbSteering 框架,通过异常中心化 CoT 训练和基于临床混淆异常硬负例的 DPO 优化,将通用视频语言模型(VideoLMs)高效迁移到 HRCT 报告生成任务,性能超越专用 CT 基础模型。
- Unmasking Biases and Reliability Concerns in Convolutional Neural Networks Analysis of Cancer Pathology Images
-
通过从 13 个癌症病理基准数据集的图像背景区域(不含临床信息的 20×20 像素裁剪)训练 CNN,发现分类准确率远高于随机猜测(最高 93%),揭示了 CNN 可能依赖数据集偏差而非真正的病理特征来做出诊断判断。
🧊 3D 视觉¶
- 3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination
-
构建了3D-GRAND——首个百万级密集接地的3D场景-语言数据集(40K场景、6.2M指令),并提出3D-POPE幻觉评估基准,证明密集接地的指令微调能显著提升3D-LLM的接地能力并减少幻觉,还展示了合成数据到真实场景的迁移效果。
- 3D-GSW: 3D Gaussian Splatting for Robust Watermarking
-
提出3D-GSW,首个专为3D Gaussian Splatting设计的鲁棒数字水印方法,通过频率引导致密化(FGD)移除冗余高斯并在高频区域分裂高斯来增强鲁棒性,结合梯度掩码和小波子带损失保持渲染质量,在Blender/LLFF/Mip-NeRF 360数据集上同时实现了最优的水印鲁棒性和渲染质量。
- 3D-HGS: 3D Half-Gaussian Splatting
-
提出3D Half-Gaussian (3D-HGS)核函数——用一个分割平面将3D高斯分成两半,每半有独立不透明度,作为即插即用的重建核替换标准高斯核,在不牺牲渲染速度的前提下显著提升形状和颜色不连续处的渲染质量,在Mip-NeRF360/T&T/Deep Blending上全面超越所有SOTA方法。
- 3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer
-
提出3D-LLaVA,一个极简架构的通用3D大语言多模态模型,核心是Omni Superpoint Transformer (OST)作为多功能视觉连接器,同时充当视觉特征选择器、视觉提示编码器和分割掩码解码器,仅用点云输入就在ScanQA(92.6 CiDEr)、ScanRefer(43.3 mIoU)等5个基准上全面达到SOTA。
- 3D-Mem: 3D Scene Memory for Embodied Exploration and Reasoning
-
提出3D-Mem——基于"记忆快照"的3D场景记忆框架,用少量精选多视角图像紧凑表示已探索区域,结合Frontier Snapshot表示未探索区域,配合VLM实现高效的具身探索与推理。
- 3D-SLNR: A Super Lightweight Neural Representation for Large-scale 3D Mapping
-
提出3D-SLNR,一种超轻量神经3D表示——基于锚定在点云支撑点上的带限局部SDF集合定义全局SDF,每个局部SDF仅由一个微型MLP参数化(无隐特征),通过可学习的位置/旋转/缩放适应复杂几何,配合并行查找算法和剪枝-扩展策略,以不到先前方法1/5的内存实现SOTA重建质量。
- 3D Convex Splatting: Radiance Field Rendering with 3D Smooth Convexes
-
用3D光滑凸体(Smooth Convex)替代高斯基元进行辐射场渲染,通过点集定义凸包+LogSumExp平滑化+自定义CUDA光栅化器,在T&T和Deep Blending上超越3DGS,且所需基元更少。
- 3D Dental Model Segmentation with Geometrical Boundary Preserving
-
提出 CrossTooth,通过基于曲率先验的选择性下采样(边界区域顶点密度提升 10-15%)和多视角渲染图像的跨模态边界特征融合,在 3DTeethSeg'22 公开数据集上实现 95.86% mIoU 和 82.05% boundary IoU,分别比之前 SOTA(ToothGroupNet)提升 2.3% 和 5.7%。
- 3D Gaussian Head Avatars with Expressive Dynamic Appearances by Compact Tensorial Representations
-
提出一种紧凑张量表示的3D高斯头部头像方法——用三平面存储中性表情的静态外观,用轻量1D特征线存储每个blendshape的动态纹理(不透明度偏移),仅需10MB存储即可实现300FPS实时渲染和准确的动态面部细节捕捉,在Nersemble数据集上PSNR和存储效率全面超越GA、GBS和GHA。
- 3D Gaussian Inpainting with Depth-Guided Cross-View Consistency
-
提出3DGIC,通过深度引导的跨视角一致修复框架实现3D高斯场景中的物体移除与修补——利用渲染深度图从其他视角发现被掩码区域中的可见背景像素来精化修补掩码,再用参考视角的2D修补结果通过3D投影约束其他视角的一致性,在SPIn-NeRF数据集上FID和LPIPS全面超越现有方法。
- 3D Student Splatting and Scooping (SSS)
-
提出SSS(Student Splatting and Scooping),用前所未有的三重创新改进3DGS范式:(1) 用Student-t分布替代高斯分布作为混合组件(可学习的尾部厚度,从Cauchy到Gaussian连续变化);(2) 引入负密度组件(scooping减去颜色)扩展到非单调混合模型;(3) 用SGHMC采样替代SGD解耦参数优化,在Mip-NeRF360/T&T/Deep Blending上6/9指标取得最优,且参数效率极高——用最少18%的组件数即可匹配或超越3DGS。
- 4DEquine: Disentangling Motion and Appearance for 4D Equine Reconstruction from Monocular Video
-
将单目视频的4D马匹重建解耦为运动估计(AniMoFormer时空Transformer)和外观重建(EquineGS单图前馈3DGS),依托VAREN参数化模型和两个大规模合成数据集,在真实数据上达到SOTA几何+外观重建效果,且能零样本泛化到驴和斑马。
- FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT
-
提出 FrameVGGT,将流式 VGGT 的 KV 缓存从 token 级保留重组为帧级证据块保留,通过中期记忆库+稀疏锚点的双层有界内存结构,在固定内存预算下保持更连贯的几何支撑,实现长序列3D重建/深度/位姿估计的精度-内存最优权衡。
- HOI3DGen: Generating High-Quality Human-Object-Interactions in 3D
-
提出 HOI3DGen 框架,通过MLLM自动标注高质量交互数据 + 视角条件化微调扩散模型 + 3D提升与SMPL配准,首次实现从文本精确控制接触语义的高质量3D人物交互生成,在文本一致性上超越基线4-15倍。
- Hybrid eTFCE-GRF: Exact Cluster-Size Retrieval with Analytical p-Values for Voxel-Based Morphometry
-
将 eTFCE 的并查集精确聚类大小查询与 pTFCE 的解析 GRF p 值推断结合,首次在单一框架中实现精确聚类检索+无需置换检验的统计推断,速度比置换 TFCE 快 1300 倍,在全脑体素形态测量中保持严格 FWER 控制。
- InstantHDR: Single-forward Gaussian Splatting for High Dynamic Range 3D Reconstruction
-
提出 InstantHDR,首个前馈式 HDR 新视角合成方法,通过几何引导的外观建模进行多曝光融合 + MetaNet 预测场景自适应色调映射器,从未标定多曝光 LDR 图像一次前向推理重建 HDR 3D 高斯,速度比优化方法快 ~700 倍。
- JOPP-3D: Joint Open Vocabulary Semantic Segmentation on Point Clouds and Panoramas
-
提出 JOPP-3D 框架,通过将全景图切线分解为透视图像、利用 SAM+CLIP 进行3D实例-语义对齐,首次实现对3D点云和全景图像的联合开放词汇语义分割,在 Stanford-2D-3D-s 和 ToF-360 数据集上超越现有方法。
- Mobile-GS: Real-time Gaussian Splatting for Mobile Devices
-
提出 Mobile-GS,通过深度感知的无序渲染(消除排序瓶颈)+ 神经视角依赖增强 + 一阶SH蒸馏 + 神经向量量化 + 贡献度剪枝,首次在 Snapdragon 8 Gen 3 手机 GPU 上实现 116 FPS 实时高斯溅射渲染,存储仅 4.6MB 且视觉质量与原始 3DGS 相当。
- MotionAnyMesh: Physics-Grounded Articulation for Simulation-Ready Digital Twins
-
提出 MotionAnyMesh,一种零样本框架,通过 SP4D 运动学先验引导 VLM 推理消除幻觉 + 物理约束轨迹优化保证无碰撞,将静态3D网格自动转化为仿真可用的铰接数字孪生,物理可执行率达 87%,是现有最好方法的近两倍。
- Node-RF: Learning Generalized Continuous Space-Time Scene Dynamics with Neural ODE-based NeRFs
-
提出 Node-RF,将 Neural ODE 与动态 NeRF 紧密耦合,用潜在向量的 ODE 演化建模场景连续时间动力学,实现超出训练序列的长程时序外推和跨轨迹泛化,无需光流或深度监督。
- P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning
-
提出 P-SLCR,一种原型库驱动的无监督点云语义分割方法,通过将点分离为"一致"和"模糊"两类,用一致结构学习对齐一致点与原型 + 语义关系一致性推理约束两个原型库,在 S3DIS 上无监督达 47.1% mIoU,超越全监督 PointNet。
- Pano360: Perspective to Panoramic Vision with Geometric Consistency
-
提出 Pano360,首个在3D摄影测量空间进行全景拼接的 Transformer 框架,利用预训练 VGGT 骨干获取3D感知的多视角特征对齐 + 多特征联合优化接缝检测,支持2到数百张输入图像,在弱纹理/大视差/重复模式场景下成功率达97.8%。
- Regularizing INR with Diffusion Prior for Self-Supervised 3D Reconstruction of Neutron CT Data
-
提出 DINR (Diffusive INR),将隐式神经表示 (INR/SIREN) 与预训练扩散模型先验结合,通过 proximal loss 在每个 DDIM 时间步用扩散去噪输出正则化 INR 重建,在稀疏视角中子 CT(低至 4-5 个视角)上超越 FBP、纯 INR、DD3IP 和经典 MBIR(qGGMRF) 方法。
- Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation
-
Rewis3d 利用前馈 3D 重建(MapAnything)从 2D 视频中获取 3D 点云作为辅助监督信号,通过双 Student-Teacher 架构和加权跨模态一致性 (CMC) 损失,在仅使用稀疏标注(点/涂鸦/粗标记)的情况下将弱监督 2D 语义分割性能提升 2-7% mIoU,推理时仍为纯 2D。
- SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation
-
SCOPE 提出一个即插即用的背景引导原型富化框架,在基类训练后用类无关分割模型从背景区域挖掘伪实例建立 Instance Prototype Bank (IPB),当新类别以少样本方式出现时,通过 Contextual Prototype Retrieval (CPR) 和 Attention-Based Prototype Enrichment (APE) 融合背景原型与少样本原型,在 ScanNet/S3DIS 上新类 IoU 提升最高 6.98%。
- Spectral Defense Against Resource-Targeting Attack in 3D Gaussian Splatting
-
针对 3DGS 的资源瞄准攻击(通过投毒训练图像触发高斯过度增长导致资源耗尽),提出频域防御:3D 频率滤波器通过将高斯协方差与频谱响应关联实现频率感知剪枝,2D 频谱正则化通过熵惩罚渲染图像的角向能量各向异性来抑制攻击噪声,实现高斯数量压缩 5.92×、内存减少 3.66×、速度提升 4.34×。
- Towards Spatio-Temporal World Scene Graph Generation from Monocular Videos
-
本文提出 World Scene Graph Generation (WSGG) 任务和 ActionGenome4D 数据集,将视频场景图从以帧为中心的 2D 表示升级为以世界为中心的 4D 表示,要求模型对所有物体(包括被遮挡或离开视野的不可见物体)在世界坐标系中进行 3D 定位和关系预测,并提出三种互补方法(PWG/MWAE/4DST)探索不同的不可见物体推理归纳偏置。
- VarSplat: Uncertainty-aware 3D Gaussian Splatting for Robust RGB-D SLAM
-
VarSplat 在 3DGS-SLAM 框架中为每个 Gaussian splat 学习外观方差 \(\sigma^2\),通过全方差定律推导出可微分的逐像素不确定性图 \(V\),并将其用于 tracking、loop detection 和 registration,在 Replica/TUM/ScanNet/ScanNet++ 四个数据集上取得了更鲁棒的位姿估计和有竞争力的重建质量。
🎨 图像生成¶
- AS-Bridge: A Bidirectional Generative Framework Bridging Next-Generation Astronomical Surveys
-
提出 AS-Bridge,用双向布朗桥扩散模型建模地面 LSST 和太空 Euclid 两大天文巡天之间的随机映射关系,实现概率性跨巡天翻译与稀有事件检测(强引力透镜),并证明 epsilon-prediction 训练目标兼具重建质量和似然性优势。
- Beyond Convolution: A Taxonomy of Structured Operators for Learning-Based Image Processing
-
系统性地将学习式图像处理中卷积的替代/扩展算子组织为五大家族(分解型、自适应加权型、基自适应型、积分/核型和注意力型),并从线性、局部性、等变性、计算成本和任务适用性等多个维度进行比较分析。
- BiGain: Unified Token Compression for Joint Generation and Classification
-
BiGain 首次将扩散模型的 token 压缩重新定义为生成+分类的双目标优化问题,提出拉普拉斯门控 token 合并(L-GTM)和插值-外推 KV 下采样(IE-KVD)两个频率感知算子,在保持生成质量同时显著提升分类准确率(ImageNet-1K 70%合并比下 Acc +7.15%,FID -0.34)。
- coDrawAgents: A Multi-Agent Dialogue Framework for Compositional Image Generation
-
提出 coDrawAgents,由 Interpreter、Planner、Checker、Painter 四个专家 agent 组成的交互式多智能体对话框架,通过分而治之的增量布局规划、视觉上下文感知推理和显式错误纠正,在 GenEval 上达到 0.94(SOTA)、DPG-Bench 上 85.17(SOTA)。
- DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
-
DiT-IC 将预训练 T2I 扩散 Transformer 适配为单步图像压缩重建模型,在 32x 下采样的深层潜空间工作,通过方差引导重建流、自蒸馏对齐和潜变量条件引导三种对齐机制,实现 SOTA 感知质量且解码比现有扩散 codec 快 30 倍。
- Enhancing Image Aesthetics with Dual-Conditioned Diffusion Models Guided by Multimodal Perception
-
提出 DIAE,通过多模态美学感知模块(MAP)将模糊美学指令转化为 HSV/轮廓图+文本的多模态控制信号,并构建"非完美配对"数据集 IIAEData 配合双分支监督策略实现弱监督美学增强,在 LAION 和 MLLM 美学评分上达 SOTA。
- EvoTok: A Unified Image Tokenizer via Residual Latent Evolution for Visual Understanding and Generation
-
EvoTok 提出了一种基于残差潜在演化(Residual Latent Evolution)的统一图像 tokenizer,通过在共享潜空间中级联残差向量量化,使表示从浅层的像素级细节渐进演化到深层的语义级抽象,在仅用 13M 图像训练的情况下实现了 0.43 rFID 的重建质量,并在 7/9 个理解 benchmark 和 GenEval/GenAI-Bench 上取得优异效果。
- Generation of Maximal Snake Polyominoes Using a Deep Neural Network
-
将 DDPM 应用于生成最大蛇形多联骨牌,提出精简版 Structured Pixel Space Diffusion(SPS Diffusion),在训练到 14x14 正方网格的情况下泛化到 28x28 并生成有效蛇形,部分结果超越已知最大长度下界。
- InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing
-
提出 InterEdit,首个文本引导的多人 3D 运动交互编辑框架,通过 Semantic-Aware Plan Token Alignment 和 Interaction-Aware Frequency Token Alignment 在扩散模型中实现语义编辑的同时保持多人之间的时空耦合关系。
- One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers
-
揭示 DiT 的计算在空间 token 上均匀分配(不会把多余计算重分配到困难区域),提出 ELIT——在 DiT 中插入可变长度的 latent interface(Read/Write 交叉注意力),训练时随机丢弃尾部 latent 学出重要性排序,推理时通过调节 latent 数量实现平滑的质量-FLOPs 权衡,ImageNet 512px 上 FID 降低 53%。
- Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation
-
提出 Concept-Gated Visual Distillation (CGVD),一种无需训练的推理时框架,通过语言指令解析 → SAM3 分割 → 集合论交叉验证 → LaMa 修复的流水线,从 VLA 模型的视觉输入中选择性移除语义干扰物,在高度杂乱场景中将 π₀ 的操作成功率从 43.0% 提升至 77.5%。
- Taming Score-Based Denoisers in ADMM: A Convergent Plug-and-Play Framework
-
提出 AC-DC 去噪器(Auto-Correction + Directional Correction + Score-Based Denoising 三阶段),解决将 score-based 扩散先验嵌入 ADMM-PnP 框架时的流形不匹配问题,并首次建立了 score-based 去噪器在 ADMM 中的收敛性理论保证,在去噪、修复、去模糊、超分辨、相位恢复、HDR 等逆问题上一致超越现有基线。
- Trust Your Critic: Robust Reward Modeling and Reinforcement Learning for Faithful Image Editing and Generation
-
提出 FIRM 框架——通过"差异优先"(编辑)和"计划-打分"(生成)的数据构建流水线训练专用奖励模型(FIRM-Edit-8B / FIRM-Gen-8B),配合"Base-and-Bonus"奖励策略(CME/QMA)解决 RL 中的奖励 hacking 问题,在图像编辑和 T2I 生成任务上均取得 SOTA。
- Unicom Unified Multimodal Modeling Via Compressed Continuous Semantic Representa
-
提出 UniCom,通过对 VLM 连续语义特征进行通道维度压缩(而非空间下采样),构建紧凑连续表示空间,用 Transfusion 架构统一多模态理解与生成,在统一模型中达到 SOTA 生成质量。
- V-Bridge Bridging Video Generative Priors To Versatile Few-Shot Image Restoratio
-
将图像复原重新定义为渐进式视频生成过程,利用预训练视频生成模型(Wan2.2-TI2V-5B)的先验知识,仅用 1,000 个多任务训练样本(不到现有方法的 2%)即可实现竞争力的多任务图像复原。
- Visual-Erm Reward Modeling For Visual Equivalence
-
提出 Visual-ERM,一个多模态生成式奖励模型,在视觉空间中直接评估 vision-to-code 任务的渲染质量,提供细粒度、可解释、任务无关的奖励信号,用于 RL 训练和测试时缩放。
- When To Lock Attention Training-Free Kv Control In Video Diffusion
-
提出 KV-Lock,一种基于扩散幻觉检测的免训练视频编辑框架,通过动态调度 KV 缓存融合比例和 CFG 引导尺度,在保持背景一致性的同时增强前景生成质量。
🚗 自动驾驶¶
- 3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation
-
提出3D-AVS,首个针对LiDAR点云的自动词表分割方法:无需用户指定目标类别,系统自动从图像和点云中识别场景中存在的语义实体并生成词表,再用开放词表分割器完成逐点语义分割,在nuScenes和ScanNet200上展示了生成精细语义类别的能力。
- ProtoOcc: 3D Occupancy Prediction with Low-Resolution Queries via Prototype-aware View Transformation
-
提出ProtoOcc,通过原型感知视角变换将2D图像聚类原型映射到3D体素查询空间来增强低分辨率体素的上下文信息,配合多视角占用解码策略从增强的体素中重建高分辨率3D占用场景,用75%更小的体素分辨率仍能达到与高分辨率方法竞争的性能(Occ3D mIoU 37.80 vs PanoOcc 38.11)。
- A Neuro-Symbolic Framework Combining Inductive and Deductive Reasoning for Autonomous Driving Planning
-
本文提出首个将 ASP 符号推理决策以可学习嵌入形式直接嵌入端到端规划器轨迹解码的神经-符号框架,用 LLM 动态提取场景规则、Clingo 求解器进行逻辑仲裁、可微 KBM 生成物理可行轨迹并配合神经残差修正,在 nuScenes 上 L₂ 误差 0.57m、碰撞率 0.075%、TPC 0.47m 全面超越 MomAD。
- PAP: A Prediction-as-Perception Framework for 3D Object Detection
-
PAP 受人脑"预测性感知"启发,将上一帧轨迹预测结果作为当前帧感知模块的 query 输入替代部分随机 query,在 UniAD 上实现 AMOTA 提升 10%(0.359→0.395)、推理速度提升 15%(14→16 FPS)和训练时间缩短 14%。
- CAWM-Mamba: A Unified Model for Infrared-Visible Image Fusion and Compound Adverse Weather Restoration
-
CAWM-Mamba 首次提出端到端统一处理红外-可见光图像融合与复合恶劣天气(如雾+雨、雨+雪)场景的框架,通过天气感知预处理、跨模态特征交互和小波域频率-SSM 解耦多频退化,在 AWMM-100K 和标准融合数据集上全面超越 SOTA。
- CompoSIA: Composing Driving Worlds through Disentangled Control for Adversarial Scenario Generation
-
CompoSIA 提出一种基于 Flow Matching DiT 的组合式驾驶视频生成框架,通过解耦结构(3D bbox)、身份(单参考图像)和自车动作(相机轨迹)三类控制信号的注入方式,实现精细独立控制和组合编辑,用于系统化合成对抗性驾驶场景,FVD 提升 17%,碰撞率增加 173%。
- LR-SGS: Robust LiDAR-Reflectance-Guided Salient Gaussian Splatting for Self-Driving Scene Reconstruction
-
LR-SGS 提出基于 LiDAR 反射率引导的显著高斯泼溅方法,引入结构感知的显著高斯表示(由 LiDAR 几何和反射率特征点初始化)和光照不变的反射率通道作为额外约束,在 Waymo 数据集挑战场景(复杂光照)上 PSNR 超越 OmniRe 1.18 dB。
- M²-Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs
-
M²-Occ 针对多相机输入不完整时的语义占用预测问题,提出多视角掩码重建(MMR)模块利用相邻相机重叠区域恢复缺失视角特征,以及特征记忆模块(FMM)通过类级语义原型精炼不确定体素特征,在缺失后视角设置下 IoU 提升 4.93%。
- MapGCLR: Geospatial Contrastive Learning of Representations for Online Vectorized HD Map Construction
-
MapGCLR 提出地理空间对比学习方法,通过强制多次行驶中地理空间重叠区域的 BEV 特征一致性来改善在线矢量化 HD 地图构建的 BEV 编码器,在仅 5% 标注数据下实现 42% 的相对 mAP 提升。
- O3N: Omnidirectional Open-Vocabulary Occupancy Prediction
-
O3N 首次提出纯视觉端到端的全向开放词汇占用预测框架,通过极坐标螺旋 Mamba(PsM)建模全向空间连续性、占用代价聚合(OCA)统一几何和语义监督、以及无梯度自然模态对齐(NMA)桥接像素-体素-文本模态间隙,在 QuadOcc 和 Human360Occ 上达到 SOTA。
- Panoramic Multimodal Semantic Occupancy Prediction for Quadruped Robots
-
首个面向四足机器人的全景多模态语义占用预测框架 VoxelHound,提出 PanoMMOcc 数据集(全景 RGB + 热成像 + 偏振 + LiDAR),通过垂直抖动补偿(VJC)和多模态信息提示融合(MIPF)模块达到 23.34% mIoU。
- Single Pixel Image Classification using an Ultrafast Digital Light Projector
-
利用 microLED-on-CMOS 超快数字光投影器实现基于单像素成像(SPI)的 MNIST 图像分类,在 1.2 kfps 帧率下达到 >90% 分类精度,完全绕过图像重建直接从时序光信号分类。
- Spectral-Geometric Neural Fields for Pose-Free LiDAR View Synthesis
-
SG-NLF 提出一种无需精确位姿的 LiDAR NeRF 框架,通过混合频谱-几何表征重建平滑几何、置信度感知位姿图实现全局对齐、对抗学习增强跨帧一致性,在低频 LiDAR 场景下重建质量和位姿精度分别超越 SOTA 35.8% 和 68.8%。
- VIRD: View-Invariant Representation through Dual-Axis Transformation for Cross-View Pose Estimation
-
VIRD 通过双轴变换(极坐标变换 + 上下文增强位置注意力)构建视角不变表征,实现无需方向先验的全向跨视角位姿估计,在 KITTI 上位置和方向误差分别降低 50.7% 和 76.5%。
✂️ 语义分割¶
- 2DMamba: Efficient State Space Model for Image Representation with Applications on Giga-Pixel Whole Slide Image Classification
-
提出2DMamba,首个具有高效并行算法的原生2D选择性状态空间模型,通过保持2D空间连续性(而非展平为1D序列)来建模WSI中的patch间关系,在10个公共病理数据集上全面超越1D Mamba方法,并在ImageNet分类和ADE20K分割上也有提升。
- Binwang2Hfnet Geogran-Aware Hierarchical Feature Fusion Network For Salient Obje
-
提出 G2HFNet,通过多尺度细节增强 (MDE)、双分支几何-粒度互补 (DGC)、深层语义感知 (DSP) 和局部-全局引导融合 (LGF) 四个模块,针对不同层级特征设计差异化优化策略,在三个遥感显著性检测数据集上全面超越 SOTA。
- Crossearth-Sar A Sar-Centric And Billion-Scale Geospatial Foundation Model For D
-
提出首个十亿参数级 SAR 视觉基础模型 CrossEarth-SAR,基于物理引导的稀疏混合专家 (MoE) 架构,构建了包含 200K 图像的训练集和 22 个子基准的评估体系,在 20/22 个跨域语义分割基准上达到 SOTA。
- Efficient Rgb-D Scene Understanding Via Multi-Task Adaptive Learning And Cross-D
-
提出一个高效 RGB-D 多任务场景理解网络,通过改进融合编码器利用冗余特征加速推理,引入归一化聚焦通道层 (NFCL) 和上下文特征交互层 (CFIL) 进行跨维度特征引导,并设计多任务自适应损失函数动态调整任务权重,在 NYUv2/SUN RGB-D/Cityscapes 上达到 SOTA。
- HFP-SAM: Hierarchical Frequency Prompted SAM for Efficient Marine Animal Segmentation
-
HFP-SAM 提出分层频率提示的 SAM 框架,通过频率引导适配器(FGA)注入海洋场景信息、频率感知点选择(FPS)自动生成高质量点提示、全视图 Mamba(FVM)高效解码,在四个海洋动物分割数据集上取得 SOTA。
- PicoSAM3: Real-Time In-Sensor Region-of-Interest Segmentation
-
PicoSAM3 是一个 1.3M 参数的超轻量可提示分割模型,通过 ROI 隐式提示编码、密集 CNN 架构(无 Transformer)、SAM3 知识蒸馏和 INT8 量化,在 COCO 上达 65.45% mIoU,并实现在 Sony IMX500 视觉传感器上 11.82ms 实时推理。
- Prompt-Driven Lightweight Foundation Model for Instance Segmentation-Based Fault Detection in Freight Trains
-
SAM FTI-FDet 提出基于轻量 SAM 的自动提示实例分割框架,通过 Transformer 解码器式的提示生成器自动产生任务相关提示、自适应特征分发器融合多尺度特征、TinyViT backbone 降低计算开销,在货运列车故障检测数据集上达 74.6 \(AP^{box}\) / 74.2 \(AP^{mask}\)。
- RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images
-
RDNet 针对遥感图像中目标尺度剧烈变化的问题,提出区域比例感知的动态自适应显著性检测网络,通过动态自适应细节感知模块(DAD,根据目标区域比例选择不同大小卷积核组合)、频率匹配上下文增强模块(FCE,小波域特征交互)和区域比例感知定位模块(RPL,交叉注意力+比例引导),在 EORSSD/ORSSD/ORSI-4199 三个数据集上取得 SOTA。
- RSONet: Region-guided Selective Optimization Network for RGB-T Salient Object Detection
-
提出区域引导选择性优化网络 RSONet,通过两阶段(区域引导+显著性生成)解决 RGB 与热红外图像中显著区域不一致问题,利用相似度分数自动选择信息更准确的模态主导后续融合。
- SAP: Segment Any 4K Panorama
-
将 360° 全景图分割重新定义为透视视频分割问题,通过沿 zigzag 轨迹分解全景图为重叠 patch 序列并微调 SAM2 的 memory 模块,配合 183K 合成 4K 全景图的大规模训练,实现零样本全景分割 +17.2 mIoU 的提升。
- SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data
-
提出SGMA框架,通过语义引导融合(SGF)模块构建全局语义原型估计模态鲁棒性并自适应加权融合,以及模态感知采样(MAS)模块动态优先训练脆弱模态,解决遥感不完整多模态分割中的模态不平衡、类内变化和跨模态异质性三大挑战。
- SPARROW: Learning Spatial Precision and Temporal Referential Consistency in Pixel-Grounded Video MLLMs
-
提出SPARROW框架,通过目标特定跟踪特征(TSF)和双提示(BOX+SEG)机制,解决视频MLLM中时序引用一致性差和首帧初始化不稳定的问题,在6个基准上对3个主流视频MLLM均取得一致提升。
- Spatio-Semantic Expert Routing Architecture with Mixture-of-Experts for Referring Image Segmentation
-
提出 SERA 框架,在预训练视觉语言模型中引入轻量级表达感知的混合专家(MoE)精细化,分别在 backbone 层(SERA-Adapter)和融合层(SERA-Fusion)进行专家路由,仅更新 <1% 参数即在参考图像分割基准上达到 SOTA。
🦾 LLM Agent¶
- ATA: Adaptive Transformation Agent for Text-Guided Subject-Position Variable Background Inpainting
-
提出 ATA(Adaptive Transformation Agent),解决文本引导的主体位置可变背景修复任务,通过 PosAgent Block 自适应预测位移、Reverse Displacement Transform 模块和 Position Switch Embedding,在保持修复质量的同时实现主体位置的灵活调整。
- ChatHuman: Chatting about 3D Humans with Tools
-
提出 ChatHuman,一个基于 LLM 的语言驱动系统,通过自动选择和集成专门的 3D 人体分析工具(3D 姿态估计、形状恢复、接触检测、人物交互分析、情感识别等),利用学术论文作为工具使用说明和 RAG(检索增强生成)创建 in-context 示例以管理新工具,在工具选择准确率和整体 3D 人体任务性能上超越现有 LLM 模型。
- Feature4X: Bridging Any Monocular Video to 4D Agentic AI with Versatile Gaussian Feature Fields
-
提出 Feature4X,一个通用框架,从任意单目视频通过动态优化策略将多种 2D 视觉基础模型(SAM2、InternVideo2 等)的功能蒸馏到统一的 4D 高斯特征场中,首次实现基于 Gaussian Splatting 的视频基础模型 4D 特征提升,支持新视角下的 segment anything、几何/外观编辑和自由形式 VQA。
- GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration
-
提出 GUI-Xplore 数据集(312 个应用、32K+ QA 对、五层级任务)和 Xplore-Agent 框架(Action-aware GUI 建模 + GUI Transition Graph 推理),通过模拟"先探索再推理"的人类策略,在陌生应用上比 SOTA GUI Agent 提升约 10% StepSR。
- RL-RC-DoT: A Block-level RL Agent for Task-Aware Video Compression
-
提出 RL-RC-DoT,一个基于强化学习的宏块级量化参数(QP)控制 agent,用于任务感知视频压缩。通过将 QP 选择建模为 RL 的顺序决策问题,agent 学习在给定码率约束下为任务相关区域分配更多码率,在车辆检测和 ROI 显著性编码两个任务上显著提升性能。关键优势在于推理时不需要运行下游任务模型,适合边缘设备部署。
- SceneAssistant: A Visual Feedback Agent for Open-Vocabulary 3D Scene Generation
-
提出 SceneAssistant,一个基于视觉反馈的闭环 agentic 框架,通过为 VLM 设计一套功能完备的 Action API(13个原子操作覆盖物体增删、6DoF空间操作、相机控制),让 VLM 以 ReAct 范式迭代生成开放词汇的 3D 场景,在室内(偏好率61.25%)和开放域(偏好率65.00%)场景中均大幅优于 Holodeck 和 SceneWeaver。
- Sketchtopia: A Dataset and Foundational Agents for Benchmarking Asynchronous Multimodal Communication with Iconic Feedback
-
提出 Sketchtopia 大规模数据集(20K+ 游戏会话、263K 草图、916 名玩家)和三组件 Agent 框架(ActionDecider + DRAWBOT + GUESSBOT),在 Pictionary 场景下研究异步、目标驱动的多模态协作通信,引入 AAO/FRS/MATS 三个新评估指标。
- SpiritSight Agent: Advanced GUI Agent with One Look
-
提出 SpiritSight,一个基于视觉的端到端 GUI agent,通过 573 万样本的多层级数据集 GUI-Lasagne 和 Universal Block Parsing (UBP) 方法解决动态高分辨率输入的定位歧义,SpiritSight-8B 在 Multimodal-Mind2Web 上非候选元素设置下 Step SR 达 52.7%,全面超越所有视觉/语言/混合方法。
- TANGO: Training-free Embodied AI Agents for Open-world Tasks
-
提出 TANGO,通过 LLM 的程序组合能力编排两个最小化的导航基础原语(PointGoal Navigation + 记忆驱动探索策略),无需任何任务特定训练,仅用 few-shot 示例即可在 Open-Set ObjectGoal Navigation、Multi-Modal Lifelong Navigation 和 Open Embodied QA 三个不同的具身 AI 任务上达到 SOTA,体现了"最小原语集 + LLM 组合"的通用性。
- V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents
-
提出 V-Stylist,一个基于 MLLM 多 agent 协作和反思的视频风格化系统,通过 Video Parser(视频分镜)、Style Parser(风格树搜索)和 Style Artist(多轮自反思渲染)三个角色协作,在复杂转场视频和开放风格描述上实现 SOTA,整体指标超越 FRESCO 6.05%。
- Visual Agentic AI for Spatial Reasoning with a Dynamic API
-
提出 VADAR,一种 agentic 程序合成方法用于 3D 空间推理。多个 LLM agent 协作生成 Pythonic API 并在求解过程中动态扩展新函数来解决常见子问题,克服了 VisProg/ViperGPT 等先前方法依赖静态人工定义 API 的局限。同时引入涉及多步空间定位和推理的新 benchmark,在 3D 理解任务上超越现有零样本方法。
🤖 机器人/具身智能¶
- 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation
-
提出3D-MVP,将Masked Autoencoder预训练从2D扩展到3D多视角设定——在Objaverse的200K个3D物体上预训练RVT的多视角Transformer编码器,下游微调后在RLBench上平均成功率从62.9%提升到67.5%,在COLOSSEUM上显著提升对纹理、大小、光照等环境变化的鲁棒性。
- Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation
-
提出 Expert Pyramid Tuning (EPT),将计算机视觉中的多尺度特征金字塔思想引入 LoRA-based MoE,通过共享元知识子空间 + 反卷积金字塔投影机制构建不同粒度的专家,实现更高效的多任务参数微调。
- Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics
-
通过 NTK 框架揭示线性化注意力机制不会收敛到无穷宽 NTK 极限(谱放大效应使 Gram 矩阵条件数立方化,需宽度 \(m = \Omega(\kappa^6)\)),并引入「影响可塑性」概念量化这一非收敛的双面后果:注意力比 ReLU 网络高 6-9 倍的可塑性既增强了任务适配能力,也加剧了对抗脆弱性。
- LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation
-
提出 LaDA,将 7-DoF 机器人动作解耦为平移/旋转/夹爪三类运动原语并与语言语义建立对应,通过软标签对比学习和自适应损失加权,以 1.3B 参数在 LIBERO 上达到 93.6% 平均成功率。
- One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination
-
提出首个统一的训练无关MLLM幻觉缓解框架,围绕vision token的双重角色——增强(SVC)与抑制(CRC)——在隐表示层协同操作,在LLaVA-1.5上POPE准确率提升约2%,仅增加1.06×推理延迟。
- PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments
-
提出PanoAffordanceNet——首个360°全景affordance grounding框架,通过失真感知频谱调制器(DASM)处理ERP纬度依赖畸变、全球面致密化头(OSDH)恢复稀疏激活为拓扑连续区域、多层级训练目标抑制语义漂移,并构建首个全景affordance数据集360-AGD,全面超越现有方法。
- SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics
-
SaPaVe 提出了一种端到端的主动操作框架,通过解耦相机运动和操作动作的 action space,采用自底向上的两阶段训练策略(先学语义相机控制,再联合优化),在 200K 语义相机运动数据集上训练主动感知先验,配合 3D 几何感知模块增强视角变化下的执行鲁棒性,在真实世界任务中比 GR00T N1 和 \(\pi_0\) 分别高 31.25% 和 40% 成功率。
- SortScrews: A Dataset and Baseline for Real-time Screw Classification
-
提出SortScrews数据集——一个包含560张512×512 RGB图像、覆盖6类螺丝的工业分类数据集,配套可复用的数据采集流水线,并以迁移学习的EfficientNet-B0和ResNet-18作为基线,ResNet-18在该数据集上达到96.4%验证准确率。
- TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers
-
在 ESP32 微控制器上部署端到端量化 CNN,仅用 23k 参数和 ToF 深度相机实现 30ms 延迟的实时自主导航。
🧑 人体理解¶
- 3D Face Reconstruction From Radar Images
-
首次从毫米波雷达图像进行3D人脸重建:用物理雷达渲染器生成合成数据集训练CNN编码器估计BFM参数,再通过学习一个可微分雷达渲染器构建model-based autoencoder,在合成数据上实现2.56mm平均点距精度,并可在推理时无监督优化参数。
- Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors
-
用预训练的Foundation Model(TabPFN)替代传统手工先验,实现零超参数调优的电路Yield Multi-Corner Analysis:冻结backbone做in-context learning,自动跨corner迁移知识,结合自动特征选择(1152D→48D),在SRAM benchmarks上达到SOTA精度(MRE低至0.11%)且验证成本降低10倍以上。
- L2GTX: From Local to Global Time Series Explanations
-
L2GTX 提出一种完全模型无关的时间序列分类全局解释方法,通过聚合 LOMATCE 产生的参数化时间事件原语(PEPs)构建类级全局解释,在六个基准数据集上保持稳定的全局忠实度(R²)。
- MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
-
MM-CondChain 是首个针对视觉基础深层组合推理的 MLLM 基准,通过可验证程序中间表示(VPIR)自动构建多层条件链和链式硬负样本,最强模型仅获 53.33 Path F1,揭示深层组合推理是根本挑战。
- NBAvatar: Neural Billboards Avatars with Realistic Hand-Face Interaction
-
NBAvatar 提出 Neural Billboard 原语——将可学习平面几何原语与神经纹理延迟渲染结合,实现手脸交互场景下的照片级真实头部 avatar 渲染,在百万像素分辨率下 LPIPS 比 Gaussian 方法降低 30%。
- Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception
-
提出一种面向人机协作的感知调度框架,基于信息增益和计算代价的权衡来选择性激活感知模块(目标检测/姿态估计),在流式感知场景下将计算延迟降低最多 27.52%,同时 MMPose 激活召回提升 72.73%。
- Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback
-
提出 VTON-IQA,一个无参考的虚拟试穿图像质量评估框架,通过大规模人类标注基准 VTON-QBench(62,688 张试穿图 + 431,800 条标注)和 Interleaved Cross-Attention 模块实现与人类感知对齐的图像级质量预测。
- Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach
-
提出结合面部(GRADA+Transformer)、行为描述(Qwen3-VL+Mamba)和音频(WavLM)三模态的连续情感估计方法,通过 Directed Cross-Modal MoE 和 Reliability-Aware Audio-Visual 两种融合策略在 Aff-Wild2 上达到 CCC 0.6576(dev)/ 0.62(test)。
🎬 视频理解¶
- Behaviorvlm Unified Finetuning-Free Behavioral Understanding With Vision-Languag
-
提出 BehaviorVLM,一个统一的无需微调的视觉语言框架,通过多阶段结构化推理管线同时解决动物姿态估计和行为理解两大任务,仅需 3 帧人工标注即可实现可靠的关键点追踪,并通过深度嵌入聚类 + VLM 描述 + LLM 语义合并实现可解释的多动物行为分割。
- Beyond Single-Sample Reliable Multi-Sample Distillation For Video Understanding
-
提出 R-MSD(Reliable Multi-Sample Distillation),通过对每个输入采样多个教师响应并结合任务自适应质量匹配,解决视频 LVLM 黑盒蒸馏中单样本教师监督不可靠的问题,4B 学生模型在 VideoMME (+1.5%)、Video-MMMU (+3.2%)、MathVerse (+3.6%) 等基准上取得一致提升。
- Fc-Track Overlap-Aware Post-Association Correction For Online Multi-Object Track
-
提出 FC-Track,一个轻量级的后关联校正框架,通过基于 IoA(Intersection over Area)的外观特征过滤和重叠 tracklet 对内的相似度比较,在线纠正因目标重叠导致的检测-轨迹错误匹配,将长期身份切换比例从 36.86% 降至 29.55%,同时在 MOT17/MOT20 上保持 SOTA 性能。
- Semantic Satellite Communications for Synchronized Audiovisual Reconstruction
-
提出面向卫星场景的自适应多模态语义传输系统,通过双流生成架构(视频驱动音频 / 音频驱动视频)灵活切换、动态知识库更新机制和 LLM 决策代理,在极低带宽下实现高保真音视频同步重建。
- VCBench: A Streaming Counting Benchmark for Spatial-Temporal State Maintenance in Long Videos
-
VCBench 将计数重新定位为诊断视频模型"时空状态维护"能力的最小探针,提出了覆盖物体计数(当前状态/身份追踪)和事件计数(瞬时事件/周期活动)的 8 种子类别,通过沿时间线的流式多点查询观察模型预测轨迹,在 406 个视频/4576 个查询点上评估主流模型,发现当前模型在时空状态维护上仍存在显著缺陷。
- World2Act: Latent Action Post-Training via Skill-Compositional World Models
-
World2Act 提出了一种基于潜在空间对齐的 VLA 后训练方法:通过对比学习将 World Model 的视频动态潜表示与 VLA 的动作表示对齐(而非在像素空间监督),并引入 LLM 驱动的技能分解流水线实现任意长度视频生成,在 RoboCasa 和 LIBERO 上以 50 条合成轨迹即达到 SOTA,真实世界提升 6.7%。
⚖️ 对齐 / RLHF¶
- Bases of Steerable Kernels for Equivariant CNNs: From 2D Rotations to the Lorentz Group
-
提出一种求解可转向等变 CNN 核约束方程的替代方法,通过在不动点处求解更简单的不变性条件再"转向"到任意点,绕过了计算 Clebsch-Gordan 系数的需要,为 SO(2)、O(2)、SO(3)、O(3) 及 Lorentz 群给出了显式的核基底公式。
- Boost Your Human Image Generation Model via Direct Preference Optimization
-
提出 HG-DPO,以真实人像作为 DPO 的 winning image(而非生成图像对)+ 三阶段课程学习(Easy/Normal/Hard)渐进弥合生成-真实图像分布 gap + 统计匹配损失解决色偏,FID 从 37.34 降至 29.41(-21.4%),CI-Q 0.906→0.934,win-rate 超越 Diffusion-DPO 达 99.97%。
- Continual SFT Matches Multimodal RLHF with Negative Supervision
-
通过梯度分析发现多模态 RLHF 相比持续 SFT 的核心优势在于 rejected response 中的负监督信号,据此提出 nSFT 方法,用 LLM 从拒绝回复中提取错误信息并构造纠正性对话数据,仅用 SFT loss 就能匹配甚至超越 DPO/PPO 等 RLHF 方法,且只需 1 个模型,显存效率大幅提升。
- PhysMoDPO: Physically-Plausible Humanoid Motion with Preference Optimization
-
提出 PhysMoDPO,将 Direct Preference Optimization 应用于文本驱动的人体运动生成,通过将全身控制器(WBC)集成到训练 pipeline 中计算基于物理的奖励来构造偏好数据,使生成运动同时满足物理约束和文本指令,并在 Unitree G1 机器人上实现零样本部署。
- Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment
-
提出 Task Preference Optimization(TPO),通过可学习的任务 token 将视觉任务专用头(区域定位/时序定位/分割)接入 MLLM,利用视觉任务标注作为"任务偏好"反向优化 MLLM,在不损害对话能力的前提下大幅提升细粒度视觉理解,VideoChat 基线上平均提升 14.6%。
📦 模型压缩¶
- Alternating Gradient Flow Utility A Unified Metric For Structural Pruning And Dy
-
提出基于交替梯度流(AGF)的统一效用度量,将特征空间总变差作为结构化剪枝指标,并结合置信度级联路由实现离线拓扑构建与在线动态推理的解耦,在ImageNet-1K极端压缩下避免传统指标导致的结构崩溃,在ImageNet-100动态推理中以0.92x计算代价匹配全模型精度。
- An Fpga Implementation Of Displacement Vector Search For Intra Pattern Copy In J
-
首次提出JPEG XS帧内模式复制(IPC)中位移向量(DV)搜索模块的FPGA架构实现,采用四级流水线设计和优化的存储组织方式,在Xilinx Artix-7上实现38.3 Mpixels/s吞吐量和277 mW功耗,为IPC实际硬件部署和ASIC转化奠定基础。
- Arche Autoregressive Residual Compression With Hyperprior And Excitation
-
提出ARCHE端到端学习型图像压缩框架,在统一概率架构中整合分层Hyperprior、掩码空间自回归上下文、通道条件化和SE激励通道重校准,无需Transformer或循环组件,在Kodak上相对Ballé基线BD-Rate降低约48%,相对VVC Intra降低约5.6%,仅95M参数和222ms解码时间。
- GeoChemAD: Benchmarking Unsupervised Geochemical Anomaly Detection for Mineral Exploration
-
提出 GeoChemAD 开源基准数据集(8 个子集,覆盖多区域/多采样源/多目标元素)和 GeoChemFormer 框架,通过空间上下文自监督预训练和元素依赖建模实现无监督地球化学异常检测,在所有子集上取得最优 AUC。
- HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers
-
HiAP 提出了一种多粒度自动剪枝框架,通过在宏观(attention heads、FFN blocks)和微观(intra-head dimensions、FFN neurons)两级部署可学习 Gumbel-Sigmoid 门控,在单阶段端到端训练中自动发现最优子网络,无需手工重要性排序或后处理阈值。
🧩 多模态 VLM¶
- A Closed-Form Solution for Debiasing Vision-Language Models with Utility Guarantees Across Modalities and Tasks
-
提出一个 training-free、data-free 的 VLM 去偏方法,通过在 cross-modal 空间中推导闭式解,实现 Pareto-optimal 的公平性与效用保持,在零样本分类、text-to-image 检索和生成三个下游任务中全面超越已有方法。
- Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation
-
提出 CRYSTAL benchmark(6372 实例),通过 Match F1 和 Ordered Match F1 两个指标在中间推理步骤层面评估 MLLM,揭示了普遍的 cherry-picking 行为和推理顺序混乱问题,并提出 CPR-Curriculum 训练策略改善推理质量。
- Continual Learning with Vision-Language Models via Semantic-Geometry Preservation
-
提出 SeGP-CL 框架,通过对抗性锚点(DPGD)精准探测新旧任务语义边界的脆弱区域,结合跨模态几何蒸馏(ACGD)和文本语义正则化(TSGR)保护 VLM 的跨模态几何结构,在五个持续学习 benchmark 上达到 SOTA。
- CleanSight: Test-Time Attention Purification for Backdoored Large Vision Language Models
-
CleanSight 发现 LVLM 后门攻击的机制不在像素层面而在注意力层面——触发器通过"注意力窃取"(trigger token 抢夺 text token 的注意力)来激活后门,据此提出了一种免训练、即插即用的 test-time 防御方法:通过检测跨模态注意力比例异常来识别中毒输入,再通过剪枝高注意力视觉 token 来中和后门,ASR 降至接近 0% 且几乎不影响模型性能。
🎯 目标检测¶
- Abra Teleporting Fine-Tuned Knowledge Across Domains For Open-Vocabulary Object
-
提出 ABRA(Aligned Basis Relocation for Adaptation),通过在权重空间中进行 SVD 分解与正交旋转对齐,将源域的类别特定检测知识"传送"到无标注数据的目标域,实现零样本跨域目标检测。
- Dreamvideo-Omni Omni-Motion Controlled Multi-Subject Video Customization With La
-
提出 DreamVideo-Omni,通过渐进式两阶段训练范式(Omni-Motion SFT + Latent Identity Reward Feedback Learning),在统一的 DiT 框架中实现多主体定制与全运动控制(全局 bbox + 局部轨迹 + 相机运动)的协同生成。
- Mitigating Memorization in Text-to-Image Diffusion via Region-Aware Prompt Augmentation and Multimodal Copy Detection
-
提出 RAPTA(训练时基于目标检测的区域感知 prompt 变体增强)和 ADMCD(推理时三流注意力融合的多模态复制检测),从缓解和检测两个角度端到端地应对文生图扩散模型的训练数据记忆化问题。
- Small Target Detection Based on Mask-Enhanced Attention Fusion of Visible and Infrared Remote Sensing Images
-
提出 ESM-YOLO+,一种轻量级可见光-红外融合网络,通过 MEAF 模块(可学习空间掩码+空间注意力的像素级融合)和训练时结构表示增强(SR,推理时无开销的超分辅助监督),在 VEDAI 上达到 84.71% mAP 同时参数量仅 5.1M(减少 93.6%)。
🛰️ 遥感¶
- Hierarchical Dual-Change Collaborative Learning for UAV Scene Change Captioning
-
提出 UAV 场景变化描述(UAV-SCC)新任务及 HDC-CL 框架,通过动态自适应布局 Transformer 建模移动视角下的图像对重叠/非重叠区域,结合层级跨模态方向一致性校准增强视角偏移方向感知,并构建了专用基准数据集。
- Joint and Streamwise Distributed MIMO Satellite Communications with Multi-Antenna Ground Users
-
研究多 LEO 卫星联合服务多天线地面用户的分布式 MIMO 下行通信,提出联合传输与流式传输两种模式:前者通过 WMMSE 迭代优化预编码器最大化和频谱效率,后者通过匈牙利算法的流-卫星关联减少前传开销,实现性能与前传负载的灵活权衡。
- MetaSpectra+: A Compact Broadband Metasurface Camera for Snapshot Hyperspectral+ Imaging
-
提出 MetaSpectra+,一种基于超表面-折射混合光学的紧凑多功能相机,通过双层超表面独立控制各通道色散/曝光/偏振,在约 250nm 可见光带宽内实现快照式高光谱+HDR 或高光谱+偏振联合成像,重建精度在基准数据集上达到 SOTA。
- Think and Answer ME: Benchmarking and Exploring Multi-Entity Reasoning Grounding in Remote Sensing
-
构建遥感多实体推理定位基准 ME-RSRG(首个显式标注主体-客体角色的遥感定位数据集),提出 Entity-Aware Reasoning (EAR) 框架,结合 SFT 冷启动与实体感知奖励驱动的 GRPO 优化,实现结构化推理链输出和主-客体联合定位,Qwen2.5-VL 系列在 EAR 优化后 mAcc@0.5 提升超 10%。
🛡️ AI 安全¶
- Lyapunov Stable Graph Neural Flow
-
将 Lyapunov 稳定性理论(整数阶和分数阶)与图神经流集成,通过可学习 Lyapunov 函数和投影机制将 GNN 特征动态约束在稳定空间中,首次为图神经流提供可证明的对抗鲁棒性保证,且与对抗训练正交可叠加。
- Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating
-
Neural Gate 发现 LVLM 中隐私相关神经元具有强跨样本不一致性——仅约 10% 的神经元一致性编码隐私信号。基于此发现,提出神经元级梯度门控编辑:仅对强一致性隐私神经元施加梯度更新,在 MiniGPT 上将 Safety EtA 从 0.48 提升至 0.89,同时 Utility 保持不降。
- Rethinking VLMs for Image Forgery Detection and Localization
-
提出 IFDL-VLM,揭示 VLM 先验对伪造检测/定位几乎无益,通过将检测/定位与语言解释解耦的两阶段框架,用 ViT+SAM 专家模型做检测定位、再将定位 mask 作为辅助输入增强 VLM 训练以生成可解释文字说明。
🖼️ 图像恢复¶
- Polishing The Sky Wide-Field And High-Dynamic Range Interferometric Image Recons
-
在 POLISH 框架基础上提出 POLISH+/++,通过分块训练+拼接推理和arcsinh 非线性变换两项改进,使深度学习方法首次能处理宽视场(12,960×12,960 像素)、高动态范围(~10⁶)的射电干涉成像,并展示了超分辨率对强引力透镜发现的 10× 提升潜力。
- OptiFusion: Towards Universal Computational Aberration Correction in Photographic Cameras
-
扩展 OptiFusion 自动设计 120 种多样化镜头,提出 ODE 综合评估指标和大规模 benchmark,系统对比 24 种算法,发现 CNN 模型在像差校正中提供最佳速度-精度权衡,反直觉地超越 Transformer。
- Variational Garrote for Sparse Inverse Problems
-
系统比较 \(\ell_1\) 正则化 (LASSO) 与 Variational Garrote (VG, 概率 \(\ell_0\) 近似) 在信号重采样、去噪和稀疏视角 CT 重建三种逆问题上的表现,发现 VG 在强欠定情况下(采样率低/角度稀疏)通常获得更低的泛化误差,因为 spike-and-slab 先验与真实稀疏分布更匹配。
🔄 自监督/表示学习¶
- BoSS: A Best-of-Strategies Selector as an Oracle for Deep Active Learning
-
提出BoSS——一种可扩展的主动学习oracle策略,通过集成多种选择策略生成候选批次、冻结backbone仅重训最后一层来评估性能增益,选择最优批次;在ImageNet等大规模数据集上首次展示了oracle性能,揭示SOTA主动学习策略仍有显著提升空间。
- Representation Learning for Spatiotemporal Physical Systems
-
系统评估通用自监督方法在时空物理系统上学习物理相关表征的能力,发现在潜空间做预测的 JEPA 显著优于像素级重建的 MAE 和自回归模型,接近专用物理建模方法 DISCO。
- Text-Phase Synergy Network with Dual Priors for Unsupervised Cross-Domain Image Retrieval
-
提出 TPSNet,利用文本-相位双先验解决无监督跨域图像检索:域提示(text prior)提供比伪标签更精确的语义监督,相位特征(phase prior)实现保持语义的域不变对齐,两者通过交叉注意力协同融合。
📖 NLP 理解¶
- As Language Models Scale, Low-order Linear Depth Dynamics Emerge
-
将 Transformer 的深度方向视为离散时间动力系统,发现在给定上下文内可以用仅 32 维的线性状态空间代理模型高精度预测层间灵敏度曲线(Spearman 达 0.99),而且令人惊讶的是:模型越大,低阶线性代理越准确——这是一条新的 scaling law。
- As Language Models Scale, Low-order Linear Depth Dynamics Emerge
-
将 Transformer 的深度方向视为离散时间动力系统,发现在给定上下文内可以用仅 32 维的线性状态空间代理模型高精度预测层间灵敏度曲线(Spearman 达 0.99),而且令人惊讶的是:模型越大,低阶线性代理越准确——这是一条新的 scaling law。
🎵 音频/语音¶
- Team LEYA in 10th ABAW Competition: Multimodal Ambivalence/Hesitancy Recognition Approach
-
本文提出面向视频级矛盾/犹豫(A/H)识别的多模态方法,整合场景(VideoMAE)、面部(EmotionEfficientNetB0)、音频(EmotionWav2Vec2.0+Mamba)和文本(EmotionDistilRoBERTa)四种模态,通过原型增强的 Transformer 融合模型实现 83.25% 平均 MF1,最终以五模型集成在测试集达到 71.43%。
⚡ LLM 效率¶
- Efficient Data Driven Mixture-of-Expert Extraction from Trained Networks
-
提出一种从预训练 ViT 中自动提取 MoE(Mixture-of-Experts)变体的方法:先聚类 MLP 层的输出激活模式,再据此抽取对应的子网络作为专家,无需从头训练 MoE,在 ImageNet-1k 上仅需少量微调即可恢复 98% 原始性能,同时将 FLOPs 和模型大小分别减少 36% 和 32%。
💡 LLM 推理¶
- Interleaved-Modal Chain-of-Thought
-
提出交错模态思维链(ICoT),在推理步骤中穿插图像区域 crop 作为视觉 rationale,通过无参数的 Attention-driven Selection(ADS)从输入图像中智能选取关键区域插入生成序列,在 Chameleon 和 Qwen2-VL 上相比现有多模态 CoT 提升高达 14%。
✍️ 文本生成¶
- The Scene Language: Representing Scenes with Programs, Words, and Embeddings
-
提出 Scene Language——一种用程序(P, 编码层级结构)+ 词语(W, 语义类别)+ 嵌入(Z, 视觉身份)三元组 \(\Phi(s)=(W,P,Z)\) 表示视觉场景的新范式,通过 Claude 3.5 Sonnet 的 training-free 推理从文本/图像输入生成场景表示,支持传统/神经/混合渲染,在 3D/4D 场景生成质量和可控编辑上超越场景图等现有表示。
📐 优化/理论¶
- SCOPE: Semantic Coreset with Orthogonal Projection Embeddings for Federated Learning
-
SCOPE 提出了一种面向联邦学习的语义 coreset 选择框架,利用 VLM(MobileCLIP-S2)零样本提取三种标量指标(表示分数、多样性分数、边界接近度),通过服务器聚合全局共识后指导客户端进行两阶段剪枝(异常过滤+冗余消除),在 128-512× 上行带宽减少和 7.72× 加速的同时保持竞争精度。
🎮 强化学习¶
- ThinkStream: Thinking in Streaming Video
-
提出 ThinkStream,采用 Watch-Think-Speak 范式实现流式视频的实时连续推理,通过 RCSM(推理压缩流式记忆)将推理 trace 作为紧凑语义锚点替代旧视觉 token,配合 Streaming RLVR 训练策略,在保持低延迟/低内存的同时超越现有在线视频模型。
📈 时间序列¶
- Competition-Aware CPC Forecasting with Near-Market Coverage
-
将付费搜索CPC预测重构为"部分可观测竞争下的预测"问题,通过语义邻域(Transformer嵌入)、行为邻域(DTW对齐)和地理意图三类竞争代理逼近不可观测的竞争状态,在1811个关键词×127周的Google Ads数据上显示竞争感知增强在中长期预测(6/12周)上显著优于单变量和弱上下文baseline。
📂 其他¶
- 3D Prior is All You Need: Cross-Task Few-shot 2D Gaze Estimation
-
提出跨任务少样本2D视线估计——利用预训练3D视线模型作为先验,通过基于物理的可微投影模块(6个可学习屏幕参数)将3D视线方向投影到2D屏幕坐标,仅需10张标注图像即可在未知设备上适配2D视线估计,在MPIIGaze/EVE/GazeCapture上比EFE和IVGaze提升超25%。
- A2Z-10M Geometric Deep Learning With A-To-Z Brep Annotations For Ai-Assisted Cad
-
构建了包含100万+复杂CAD模型、超1000万多模态标注(高分辨率3D扫描、手绘3D草图、文本描述、BRep拓扑标签)的A2Z数据集,是目前最大的CAD逆向工程数据集,并基于此训练了BRep边界和角点检测的基础模型。
- Bendfm A Taxonomy And Synthetic Cad Dataset For Manufacturability Assessment In
-
提出一个面向板金弯曲工艺的可制造性度量分类法(按配置依赖性×可行性/复杂度两个维度划分为四象限),并构建首个包含20,000个零件(含可制造与不可制造样本)的合成数据集BenDFM,基准测试表明图结构表示(UV-Net)优于点云(PointNext),配置依赖性指标的预测更具挑战性。
- Bounds On Agreement Between Subjective And Objective Measurements
-
通过仅假设投票均值收敛于真实质量,推导出主观测试(MOS)与客观估计器之间PCC(上界)和MSE(下界)的数学界限,并提出基于二项分布的投票模型BinoVotes,使得即使在投票方差不可用时也能计算这些界限,18个主观测试数据的验证表明BinoVotes界限与全数据驱动界限高度吻合。
- Deconstructing The Failure Of Ideal Noise Correction A Three-Pillar Diagnosis
-
通过提供完美的oracle噪声转移矩阵T,证明Forward Correction在理想条件下仍会训练崩塌(先升后降最终与无校正基线收敛),从宏观(收敛终态)、微观(梯度动力学)、信息论(噪声信道不可逆信息损失)三个层面系统诊断了失败的根本原因——这不是T估计不准的问题,而是有限样本下高容量网络的结构性缺陷。
- HSEmotion Team at ABAW-10 Competition: Facial Expression Recognition, Valence-Arousal Estimation, Action Unit Detection and Fine-Grained Violence Classification
-
HSEmotion 团队在 ABAW-10 竞赛中提出了一个轻量级 pipeline:用预训练 EfficientNet 提取面部 embedding,结合 MLP + GLA(Generalized Logit Adjustment)+ 滑窗平滑,在四项任务(EXPR/VA/AU/VD)上均大幅超过官方 baseline,其中暴力检测任务使用 ConvNeXt-T + TCN 达到 0.783 macro F1。
- Integration of deep generative Anomaly Detection algorithm in high-speed industrial line
-
基于 GAN + 残差自编码器(DRAE)的半监督异常检测框架,在制药 BFS 高速产线上实现了仅用正常样本训练、单 patch 推理 0.17ms 的实时在线质检部署,通过 Perlin 噪声增强和 Noise Loss 优化重建质量。
- MXNorm: Reusing MXFP block scales for efficient tensor normalisation
-
MXNorm 提出复用 MXFP 量化过程中已计算的 block absmax 来近似 RMS,将归一化与 MX 量化融合为单次统计收集操作,实现 RMSNorm 的 drop-in 替换,在 Llama 3 8B 预训练中保持训练精度的同时获得最高 2.4× 的 kernel 加速。
- Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models
-
StEvo-Bench 提出了一个评估视频世界模型"不可观测状态演化"能力的 benchmark——测试当物理过程不被观察时(相机移开/遮挡/关灯),世界模型能否继续正确推理状态变化,结果发现当前所有前沿模型(Veo 3、Sora 2 Pro 等)的任务成功率均低于 10%,揭示了"眼不见,心不在"的严重缺陷。
- Rooftop Wind Field Reconstruction Using Sparse Sensors: From Deterministic to Generative Learning Methods
-
提出基于风洞PIV实验数据的学习框架,系统对比Kriging插值与三种深度学习模型(UNet、ViTAE、CWGAN)在稀疏传感器屋顶风场重建任务中的表现,并结合QR分解优化传感器布局。深度学习在混合风向训练下全面优于Kriging,SSIM提升最高33.5%。
- SDF-Net: Structure-Aware Disentangled Feature Learning for Optical–SAR Ship Re-Identification
-
提出 SDF-Net,利用船舶作为刚体的物理先验,在 ViT 中间层提取尺度不变的梯度能量统计量作为跨模态几何锚点,并在终端层将特征解耦为模态不变共享特征和模态特定特征后通过加性残差融合,实现光学-SAR 船舶重识别 SOTA。
- SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules
-
提出SHREC算法,利用谱嵌入技术从冷冻电镜二维投影图像中直接恢复螺旋分子的投影角度,无需预知螺旋对称参数(rise/twist),仅需已知轴对称群Cn,实现从头(ab-initio)螺旋结构重建。
- SldprtNet: A Large-Scale Multimodal Dataset for CAD Generation in Language-Driven 3D Design
-
构建包含24.2万工业零件的大规模多模态CAD数据集SldprtNet,提供3D模型、多视图图像、参数化文本脚本和自然语言描述的完整对齐,支持语义驱动的CAD建模任务。
- STRAP-ViT: Segregated Tokens with Randomized Transformations for Defense against Adversarial Patches in ViTs
-
STRAP-ViT 提出一种无需训练的即插即用 ViT 防御模块,利用 Jensen-Shannon 散度将受对抗补丁影响的 token 从正常 token 中分离出来,再通过随机复合变换消除其对抗效应,在多种 ViT 架构和攻击方法下实现了接近干净基线 2-3% 的鲁棒精度。
- Wear Classification of Abrasive Flap Wheels using a Hierarchical Deep Learning Approach
-
针对柔性磨料翻页轮的复杂磨损模式,提出三级层次化深度学习分类框架,将磨损评估分解为使用状态检测、磨损类型识别和严重程度评估三个子任务,使用EfficientNetV2迁移学习实现93.8%–99.3%的分类精度。
- Why Does It Look There? Structured Explanations for Image Classification
-
提出I2X框架,通过追踪训练过程中模型置信度与原型强度的协同演化,将非结构化的显著性图解释转化为结构化的解释,回答模型"为什么看那里"的问题,并可指导微调提升性能。
- ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training
-
提出 ZO-SAM,将零阶优化策略性地整合到 SAM 的扰动步骤中,仅需一次反向传播即可获得 SAM 的平坦最小值优势,在稀疏训练场景下将计算开销减半的同时提升精度和鲁棒性。