跳转至

📂 其他

📷 CVPR2026 · 共 50

A2Z-10M Geometric Deep Learning With A-To-Z Brep Annotations For Ai-Assisted Cad

构建了包含 1000 万+ 多模态标注(高分辨率3D扫描、手绘3D草图、文本描述、BRep拓扑标签)的 100 万+ CAD 模型数据集 A2Z,为 Scan-to-BRep 逆向工程和多模态 BRep 学习提供了前所未有的数据基础,并训练基础模型在边界/角点检测上大幅超越现有方法。

AdaBet: Gradient-free Layer Selection for Efficient Training of Deep Neural Networks

提出 AdaBet,一种基于代数拓扑(第一 Betti 数 \(b_1\))的无梯度层选择方法,仅通过前向传播计算每层激活空间的拓扑复杂度来决定哪些层需要微调,无需标签、梯度或反向传播,在 ResNet50/VGG16/MobileNetV2/ViT-B16 上以仅 10% 层微调达到优于全量训练的准确率,同时峰值内存降低约 40%。

AssistMimic: Physics-Grounded Humanoid Assistance via Multi-Agent RL

提出 AssistMimic,一个多智能体 RL 框架,联合训练辅助者和被辅助者的物理仿真策略来模仿人-人接触式辅助动作(如扶人站起),是首个在标准基准上成功跟踪力交换辅助运动的方法。

Association And Consolidation Evolutionary Memory-Enhanced Incremental Multi-Vie

提出 EMIMC 框架,受大脑海马-前额叶协作记忆机制启发,通过 Rapid Associative Module (正交映射保证可塑性)、Cognitive Forgetting Module (幂律衰减模拟遗忘曲线) 和 Knowledge Consolidation Module (时序张量低秩分解提炼长期记忆) 三模块协同,解决增量多视图聚类中的稳定性-可塑性困境。

BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending

提出可制造性指标的二维分类法(配置依赖性 x 可行性/复杂度)和首个钣金弯曲合成 CAD 数据集 BenDFM(20,000 零件),基准测试显示图结构表示(UV-Net)优于点云(PointNext),且配置相关任务仍是难点。

BenDFM: A taxonomy and synthetic CAD dataset for manufacturability assessment in sheet metal bending

提出可制造性度量的二维分类法(配置依赖性 × 可行性/复杂度),并构建首个面向钣金弯曲的合成数据集 BenDFM(20k零件),基准测试表明图结构表示(UV-Net)优于点云表示(PointNext),且配置依赖型指标更难预测。

Bounds on Agreement between Subjective and Objective Measurements

从投票的基本统计性质出发,推导了主观MOS与任意客观评估指标间PCC上界和MSE下界的解析表达式,并提出基于二项分布的投票模型BinoVotes/BinoMOS,为无投票方差数据的场景提供性能天花板估计。

Bounds On Agreement Between Subjective And Objective Measurements

推导了主观测试 MOS 值与任意客观质量估计器之间 PCC 上界和 MSE 下界的数学闭式解,并提出基于二项分布的投票模型 BinoVotes 在缺少投票方差信息时估算该界。

CI-ICE: Intrinsic Concept Extraction Based on Compositional Interpretability

提出CI-ICE新任务和HyperExpress方法,利用双曲空间的层次建模能力提取可组合的物体级/属性级内在概念,通过Horosphere投影模块保证概念嵌入空间的可组合性。

U-F²-CBM: CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

提出TextUnlock方法,通过训练轻量MLP将任意冻结视觉分类器的特征投射到文本嵌入空间(同时保持原分类器分布不变),无需CLIP、无需标注、无需训练线性探针,即可将任何legacy分类器转化为可解释的概念瓶颈模型——在40+架构上测试,超越甚至有监督的CLIP基CBM。

Coded-E2Lf Coded Aperture Light Field Imaging From Events

首次证明仅用 event camera(无需传统 intensity 图像)即可重建像素级精度的 4D 光场,提出 Coded-E2LF 系统:通过编码光圈序列触发 events 并累积为 event images,利用全黑 pattern 建立 event-based 与 intensity-based coded aperture imaging 的数学等价性,结合端到端 deep optics 训练实现 8×8 视点光场重建。

Deconstructing the Failure of Ideal Noise Correction: A Three-Pillar Diagnosis

通过宏观收敛态、微观梯度动力学和信息论三个层次,严格证明了即使给定完美噪声转移矩阵,前向校正(FC)仍不可避免地塌缩到与无校正相同的次优水平,根本原因在于有限样本下的记忆化和噪声信道的信息损失。

Deconstructing The Failure Of Ideal Noise Correction A Three-Pillar Diagnosis

本文通过受控实验证明,即使给定完美的噪声转移矩阵 T,前向校正方法仍会在训练后期发生性能崩溃,并从宏观收敛状态、微观优化动力学、信息论三个层面系统诊断了这一失败的根本原因。

Diffbmp Differentiable Rendering With Bitmap Primitives

提出 DiffBMP——首个面向位图图元的通用可微渲染引擎,通过自定义 CUDA 并行管线实现对数千张位图图元的位置、旋转、缩放、颜色和透明度的高效梯度优化,填补了 2D 可微渲染仅限矢量图形的空白。

DirPA: Addressing Prior Shift in Imbalanced Few-shot Crop-type Classification

通过 Dirichlet 先验增强(DirPA),在少样本训练阶段主动模拟真实世界长尾类别分布,从而消除人工平衡训练集与自然不平衡测试分布之间的先验偏移,提升作物分类的鲁棒性。

Elastic Weight Consolidation Done Right for Continual Learning

本文从梯度视角系统分析了 EWC 及其变体在权重重要性估计上的根本缺陷(EWC 的梯度消失和 MAS 的冗余保护),并提出了一个极其简单的 Logits Reversal 操作来修正 Fisher 信息矩阵的计算,在无样例类增量学习和多模态持续指令微调任务上大幅超越原始 EWC 及其所有变体。

Enhancing Out-of-Distribution Detection with Extended Logit Normalization

本文发现 LogitNorm 在训练中会导致两种特征坍塌(维度坍塌和原点坍塌),提出了一种无超参数的 Extended Logit Normalization(ELogitNorm),用特征到决策边界的距离替代到原点的距离作为缩放因子,在不损失分类精度的前提下显著提升各种 post-hoc OOD 检测方法的性能和置信度校准。

ELogitNorm: Enhancing OOD Detection with Extended Logit Normalization

诊断LogitNorm的特征坍缩问题(维度坍缩+原点坍缩),提出ELogitNorm——用到决策边界的平均距离(而非特征范数)做自适应温度缩放,无超参数、兼容所有post-hoc OOD检测方法——CIFAR-10上far-OOD AUROC提升10.48%(SCALE),ImageNet-1K上FPR95从51.45%降至27.74%,同时改善分类精度和ECE校准。

Flow3R Factored Flow Prediction For Scalable Visual Geometry Learning

提出"分解式光流预测"(Factored Flow)模块,用源视图的几何 latent + 目标视图的位姿 latent 预测光流,使无标注视频可作为三维几何学习的监督信号,在静态/动态场景的 8 个基准上达到 SOTA。

Flowmotion Training-Free Flow Guidance For Video Motion Transfer

提出 FlowMotion,一种无需训练的视频运动迁移框架,通过直接利用 flow-based T2V 模型的预测输出(latent prediction)构建运动引导信号,避免对模型内部层做梯度回传,在保持运动保真度的同时大幅降低推理时间和显存开销。

GazeOnce360: Fisheye-Based 360° Multi-Person Gaze Estimation with Global-Local Feature Fusion

本文提出 GazeOnce360,一个端到端的双分辨率 CNN 模型,用于从单个朝上放置的桌面鱼眼相机进行 360° 多人视线方向估计,同时构建了首个面向该场景的大规模合成数据集 MPSGaze360,在精度和速度两方面均大幅超越现有多阶段方法 GAM360。

HypeVPR: Exploring Hyperbolic Space for Perspective to Equirectangular Visual Place Recognition

本文提出 HypeVPR,一个基于双曲空间层次化嵌入的视觉位置识别框架,专门解决透视图像(查询)与全景图像(数据库)之间的跨视场匹配问题,通过在 Poincaré 球中从局部到全局构建多级描述子,实现精度-效率-存储的灵活平衡,检索速度比滑窗基线快数倍且精度相当。

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

基于GRD-Net改进的GAN+密集瓶颈残差自编码器(DRAE),在制药BFS产线上实现半监督异常检测,用281万训练patch在500ms时间槽内完成60个patch的推理(0.17ms/patch),达到97.62%平衡准确率和96.38%的逐运行验证精度。

Integration of Deep Generative Anomaly Detection Algorithm in High-Speed Industrial Line

本文提出一个基于 GAN + 残差自编码器(DRAE)的半监督异常检测框架,专门设计用于制药行业 Blow-Fill-Seal(BFS)产线的高速在线质量检测,仅用合格品训练即可实现 96.4% 的准确率,单 patch 推理仅 0.17ms,满足 500ms 检测周期的严格工业约束。

Learning from Oblivion: Predicting Knowledge-Overflowed Weights via Retrodiction of Forgetting

提出KNOW prediction:通过在逐步缩小的数据子集上sequential fine-tuning诱导结构化遗忘过程,收集权重转变轨迹,然后用meta-learned hyper-model(KNOWN)反转forgetting方向,预测"仿佛在更大数据集上训练"的虚拟知识增强权重。跨多数据集(CIFAR/ImageNet/PACS等)和多架构(ResNet/PVTv2/DeepLabV3+)持续超越naive fine-tuning及多种weight prediction基线,在图像分类、语义分割、图像描述、域泛化等下游任务上均有显著提升。

Linking Modality Isolation In Heterogeneous Collaborative Perception

提出 CodeAlign 框架,通过码本构建离散代码空间和跨模态 Feature-Code-Feature (FCF) 翻译,首次解决异构协同感知中不同模态从未在训练数据中共现的"模态隔离"问题,仅需 HEAL 8% 训练参数、通信量降低 1024 倍,同时达到 SOTA 感知性能。

Mitigating Instance Entanglement in Instance-Dependent Partial Label Learning

针对实例依赖偏标签学习 (ID-PLL) 中相似类别实例因特征和候选标签重叠导致的"实例纠缠"问题,提出 CAD 框架,通过类别特定增强的类内对齐和加权惩罚损失的类间分离,双管齐下缓解类混淆。

MXNorm: Reusing MXFP Block Scales for Efficient Tensor Normalisation

GPU矩阵乘法吞吐量提升(80x)远超reduction/elementwise操作(5-9x),RMSNorm正成为低精度训练的新瓶颈。MXNorm直接复用MXFP8量化时已计算的block scales来估计RMS,实现32倍reduction大小缩减。理论上证明block absmax的广义p-mean可收敛到RMS的常数倍。Llama 3 125M/1B/8B预训练验证MXNorm(p=2)与RMSNorm训练精度差异minimal,torch.compile实测isolated kernel最高2.4x加速、Llama 3 8B transformer layer在MXFP8下+1.3%、NVFP4下+2.6%加速。Drop-in replacement,无额外超参数。

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

提出 NaiLIA,一种面向美甲设计图像的多模态检索方法,通过密集意图描述和调色板查询实现细粒度匹配,引入基于置信度分数的松弛对比损失(CRC loss)处理未标注正样本问题,在自建 NAIL-STAR 基准和 Marqo Fashion200K 上大幅超越现有方法。

Neurodynamics-Driven Coupled Neural P Systems for Multi-Focus Image Fusion

提出 ND-CNPFuse,通过对耦合神经 P (CNP) 系统进行神经动力学分析,建立网络参数与输入信号的约束关系以避免神经元异常持续放电,从而在多焦点图像融合 (MFIF) 任务上无需训练即可生成高质量、可解释的决策图。

On the Possible Detectability of Image-in-Image Steganography

揭示了基于可逆神经网络(INN)的图像隐写方案存在严重安全漏洞:嵌入过程本质上是一种混合过程,可通过ICA进行盲源分离,仅用8维特征+SVM即可达到84.6%检测率,而传统SRM+SVM更是达到99%以上。

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

提出 StEvo-Bench 基准测试,通过在演化过程中插入遮挡或让相机"看向别处"来检验视频世界模型能否将状态演化与观测解耦,揭示了当前模型(包括 Veo 3、Sora 2 Pro 等)的任务成功率不到 10%,暴露了严重的"演化停止"和"不一致性"问题。

Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

提出 StEvo-Bench 基准,通过遮挡或相机移开等观测控制手段评估视频世界模型能否将状态演化与观测解耦,发现当前最先进模型(包括 Veo 3、Sora 2 Pro、Genie 3 等)在观测中断时成功率不足 10%,揭示了视频世界模型在演化-观测耦合上的根本缺陷。

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction

POLISH++在POLISH框架基础上引入分块训练+拼接策略和arcsinh非线性变换,解决了射电干涉成像中宽视场(万级像素)和高动态范围(\(10^4\)-\(10^6\))两大实际部署难题,在T-RECS仿真数据上大幅超越CLEAN方法的源探测精度,且能超分辨恢复PSF尺度附近的强引力透镜系统,有望将DSA巡天的透镜发现数量提升约10倍。

Proof-of-Perception: 带组合共形保证的工具使用多模态推理

提出PoP框架将多模态推理建模为可执行DAG——每个感知/逻辑节点输出共形预测集提供逐步校准的不确定性,控制器在预算约束下按需调用更多工具扩展计算,在文档/图表/多图QA上优于CoT/ReAct/PoT基线。

Rethinking SNN Online Training and Deployment: Gradient-Coherent Learning via Hybrid-Driven LIF Model

提出HD-LIF(混合驱动LIF)脉冲神经元模型族,通过在阈值上下区域采用不同脉冲计算机制,理论证明其梯度可分离性和对齐性,解决SNN在线训练的前后向传播不一致问题,同时实现学习精度、内存复杂度和功耗的全阶段优化——以10×参数压缩、11×功耗降低和30% NOPs节省达到CIFAR-100上78.61%精度。

Rethinking SNN Online Training and Deployment: Gradient-Coherent Learning via Hybrid-Driven LIF Model

提出 Hybrid-Driven LIF (HD-LIF) 模型族,通过在阈值上下区域采用不同脉冲计算机制实现梯度可分离性和对齐性,解决了 SNN 在线训练中前向-反向传播不一致的根本问题,同时实现了训练精度、内存复杂度和推理功耗的全阶段优化。

Revisiting Unknowns Towards Effective And Efficient Open-Set Active Learning

提出 E2OAL,一个无需额外检测器的开放集主动学习框架,通过标签引导聚类发现未知类潜在结构、Dirichlet 校准辅助头联合建模已知/未知类别,并设计两阶段自适应查询策略,在多个基准上同时实现高准确率、高查询纯度和高训练效率。

Rooftop Wind Field Reconstruction Using Sparse Sensors: From Deterministic to Generative Learning Methods

建立学习-观测框架,在真实风洞PIV数据上系统比较Kriging、UNet、ViTAE和CWGAN四种方法从5-30个稀疏传感器重建屋顶全风场的能力,发现混合风向训练下DL一致优于Kriging(SSIM提升18-34%),CWGAN在鲁棒性上最优。

Rooftop Wind Field Reconstruction Using Sparse Sensors: From Deterministic to Generative Learning Methods

基于风洞PIV实验数据,系统比较了Kriging插值与三种深度学习方法(UNet、ViTAE、CWGAN)在稀疏传感器条件下的屋顶风场重建性能,并提出QR分解优化传感器布局以增强鲁棒性。

Semi-Supervised Conformal Prediction With Unlabeled Nonconformity Score

提出 SemiCP 框架,通过最近邻匹配(NNM)分数将无标签数据引入 conformal prediction 的校准流程,在标注数据极少时将平均覆盖率偏差降低最多 77%,同时缩小预测集。

Shoe Style-Invariant And Ground-Aware Learning For Dense Foot Contact Estimation

提出 FECO 框架,通过鞋款风格–内容随机化(对抗训练)和地面感知学习(像素高度图 + 地面法线),从单张 RGB 图像实现鲁棒的密集足部接触估计,在多个基准上显著超越现有方法。

SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules

提出 SHREC 算法,通过谱嵌入(spectral embedding)从冷冻电镜 2D 投影图像中直接恢复螺旋分子片段的投影角度,无需预先知道螺旋对称参数(rise/twist),实现了真正的 ab-initio 螺旋结构重建。

SHREC: A Spectral Embedding-Based Approach for Ab-Initio Reconstruction of Helical Molecules

SHREC利用谱嵌入技术从2D冷冻电镜投影图像直接恢复螺旋分子的投影角度(无需螺旋对称参数先验),通过证明螺旋片段投影构成一维闭合流形(同胚于圆)实现角度恢复,在TMV、VipA/VipB和MakA三个公开数据集上实现接近发表水平的高分辨率重建(3.66Å–8.23Å)。

Temporal Imbalance Of Positive And Negative Supervision In Class-Incremental Lea

提出时序不平衡(Temporal Imbalance)这一被忽视的类增量学习偏差来源,并设计 Temporal-Adjusted Loss(TAL)通过时间衰减记忆核动态降低旧类的负监督权重,以即插即用的方式显著缓解灾难性遗忘。

Watch and Learn: Learning to Use Computers from Online Videos

提出 Watch & Learn 框架, 通过逆动力学模型 (IDM) 将 YouTube 教程视频自动转化为可执行的 UI 轨迹数据 (53K+ 轨迹, 免去人工标注), 基于此数据增强 CUA 能力, 在 OSWorld 上让 Qwen 2.5VL-7B 提升 +11.1%, UI-TARS-1.5-7B 提升 +3.8%.

Watch And Learn Learning To Use Computers From Online Videos

提出 Watch & Learn (W&L) 框架,通过逆动力学模型 (IDM) 将互联网上的人类计算机操作视频自动转化为可执行的 UI 轨迹数据,生成 53K+ 高质量轨迹,作为 ICL 示例或 SFT 训练数据显著提升各类 CUA 性能。

What Is Wrong With Synthetic Data For Scene Text Recognition A Strong Synthetic

系统分析了现有渲染合成数据在语料、字体、布局多样性上的不足,提出 UnionST 合成引擎和自演化学习框架(SEL),仅用合成数据即大幅超越传统合成集,结合 SEL 仅需 9% 真实标注即可逼近全监督性能。

Wildcap Facial Albedo Capture In The Wild Via Hybrid Inverse Rendering

提出 WildCap,通过混合逆渲染框架(数据驱动 SwitchLight 去光照 + 基于模型的 texel grid lighting 优化 + 扩散先验采样),从手机野外视频中重建高质量 4K 面部漫反射 albedo 贴图,大幅缩小野外捕捉与受控光照方法之间的质量差距。

EB-JDAT: Energy-based Joint Distribution Adversarial Training

通过能量景观分析揭示AT和JEM的互补性(AT缩小clean-adv能量差→鲁棒性;JEM缩小clean-generated能量差→生成+精度),提出EB-JDAT建模联合分布p(x,x̃,y),用min-max能量优化对齐三种数据的能量分布——CIFAR-10上鲁棒性68.76%(AutoAttack, 超SOTA AT +10.78%),同时保持90.39%清洁精度和竞争力的生成质量(FID=27.42)。