跳转至

🧑 人体理解

📷 CVPR2025 · 共 8

3D Face Reconstruction From Radar Images

首次从毫米波雷达图像进行3D人脸重建:用物理雷达渲染器生成合成数据集训练CNN编码器估计BFM参数,再通过学习一个可微分雷达渲染器构建model-based autoencoder,在合成数据上实现2.56mm平均点距精度,并可在推理时无监督优化参数。

Breaking the Tuning Barrier: Zero-Hyperparameters Yield Multi-Corner Analysis Via Learned Priors

用预训练的Foundation Model(TabPFN)替代传统手工先验,实现零超参数调优的电路Yield Multi-Corner Analysis:冻结backbone做in-context learning,自动跨corner迁移知识,结合自动特征选择(1152D→48D),在SRAM benchmarks上达到SOTA精度(MRE低至0.11%)且验证成本降低10倍以上。

L2GTX: From Local to Global Time Series Explanations

L2GTX 提出一种完全模型无关的时间序列分类全局解释方法,通过聚合 LOMATCE 产生的参数化时间事件原语(PEPs)构建类级全局解释,在六个基准数据集上保持稳定的全局忠实度(R²)。

MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning

MM-CondChain 是首个针对视觉基础深层组合推理的 MLLM 基准,通过可验证程序中间表示(VPIR)自动构建多层条件链和链式硬负样本,最强模型仅获 53.33 Path F1,揭示深层组合推理是根本挑战。

NBAvatar: Neural Billboards Avatars with Realistic Hand-Face Interaction

NBAvatar 提出 Neural Billboard 原语——将可学习平面几何原语与神经纹理延迟渲染结合,实现手脸交互场景下的照片级真实头部 avatar 渲染,在百万像素分辨率下 LPIPS 比 Gaussian 方法降低 30%。

Perceive What Matters: Relevance-Driven Scheduling for Multimodal Streaming Perception

提出一种面向人机协作的感知调度框架,基于信息增益和计算代价的权衡来选择性激活感知模块(目标检测/姿态估计),在流式感知场景下将计算延迟降低最多 27.52%,同时 MMPose 激活召回提升 72.73%。

Reference-Free Image Quality Assessment for Virtual Try-On via Human Feedback

提出 VTON-IQA,一个无参考的虚拟试穿图像质量评估框架,通过大规模人类标注基准 VTON-QBench(62,688 张试穿图 + 431,800 条标注)和 Interleaved Cross-Attention 模块实现与人类感知对齐的图像级质量预测。

Team RAS in 10th ABAW Competition: Multimodal Valence and Arousal Estimation Approach

提出结合面部(GRADA+Transformer)、行为描述(Qwen3-VL+Mamba)和音频(WavLM)三模态的连续情感估计方法,通过 Directed Cross-Modal MoE 和 Reliability-Aware Audio-Visual 两种融合策略在 Aff-Wild2 上达到 CCC 0.6576(dev)/ 0.62(test)。