跳转至

🤖 机器人/具身智能

📷 CVPR2025 · 共 9

3D-MVP: 3D Multiview Pretraining for Robotic Manipulation

提出3D-MVP,将Masked Autoencoder预训练从2D扩展到3D多视角设定——在Objaverse的200K个3D物体上预训练RVT的多视角Transformer编码器,下游微调后在RLBench上平均成功率从62.9%提升到67.5%,在COLOSSEUM上显著提升对纹理、大小、光照等环境变化的鲁棒性。

Expert Pyramid Tuning: Efficient Parameter Fine-Tuning for Expertise-Driven Task Allocation

提出 Expert Pyramid Tuning (EPT),将计算机视觉中的多尺度特征金字塔思想引入 LoRA-based MoE,通过共享元知识子空间 + 反卷积金字塔投影机制构建不同粒度的专家,实现更高效的多任务参数微调。

Influence Malleability in Linearized Attention: Dual Implications of Non-Convergent NTK Dynamics

通过 NTK 框架揭示线性化注意力机制不会收敛到无穷宽 NTK 极限(谱放大效应使 Gram 矩阵条件数立方化,需宽度 \(m = \Omega(\kappa^6)\)),并引入「影响可塑性」概念量化这一非收敛的双面后果:注意力比 ReLU 网络高 6-9 倍的可塑性既增强了任务适配能力,也加剧了对抗脆弱性。

LaDA: Language-Grounded Decoupled Action Representation for Robotic Manipulation

提出 LaDA,将 7-DoF 机器人动作解耦为平移/旋转/夹爪三类运动原语并与语言语义建立对应,通过软标签对比学习和自适应损失加权,以 1.3B 参数在 LIBERO 上达到 93.6% 平均成功率。

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

提出首个统一的训练无关MLLM幻觉缓解框架,围绕vision token的双重角色——增强(SVC)与抑制(CRC)——在隐表示层协同操作,在LLaVA-1.5上POPE准确率提升约2%,仅增加1.06×推理延迟。

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360° Indoor Environments

提出PanoAffordanceNet——首个360°全景affordance grounding框架,通过失真感知频谱调制器(DASM)处理ERP纬度依赖畸变、全球面致密化头(OSDH)恢复稀疏激活为拓扑连续区域、多层级训练目标抑制语义漂移,并构建首个全景affordance数据集360-AGD,全面超越现有方法。

SaPaVe: Towards Active Perception and Manipulation in Vision-Language-Action Models for Robotics

SaPaVe 提出了一种端到端的主动操作框架,通过解耦相机运动和操作动作的 action space,采用自底向上的两阶段训练策略(先学语义相机控制,再联合优化),在 200K 语义相机运动数据集上训练主动感知先验,配合 3D 几何感知模块增强视角变化下的执行鲁棒性,在真实世界任务中比 GR00T N1 和 \(\pi_0\) 分别高 31.25% 和 40% 成功率。

SortScrews: A Dataset and Baseline for Real-time Screw Classification

提出SortScrews数据集——一个包含560张512×512 RGB图像、覆盖6类螺丝的工业分类数据集,配套可复用的数据采集流水线,并以迁移学习的EfficientNet-B0和ResNet-18作为基线,ResNet-18在该数据集上达到96.4%验证准确率。

TinyNav: End-to-End TinyML for Real-Time Autonomous Navigation on Microcontrollers

在 ESP32 微控制器上部署端到端量化 CNN,仅用 23k 参数和 ToF 深度相机实现 30ms 延迟的实时自主导航。