跳转至

SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation

会议: AAAI 2026
arXiv: 2511.10518
代码: 无
领域: 目标检测
关键词: VLA模型, 视觉稀疏化, 机器人操控, 语义对齐, 高效推理

一句话总结

提出 SemanticVLA 框架,通过语义引导的双视觉编码器剪枝(SD-Pruner)、语义互补层次融合(SH-Fuser)和语义条件动作耦合(SA-Coupler)三个模块,在大幅减少视觉冗余的同时增强指令-视觉-动作对齐,在 LIBERO 基准上以 97.7% 成功率超越 OpenVLA 达 21.1%,同时训练成本和推理延迟分别降低 3.0× 和 2.7×。

研究背景与动机

VLA 模型的核心瓶颈

Vision-Language-Action(VLA)模型通过预训练 VLM 实现从语言到动作的端到端映射,推动了机器人操控的进步。但实际部署面临两个根本限制:

感知冗余:现有 VLA 框架采用通用的指令无关视觉编码器(ViT, CLIP, SigLIP, DINOv2),均匀处理所有像素,背景杂乱、任务无关的干扰和环境噪声被无差别编码,导致计算成本过高且对任务关键线索的注意力被稀释。

指令-视觉语义对齐的表面化:现有模型主要依靠 LLM 进行通用的跨模态对齐,这种浅层对齐无法捕捉机器人操控中的复杂语义关系,限制了识别全局动作线索、局部语义锚点以及结构化指令-空间依赖的能力。

三层互补语义

SemanticVLA 围绕三层语义展开设计: - 指令级:任务提示传达的语言意图语义 - 视觉级:描述物体及其布局的空间语义 - 控制级:控制平移、旋转和夹爪状态的动作语义

方法详解

整体框架

输入 \(\mathbf{X} = \{\mathcal{V}, \mathbf{q}, \ell\}\)(视觉观察、本体感知状态、语言指令),预测 \(K\) 个未来动作 \(\mathbf{A} \in \mathbb{R}^{(K \times D) \times d}\)\(D=7\):3DoF 平移 + 3DoF 旋转 + 夹爪)。

两条并行视觉处理路径 + 层次融合 + 结构化动作解码: 1. SigLIP 编码器 → ID-Pruner → 指令感知稀疏语义 token 2. DINOv2 编码器 → SA-Pruner → 任务自适应几何 token 3. SH-Fuser → 跨编码器层次融合 4. SA-Coupler → 语义条件动作解码

最终拼接为 \(\tilde{\mathbf{X}} = [\mathbf{Z}, \mathbf{q}, \ell, \mathbf{0}_0, \dots, \mathbf{0}_{K-1}]\),通过双向解码单次前向生成所有 \(K\) 个动作。

关键设计

1. 指令驱动剪枝器(ID-Pruner)—— SigLIP 编码器

核心思路:利用指令-图像的跨模态相似度动态剪枝视觉 token,保留两类互补信息。

Step 1 - 相似度矩阵构建: 将指令 token \(\mathbf{l}_j^{Sig}\) 投影到视觉 token 空间,计算余弦相似度矩阵 \(\mathbf{S} \in \mathbb{R}^{N \times M}\)

Step 2 - Vision-to-Language 映射(全局动作线索): - 对每个指令 token 聚合其与所有视觉 token 的相似度 \(s_j^{VL} = \sum_{i=1}^{N} \mathbf{S}_{ij}\) - 选取 top-\(k\) 最显著的指令 token,加权聚合其对应的视觉 token - 得到指令感知的全局动作线索特征 \(\mathcal{V}^{VL} \in \mathbb{R}^{k \times d_v}\) - 解决"知道目标但不知道步骤"的问题

Step 3 - Language-to-Vision 过滤(局部语义锚点): - 对每个视觉 token 聚合其与所有指令 token 的相似度 \(s_i^{LV} = \sum_{j=1}^{M} \mathbf{S}_{ij}\) - 选取 top-\(h\) 最相关的视觉 token - 得到稀疏但关键的视觉子集 \(\mathcal{V}^{LV} \in \mathbb{R}^{h \times d_v}\) - 解决"看不见就做不了"的问题

Step 4 - 双路合并\(\mathcal{V}^{VL} \cup \mathcal{V}^{LV} \in \mathbb{R}^{(k+h) \times d_v^{Sig}}\)

设计动机:全局动作线索和局部语义锚点互补——前者防止误解操控细节,后者防止遗漏关键区域。

2. 空间聚合剪枝器(SA-Pruner)—— DINOv2 编码器

核心思路:利用 DINOv2 的细粒度空间结构和几何细节能力,通过聚合 token 压缩空间特征。

  • 在 DINOv2 观测 token \(\mathcal{V}^{Din} \in \mathbb{R}^{N \times d_v^{Din}}\) 后附加零初始化聚合 token \(\mathcal{V}^{Agg} \in \mathbb{R}^{(N/8) \times d_v^{Din}}\)
  • 通过 FiLM 层注入指令语义:\((\gamma, \beta) = \text{FiLM}(\bar{\ell}^{Din})\)
  • 应用仿射变换:\((\mathcal{V}^{Din} \cup \mathcal{V}^{Agg})' = (1+\gamma) \odot \text{Attn}(\mathcal{V}^{Din} \cup \mathcal{V}^{Agg}) + \beta\)

3. 语义互补层次融合器(SH-Fuser)

核心思路:不做简单的后期拼接,而是在编码全程进行层级交互。

Dense-Fuser(逐层稠密融合): - 在浅层、中层、深层的 Transformer block 之间交换 patch 级信息 - \(\mathcal{V}_b^{Fusion} = \text{MLP}(\text{Concat}(\mathcal{V}_b^{Sig}, \mathcal{V}_b^{Din}))\)

Sparse-Fuser(最终稀疏融合): - 合并 ID-Pruner 和 SA-Pruner 的显著输出 - \(\mathbf{Z}^{Fusion} = \text{MLP}(\text{Concat}(\mathcal{V}^{LV}, \mathcal{V}^{Agg}))\)

实现 8-16× 的视觉 token 压缩,同时保持判别性表示。

4. 语义条件动作耦合器(SA-Coupler)

核心思路:将 7-DoF 动作从 7 个独立离散 token 重组为 3 个语义动作 token。

\[\mathbf{0}_i = \{\mathbf{t}_i^0, \mathbf{r}_i^0, \mathbf{g}_i^0\} \in \mathbb{R}^{3 \times d_l}\]

三种运动基元(3DoF平移、3DoF旋转、1DoF夹爪)各用一个 token 表示,配合三个专用预测头直接回归连续运动参数: $\(\mathbf{d}_{i,u} = \mathbf{W}_u \mathbf{h}_i + \mathbf{b}_u, \quad u \in \{\text{trans}, \text{rot}, \text{grip}\}\)$

损失函数 / 训练策略

  • LIBERO 训练:LoRA rank=64,alpha=128,80K步,batch size 128,学习率 5e-4(warm-up 2000步 + cosine decay)
  • 真实世界训练:chunk size K=25,LoRA rank=32
  • 设备:8 × A800 (80GB) GPU
  • 动作块大小:K=8(仿真)/ K=25(真实世界)

实验关键数据

主实验

LIBERO 基准(仿真):

方法 Spatial Object Goal Long Overall SR
OpenVLA 84.7 88.4 79.2 53.7 76.5%
π₀ fine-tuned 96.8 98.8 95.8 85.2 94.2%
OpenVLA-OFT 97.6 98.4 97.9 94.5 97.1%
PD-VLA 95.5 96.7 94.9 91.7 94.7%
SemanticVLA-Lite 97.0 98.4 95.4 92.4 95.8%
SemanticVLA 98.6 99.6 97.6 94.8 97.7%

效率对比:

方法 Z & H tokens FLOPs 训练耗时 延迟 吞吐 SR
OpenVLA 256 & 7 8.48T 11.7h 0.240s 4.2Hz 76.5%
OpenVLA-OFT 256 & 7 8.45T 12.3h 0.134s 59.7Hz 97.1%
SemanticVLA 32 & 3 2.37T 3.9h 0.089s 89.9Hz 97.7%

真实世界任务(AgileX Cobot Magic):

方法 物体放置 抽屉操控 衣服折叠 Overall SR
OpenVLA-OFT 6.7/10 5.3/10 4.7/10 55.6%
SemanticVLA 9.3/10 6.0/10 8.0/10 77.8%

消融实验

SD-Pruner 编码器-剪枝器配对消融:

SigLIP DINOv2 Overall SR 说明
ID-Pruner ID-Pruner 91.9% 全用指令驱动
SA-Pruner SA-Pruner 94.6% 全用空间聚合
SA-Pruner ID-Pruner 95.0% 反向配对
ID-Pruner SA-Pruner 97.1% 正确配对(最终方案)

HF-Fuser 和 SA-Coupler 消融:

HF-Fuser SA-Coupler Overall SR
93.6%
95.6%
94.1%
97.1%

稀疏化比例消融:

压缩率 SR FLOPs 说明
97.7% 3.28T 冗余保留过多
97.7% 2.37T 最优平衡(默认)
16× 95.8% 1.93T SemanticVLA-Lite
32× 92.0% 1.72T 丢弃过多关键信息

关键发现

  1. 编码器-剪枝器匹配至关重要:SigLIP + ID-Pruner(语义)和 DINOv2 + SA-Pruner(几何)的正确配对比反向配对高 2.1%
  2. 8× 压缩是最优平衡点:视觉 token 从 256 减到 32,性能不降反升
  3. 与通用稀疏化方法的对比:同等 8× 压缩下,FastV 和 SliME 仅 85-88%,SemanticVLA 97.7%——说明只有指令感知剪枝+结构保持才能实现帕累托最优
  4. SA-Coupler 动作 token 压缩:从 7 个 DoF token 减至 3 个语义 token(ALOHA 设置下更从 350 减至 150),大幅降低推理开销
  5. 真实世界超越 OpenVLA-OFT 22.2%:尤其在衣服折叠等长时域任务上优势显著

亮点与洞察

  • 三层语义统一设计:指令语义驱动视觉剪枝→跨编码器层次融合→语义条件动作解码,形成端到端一致的语义对齐管线
  • 双编码器互补利用:SigLIP(语言对齐能力强)+ DINOv2(空间几何能力强)各司其职,通过针对性剪枝器最大化各自优势
  • ID-Pruner 的双路设计精巧:V-to-L 映射保留全局动作线索(解决"知道做什么但不知道怎么做"),L-to-V 过滤保留局部语义锚点(解决"看不见做不了")
  • 效率提升惊人:仅用 1/8 视觉 token 和 3/7 动作 token,训练 3× 快推理 2.7× 快,性能反超

局限与展望

  • 依赖 OpenVLA 作为骨干 LLM,对基座模型仍有依赖
  • SigLIP 和 DINOv2 各有 24-27 层,双编码器架构的参数量和前向计算仍较大
  • 真实世界实验仅在一个平台(AgileX Cobot Magic)上验证,泛化性需更多硬件平台验证
  • 指令 token 数量较少时(简短指令),V-to-L 映射的显著性评分可能不够鲁棒
  • 未讨论在动态、高速环境下的实时性能

相关工作与启发

  • OpenVLA 作为基座方法,揭示了原始 VLA 在效率和语义对齐上的不足
  • FAST、PD-VLA 等加速方法在算法策略上努力但忽视了输入端冗余
  • FiLM 调制 在多个模块中作为轻量级条件注入手段被采用
  • 启发:VLA 模型的效率瓶颈可能不在 LLM 本身,而在视觉输入的冗余和动作表示的低效——输入端稀疏化和输出端结构化是两个正交且互补的优化方向

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 三模块设计系统性强,ID-Pruner 双路互补、SA-Coupler 语义动作建模均为新颖贡献
  • 实验充分度: ⭐⭐⭐⭐⭐ — 仿真+真实世界、效率对比、多维消融、注意力可视化分析
  • 写作质量: ⭐⭐⭐⭐ — 结构清晰但公式符号较密集
  • 价值: ⭐⭐⭐⭐⭐ — 性能和效率双重突破,对 VLA 社区有重要启发

相关论文