SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation¶

会议: AAAI 2026
arXiv: 2511.10518
代码: 无
领域: 目标检测
关键词: VLA模型, 视觉稀疏化, 机器人操控, 语义对齐, 高效推理

一句话总结¶

提出 SemanticVLA 框架，通过语义引导的双视觉编码器剪枝（SD-Pruner）、语义互补层次融合（SH-Fuser）和语义条件动作耦合（SA-Coupler）三个模块，在大幅减少视觉冗余的同时增强指令-视觉-动作对齐，在 LIBERO 基准上以 97.7% 成功率超越 OpenVLA 达 21.1%，同时训练成本和推理延迟分别降低 3.0× 和 2.7×。

研究背景与动机¶

VLA 模型的核心瓶颈¶

Vision-Language-Action（VLA）模型通过预训练 VLM 实现从语言到动作的端到端映射，推动了机器人操控的进步。但实际部署面临两个根本限制：

感知冗余：现有 VLA 框架采用通用的指令无关视觉编码器（ViT, CLIP, SigLIP, DINOv2），均匀处理所有像素，背景杂乱、任务无关的干扰和环境噪声被无差别编码，导致计算成本过高且对任务关键线索的注意力被稀释。

指令-视觉语义对齐的表面化：现有模型主要依靠 LLM 进行通用的跨模态对齐，这种浅层对齐无法捕捉机器人操控中的复杂语义关系，限制了识别全局动作线索、局部语义锚点以及结构化指令-空间依赖的能力。

三层互补语义¶

SemanticVLA 围绕三层语义展开设计： - 指令级：任务提示传达的语言意图语义 - 视觉级：描述物体及其布局的空间语义 - 控制级：控制平移、旋转和夹爪状态的动作语义

方法详解¶

整体框架¶

输入 $\mathbf{X} = \{\mathcal{V}, \mathbf{q}, \ell\}$（视觉观察、本体感知状态、语言指令），预测 $K$ 个未来动作 $\mathbf{A} \in \mathbb{R}^{(K \times D) \times d}$（$D=7$：3DoF 平移 + 3DoF 旋转 + 夹爪）。

两条并行视觉处理路径 + 层次融合 + 结构化动作解码： 1. SigLIP 编码器 → ID-Pruner → 指令感知稀疏语义 token 2. DINOv2 编码器 → SA-Pruner → 任务自适应几何 token 3. SH-Fuser → 跨编码器层次融合 4. SA-Coupler → 语义条件动作解码

最终拼接为 $\tilde{\mathbf{X}} = [\mathbf{Z}, \mathbf{q}, \ell, \mathbf{0}_0, \dots, \mathbf{0}_{K-1}]$，通过双向解码单次前向生成所有 $K$ 个动作。

关键设计¶

1. 指令驱动剪枝器（ID-Pruner）—— SigLIP 编码器¶

核心思路：利用指令-图像的跨模态相似度动态剪枝视觉 token，保留两类互补信息。

Step 1 - 相似度矩阵构建：将指令 token $\mathbf{l}_j^{Sig}$ 投影到视觉 token 空间，计算余弦相似度矩阵 $\mathbf{S} \in \mathbb{R}^{N \times M}$

Step 2 - Vision-to-Language 映射（全局动作线索）： - 对每个指令 token 聚合其与所有视觉 token 的相似度 $s_j^{VL} = \sum_{i=1}^{N} \mathbf{S}_{ij}$ - 选取 top-$k$ 最显著的指令 token，加权聚合其对应的视觉 token - 得到指令感知的全局动作线索特征 $\mathcal{V}^{VL} \in \mathbb{R}^{k \times d_v}$ - 解决"知道目标但不知道步骤"的问题

Step 3 - Language-to-Vision 过滤（局部语义锚点）： - 对每个视觉 token 聚合其与所有指令 token 的相似度 $s_i^{LV} = \sum_{j=1}^{M} \mathbf{S}_{ij}$ - 选取 top-$h$ 最相关的视觉 token - 得到稀疏但关键的视觉子集 $\mathcal{V}^{LV} \in \mathbb{R}^{h \times d_v}$ - 解决"看不见就做不了"的问题

Step 4 - 双路合并：$\mathcal{V}^{VL} \cup \mathcal{V}^{LV} \in \mathbb{R}^{(k+h) \times d_v^{Sig}}$

设计动机：全局动作线索和局部语义锚点互补——前者防止误解操控细节，后者防止遗漏关键区域。

2. 空间聚合剪枝器（SA-Pruner）—— DINOv2 编码器¶

核心思路：利用 DINOv2 的细粒度空间结构和几何细节能力，通过聚合 token 压缩空间特征。

在 DINOv2 观测 token $\mathcal{V}^{Din} \in \mathbb{R}^{N \times d_v^{Din}}$ 后附加零初始化聚合 token $\mathcal{V}^{Agg} \in \mathbb{R}^{(N/8) \times d_v^{Din}}$
通过 FiLM 层注入指令语义：$(\gamma, \beta) = \text{FiLM}(\bar{\ell}^{Din})$
应用仿射变换：$(\mathcal{V}^{Din} \cup \mathcal{V}^{Agg})' = (1+\gamma) \odot \text{Attn}(\mathcal{V}^{Din} \cup \mathcal{V}^{Agg}) + \beta$

3. 语义互补层次融合器（SH-Fuser）¶

核心思路：不做简单的后期拼接，而是在编码全程进行层级交互。

Dense-Fuser（逐层稠密融合）： - 在浅层、中层、深层的 Transformer block 之间交换 patch 级信息 - $\mathcal{V}_b^{Fusion} = \text{MLP}(\text{Concat}(\mathcal{V}_b^{Sig}, \mathcal{V}_b^{Din}))$

Sparse-Fuser（最终稀疏融合）： - 合并 ID-Pruner 和 SA-Pruner 的显著输出 - $\mathbf{Z}^{Fusion} = \text{MLP}(\text{Concat}(\mathcal{V}^{LV}, \mathcal{V}^{Agg}))$

实现 8-16× 的视觉 token 压缩，同时保持判别性表示。

4. 语义条件动作耦合器（SA-Coupler）¶

核心思路：将 7-DoF 动作从 7 个独立离散 token 重组为 3 个语义动作 token。

\[\mathbf{0}_i = \{\mathbf{t}_i^0, \mathbf{r}_i^0, \mathbf{g}_i^0\} \in \mathbb{R}^{3 \times d_l}\]

三种运动基元（3DoF平移、3DoF旋转、1DoF夹爪）各用一个 token 表示，配合三个专用预测头直接回归连续运动参数： $$\mathbf{d}_{i,u} = \mathbf{W}_u \mathbf{h}_i + \mathbf{b}_u, \quad u \in \{\text{trans}, \text{rot}, \text{grip}\}$$

损失函数 / 训练策略¶

LIBERO 训练：LoRA rank=64，alpha=128，80K步，batch size 128，学习率 5e-4（warm-up 2000步 + cosine decay）
真实世界训练：chunk size K=25，LoRA rank=32
设备：8 × A800 (80GB) GPU
动作块大小：K=8（仿真）/ K=25（真实世界）

实验关键数据¶

主实验¶

LIBERO 基准（仿真）：

方法	Spatial	Object	Goal	Long	Overall SR
OpenVLA	84.7	88.4	79.2	53.7	76.5%
π₀ fine-tuned	96.8	98.8	95.8	85.2	94.2%
OpenVLA-OFT	97.6	98.4	97.9	94.5	97.1%
PD-VLA	95.5	96.7	94.9	91.7	94.7%
SemanticVLA-Lite	97.0	98.4	95.4	92.4	95.8%
SemanticVLA	98.6	99.6	97.6	94.8	97.7%

效率对比：

方法	Z & H tokens	FLOPs	训练耗时	延迟	吞吐	SR
OpenVLA	256 & 7	8.48T	11.7h	0.240s	4.2Hz	76.5%
OpenVLA-OFT	256 & 7	8.45T	12.3h	0.134s	59.7Hz	97.1%
SemanticVLA	32 & 3	2.37T	3.9h	0.089s	89.9Hz	97.7%

真实世界任务（AgileX Cobot Magic）：

方法	物体放置	抽屉操控	衣服折叠	Overall SR
OpenVLA-OFT	6.7/10	5.3/10	4.7/10	55.6%
SemanticVLA	9.3/10	6.0/10	8.0/10	77.8%

消融实验¶

SD-Pruner 编码器-剪枝器配对消融：

SigLIP	DINOv2	Overall SR	说明
ID-Pruner	ID-Pruner	91.9%	全用指令驱动
SA-Pruner	SA-Pruner	94.6%	全用空间聚合
SA-Pruner	ID-Pruner	95.0%	反向配对
ID-Pruner	SA-Pruner	97.1%	正确配对（最终方案）

HF-Fuser 和 SA-Coupler 消融：

HF-Fuser	SA-Coupler	Overall SR
✗	✗	93.6%
✓	✗	95.6%
✗	✓	94.1%
✓	✓	97.1%

稀疏化比例消融：

压缩率	SR	FLOPs	说明
4×	97.7%	3.28T	冗余保留过多
8×	97.7%	2.37T	最优平衡（默认）
16×	95.8%	1.93T	SemanticVLA-Lite
32×	92.0%	1.72T	丢弃过多关键信息

关键发现¶

编码器-剪枝器匹配至关重要：SigLIP + ID-Pruner（语义）和 DINOv2 + SA-Pruner（几何）的正确配对比反向配对高 2.1%
8× 压缩是最优平衡点：视觉 token 从 256 减到 32，性能不降反升
与通用稀疏化方法的对比：同等 8× 压缩下，FastV 和 SliME 仅 85-88%，SemanticVLA 97.7%——说明只有指令感知剪枝+结构保持才能实现帕累托最优
SA-Coupler 动作 token 压缩：从 7 个 DoF token 减至 3 个语义 token（ALOHA 设置下更从 350 减至 150），大幅降低推理开销
真实世界超越 OpenVLA-OFT 22.2%：尤其在衣服折叠等长时域任务上优势显著

亮点与洞察¶

三层语义统一设计：指令语义驱动视觉剪枝→跨编码器层次融合→语义条件动作解码，形成端到端一致的语义对齐管线
双编码器互补利用：SigLIP（语言对齐能力强）+ DINOv2（空间几何能力强）各司其职，通过针对性剪枝器最大化各自优势
ID-Pruner 的双路设计精巧：V-to-L 映射保留全局动作线索（解决"知道做什么但不知道怎么做"），L-to-V 过滤保留局部语义锚点（解决"看不见做不了"）
效率提升惊人：仅用 1/8 视觉 token 和 3/7 动作 token，训练 3× 快推理 2.7× 快，性能反超

局限与展望¶

依赖 OpenVLA 作为骨干 LLM，对基座模型仍有依赖
SigLIP 和 DINOv2 各有 24-27 层，双编码器架构的参数量和前向计算仍较大
真实世界实验仅在一个平台（AgileX Cobot Magic）上验证，泛化性需更多硬件平台验证
指令 token 数量较少时（简短指令），V-to-L 映射的显著性评分可能不够鲁棒
未讨论在动态、高速环境下的实时性能

评分¶

新颖性: ⭐⭐⭐⭐⭐ — 三模块设计系统性强，ID-Pruner 双路互补、SA-Coupler 语义动作建模均为新颖贡献
实验充分度: ⭐⭐⭐⭐⭐ — 仿真+真实世界、效率对比、多维消融、注意力可视化分析
写作质量: ⭐⭐⭐⭐ — 结构清晰但公式符号较密集
价值: ⭐⭐⭐⭐⭐ — 性能和效率双重突破，对 VLA 社区有重要启发