SemanticVLA: Semantic-Aligned Sparsification and Enhancement for Efficient Robotic Manipulation¶
会议: AAAI 2026
arXiv: 2511.10518
代码: 无
领域: 目标检测
关键词: VLA模型, 视觉稀疏化, 机器人操控, 语义对齐, 高效推理
一句话总结¶
提出 SemanticVLA 框架,通过语义引导的双视觉编码器剪枝(SD-Pruner)、语义互补层次融合(SH-Fuser)和语义条件动作耦合(SA-Coupler)三个模块,在大幅减少视觉冗余的同时增强指令-视觉-动作对齐,在 LIBERO 基准上以 97.7% 成功率超越 OpenVLA 达 21.1%,同时训练成本和推理延迟分别降低 3.0× 和 2.7×。
研究背景与动机¶
VLA 模型的核心瓶颈¶
Vision-Language-Action(VLA)模型通过预训练 VLM 实现从语言到动作的端到端映射,推动了机器人操控的进步。但实际部署面临两个根本限制:
感知冗余:现有 VLA 框架采用通用的指令无关视觉编码器(ViT, CLIP, SigLIP, DINOv2),均匀处理所有像素,背景杂乱、任务无关的干扰和环境噪声被无差别编码,导致计算成本过高且对任务关键线索的注意力被稀释。
指令-视觉语义对齐的表面化:现有模型主要依靠 LLM 进行通用的跨模态对齐,这种浅层对齐无法捕捉机器人操控中的复杂语义关系,限制了识别全局动作线索、局部语义锚点以及结构化指令-空间依赖的能力。
三层互补语义¶
SemanticVLA 围绕三层语义展开设计: - 指令级:任务提示传达的语言意图语义 - 视觉级:描述物体及其布局的空间语义 - 控制级:控制平移、旋转和夹爪状态的动作语义
方法详解¶
整体框架¶
输入 \(\mathbf{X} = \{\mathcal{V}, \mathbf{q}, \ell\}\)(视觉观察、本体感知状态、语言指令),预测 \(K\) 个未来动作 \(\mathbf{A} \in \mathbb{R}^{(K \times D) \times d}\)(\(D=7\):3DoF 平移 + 3DoF 旋转 + 夹爪)。
两条并行视觉处理路径 + 层次融合 + 结构化动作解码: 1. SigLIP 编码器 → ID-Pruner → 指令感知稀疏语义 token 2. DINOv2 编码器 → SA-Pruner → 任务自适应几何 token 3. SH-Fuser → 跨编码器层次融合 4. SA-Coupler → 语义条件动作解码
最终拼接为 \(\tilde{\mathbf{X}} = [\mathbf{Z}, \mathbf{q}, \ell, \mathbf{0}_0, \dots, \mathbf{0}_{K-1}]\),通过双向解码单次前向生成所有 \(K\) 个动作。
关键设计¶
1. 指令驱动剪枝器(ID-Pruner)—— SigLIP 编码器¶
核心思路:利用指令-图像的跨模态相似度动态剪枝视觉 token,保留两类互补信息。
Step 1 - 相似度矩阵构建: 将指令 token \(\mathbf{l}_j^{Sig}\) 投影到视觉 token 空间,计算余弦相似度矩阵 \(\mathbf{S} \in \mathbb{R}^{N \times M}\)
Step 2 - Vision-to-Language 映射(全局动作线索): - 对每个指令 token 聚合其与所有视觉 token 的相似度 \(s_j^{VL} = \sum_{i=1}^{N} \mathbf{S}_{ij}\) - 选取 top-\(k\) 最显著的指令 token,加权聚合其对应的视觉 token - 得到指令感知的全局动作线索特征 \(\mathcal{V}^{VL} \in \mathbb{R}^{k \times d_v}\) - 解决"知道目标但不知道步骤"的问题
Step 3 - Language-to-Vision 过滤(局部语义锚点): - 对每个视觉 token 聚合其与所有指令 token 的相似度 \(s_i^{LV} = \sum_{j=1}^{M} \mathbf{S}_{ij}\) - 选取 top-\(h\) 最相关的视觉 token - 得到稀疏但关键的视觉子集 \(\mathcal{V}^{LV} \in \mathbb{R}^{h \times d_v}\) - 解决"看不见就做不了"的问题
Step 4 - 双路合并:\(\mathcal{V}^{VL} \cup \mathcal{V}^{LV} \in \mathbb{R}^{(k+h) \times d_v^{Sig}}\)
设计动机:全局动作线索和局部语义锚点互补——前者防止误解操控细节,后者防止遗漏关键区域。
2. 空间聚合剪枝器(SA-Pruner)—— DINOv2 编码器¶
核心思路:利用 DINOv2 的细粒度空间结构和几何细节能力,通过聚合 token 压缩空间特征。
- 在 DINOv2 观测 token \(\mathcal{V}^{Din} \in \mathbb{R}^{N \times d_v^{Din}}\) 后附加零初始化聚合 token \(\mathcal{V}^{Agg} \in \mathbb{R}^{(N/8) \times d_v^{Din}}\)
- 通过 FiLM 层注入指令语义:\((\gamma, \beta) = \text{FiLM}(\bar{\ell}^{Din})\)
- 应用仿射变换:\((\mathcal{V}^{Din} \cup \mathcal{V}^{Agg})' = (1+\gamma) \odot \text{Attn}(\mathcal{V}^{Din} \cup \mathcal{V}^{Agg}) + \beta\)
3. 语义互补层次融合器(SH-Fuser)¶
核心思路:不做简单的后期拼接,而是在编码全程进行层级交互。
Dense-Fuser(逐层稠密融合): - 在浅层、中层、深层的 Transformer block 之间交换 patch 级信息 - \(\mathcal{V}_b^{Fusion} = \text{MLP}(\text{Concat}(\mathcal{V}_b^{Sig}, \mathcal{V}_b^{Din}))\)
Sparse-Fuser(最终稀疏融合): - 合并 ID-Pruner 和 SA-Pruner 的显著输出 - \(\mathbf{Z}^{Fusion} = \text{MLP}(\text{Concat}(\mathcal{V}^{LV}, \mathcal{V}^{Agg}))\)
实现 8-16× 的视觉 token 压缩,同时保持判别性表示。
4. 语义条件动作耦合器(SA-Coupler)¶
核心思路:将 7-DoF 动作从 7 个独立离散 token 重组为 3 个语义动作 token。
三种运动基元(3DoF平移、3DoF旋转、1DoF夹爪)各用一个 token 表示,配合三个专用预测头直接回归连续运动参数: $\(\mathbf{d}_{i,u} = \mathbf{W}_u \mathbf{h}_i + \mathbf{b}_u, \quad u \in \{\text{trans}, \text{rot}, \text{grip}\}\)$
损失函数 / 训练策略¶
- LIBERO 训练:LoRA rank=64,alpha=128,80K步,batch size 128,学习率 5e-4(warm-up 2000步 + cosine decay)
- 真实世界训练:chunk size K=25,LoRA rank=32
- 设备:8 × A800 (80GB) GPU
- 动作块大小:K=8(仿真)/ K=25(真实世界)
实验关键数据¶
主实验¶
LIBERO 基准(仿真):
| 方法 | Spatial | Object | Goal | Long | Overall SR |
|---|---|---|---|---|---|
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5% |
| π₀ fine-tuned | 96.8 | 98.8 | 95.8 | 85.2 | 94.2% |
| OpenVLA-OFT | 97.6 | 98.4 | 97.9 | 94.5 | 97.1% |
| PD-VLA | 95.5 | 96.7 | 94.9 | 91.7 | 94.7% |
| SemanticVLA-Lite | 97.0 | 98.4 | 95.4 | 92.4 | 95.8% |
| SemanticVLA | 98.6 | 99.6 | 97.6 | 94.8 | 97.7% |
效率对比:
| 方法 | Z & H tokens | FLOPs | 训练耗时 | 延迟 | 吞吐 | SR |
|---|---|---|---|---|---|---|
| OpenVLA | 256 & 7 | 8.48T | 11.7h | 0.240s | 4.2Hz | 76.5% |
| OpenVLA-OFT | 256 & 7 | 8.45T | 12.3h | 0.134s | 59.7Hz | 97.1% |
| SemanticVLA | 32 & 3 | 2.37T | 3.9h | 0.089s | 89.9Hz | 97.7% |
真实世界任务(AgileX Cobot Magic):
| 方法 | 物体放置 | 抽屉操控 | 衣服折叠 | Overall SR |
|---|---|---|---|---|
| OpenVLA-OFT | 6.7/10 | 5.3/10 | 4.7/10 | 55.6% |
| SemanticVLA | 9.3/10 | 6.0/10 | 8.0/10 | 77.8% |
消融实验¶
SD-Pruner 编码器-剪枝器配对消融:
| SigLIP | DINOv2 | Overall SR | 说明 |
|---|---|---|---|
| ID-Pruner | ID-Pruner | 91.9% | 全用指令驱动 |
| SA-Pruner | SA-Pruner | 94.6% | 全用空间聚合 |
| SA-Pruner | ID-Pruner | 95.0% | 反向配对 |
| ID-Pruner | SA-Pruner | 97.1% | 正确配对(最终方案) |
HF-Fuser 和 SA-Coupler 消融:
| HF-Fuser | SA-Coupler | Overall SR |
|---|---|---|
| ✗ | ✗ | 93.6% |
| ✓ | ✗ | 95.6% |
| ✗ | ✓ | 94.1% |
| ✓ | ✓ | 97.1% |
稀疏化比例消融:
| 压缩率 | SR | FLOPs | 说明 |
|---|---|---|---|
| 4× | 97.7% | 3.28T | 冗余保留过多 |
| 8× | 97.7% | 2.37T | 最优平衡(默认) |
| 16× | 95.8% | 1.93T | SemanticVLA-Lite |
| 32× | 92.0% | 1.72T | 丢弃过多关键信息 |
关键发现¶
- 编码器-剪枝器匹配至关重要:SigLIP + ID-Pruner(语义)和 DINOv2 + SA-Pruner(几何)的正确配对比反向配对高 2.1%
- 8× 压缩是最优平衡点:视觉 token 从 256 减到 32,性能不降反升
- 与通用稀疏化方法的对比:同等 8× 压缩下,FastV 和 SliME 仅 85-88%,SemanticVLA 97.7%——说明只有指令感知剪枝+结构保持才能实现帕累托最优
- SA-Coupler 动作 token 压缩:从 7 个 DoF token 减至 3 个语义 token(ALOHA 设置下更从 350 减至 150),大幅降低推理开销
- 真实世界超越 OpenVLA-OFT 22.2%:尤其在衣服折叠等长时域任务上优势显著
亮点与洞察¶
- 三层语义统一设计:指令语义驱动视觉剪枝→跨编码器层次融合→语义条件动作解码,形成端到端一致的语义对齐管线
- 双编码器互补利用:SigLIP(语言对齐能力强)+ DINOv2(空间几何能力强)各司其职,通过针对性剪枝器最大化各自优势
- ID-Pruner 的双路设计精巧:V-to-L 映射保留全局动作线索(解决"知道做什么但不知道怎么做"),L-to-V 过滤保留局部语义锚点(解决"看不见做不了")
- 效率提升惊人:仅用 1/8 视觉 token 和 3/7 动作 token,训练 3× 快推理 2.7× 快,性能反超
局限与展望¶
- 依赖 OpenVLA 作为骨干 LLM,对基座模型仍有依赖
- SigLIP 和 DINOv2 各有 24-27 层,双编码器架构的参数量和前向计算仍较大
- 真实世界实验仅在一个平台(AgileX Cobot Magic)上验证,泛化性需更多硬件平台验证
- 指令 token 数量较少时(简短指令),V-to-L 映射的显著性评分可能不够鲁棒
- 未讨论在动态、高速环境下的实时性能
相关工作与启发¶
- OpenVLA 作为基座方法,揭示了原始 VLA 在效率和语义对齐上的不足
- FAST、PD-VLA 等加速方法在算法策略上努力但忽视了输入端冗余
- FiLM 调制 在多个模块中作为轻量级条件注入手段被采用
- 启发:VLA 模型的效率瓶颈可能不在 LLM 本身,而在视觉输入的冗余和动作表示的低效——输入端稀疏化和输出端结构化是两个正交且互补的优化方向
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ — 三模块设计系统性强,ID-Pruner 双路互补、SA-Coupler 语义动作建模均为新颖贡献
- 实验充分度: ⭐⭐⭐⭐⭐ — 仿真+真实世界、效率对比、多维消融、注意力可视化分析
- 写作质量: ⭐⭐⭐⭐ — 结构清晰但公式符号较密集
- 价值: ⭐⭐⭐⭐⭐ — 性能和效率双重突破,对 VLA 社区有重要启发
相关论文¶
- [AAAI 2026] Actor-Critic for Continuous Action Chunks: A Reinforcement Learning Framework for Long-Horizon Robotic Manipulation with Sparse Reward
- [AAAI 2026] H-GAR: A Hierarchical Interaction Framework via Goal-Driven Observation-Action Refinement for Robotic Manipulation
- [ICCV 2025] PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation
- [ACL 2026] Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement
- [CVPR 2026] PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation