Multimodal Behavior Tree Generation: A Small Vision-Language Model for Robot Task Planning¶

日期: 2026-03-06
arXiv: 2603.06084
代码: GitHub
领域: 机器人
关键词: Behavior Tree, Vision-Language Model, Robot Task Planning, QLoRA, Embodied AI

一句话总结¶

提出首个用紧凑型开源 VLM（500M-4B）从 RGB 图像和自然语言指令直接生成可执行行为树的方法，通过大模型教师管线构建多模态行为树数据集，微调后的 4B 模型在仿真评估中达到 87% 成功率，接近 GPT-5 表现。

领域现状: 行为树（Behavior Tree, BT）因其模块化和反应式执行特性在 ROS2 机器人系统中广泛使用；LLM 已被用于从文本指令生成 BT。
现有痛点: 现有 BT 生成方法要么仅依赖文字描述（无法感知环境），要么依赖大型闭源模型（GPT-4o，无法部署在机器人上），缺乏视觉输入 + 紧凑模型的交汇方案。
核心矛盾: 没有现成的数据集将视觉观察和语言指令关联到可执行行为树；紧凑 VLM 能否学会这一复杂的结构化输出任务？
切入角度: 利用大模型（GPT-5-mini）作为教师，从 Open X-Embodiment 机器人数据中构建多模态 BT 训练集，再微调小型 VLM。
核心idea一句话: 大模型做教师生成数据 + 小模型做学生执行规划，填补"紧凑视觉语言模型 + 行为树生成"的空白。

三阶段流程：(1) 从 Open X-Embodiment 提取 RGB-指令对 → (2) 多阶段教师管线（GPT-5-mini）生成行为树数据集 → (3) QLoRA 微调紧凑 VLM → (4) OmniGibson 仿真执行评估。

数据集构建:
- 源数据：Open X-Embodiment 中 23 个数据集、1,622 个机器人操作 episode
- 帧选择：MobileNetV2 编码 + K-center greedy 采样 9 帧 → 拼成 \(3 \times 3\) 帧表作为教师输入
- 学生输入仅使用首帧单张 RGB 图像
- 教师管线两阶段：Scene Analysis（YAML 格式场景分析）→ Architect（生成 BT XML）
- 对合规性验证：BehaviorTree.CPP 解析 + 动作库 \(\mathcal{P}\)（22 个原语）检查
- 结构增强（50%，811 条）：增加控制流结构（RetryUntilSuccessful 等）
- 词汇增强：以 0.5 概率替换同义动作名（GRASP → GRAB）
- 最终数据集：2,433 条（2,205 训练 / 228 评估）
模型微调:
- 三个紧凑 VLM：SmolVLM2-500M、Qwen2.5-VL-3B、Gemma 3 4B Vision
- QLoRA：4-bit NF4 量化冻结权重 + BFloat16 低秩适配器（\(r=16, \alpha=16\)）
- LoRA 注入所有线性层（语言骨干 + 视觉编码器 + 投影模块）
- 单张 NVIDIA L4 GPU 训练 3 个 epoch，LR = \(2 \times 10^{-4}\)，有效 batch size = 16
仿真执行环境:
- OmniGibson（BEHAVIOR-1K 基准，NVIDIA Isaac Sim）
- 机器人 R1：全向底盘 + 4-DOF 躯干 + 两条 6-DOF 手臂
- 符号执行：每个 primitive 为瞬时状态变化，排除低层控制噪声
- 成功判定：所有 BDDL 目标谓词全部满足，无部分得分

模型	XML 有效率	BT-CPP 有效率	推理时间 (s)
SmolVLM2-500M (FT)	88.60%	87.72%	12.7±24.4
Gemma-3 4B (FT)	100%	100%	20.4±5.5
Qwen2.5-VL-3B (FT)	100%	100%	17.2±4.9
SmolVLM2-500M (Base)	27.19%	0%	39.0±31.6
Gemma-3 4B (Base)	17.54%	0%	104.6±114.2

模型	BT Valid	SR (成功率)	Pass@3
GPT-5 (CoT)	100%	100%	100%
Gemma-3 4B (FT, CoT)	100%	87%	93%
Qwen2.5-VL-3B (FT, CoT)	100%	67%	87%
SmolVLM2-500M (FT, CoT)	7%	0%	0%
所有 Base 模型	0%	0%	0%