E-SocialNav: Efficient Socially Compliant Navigation with Language Models¶

日期: 2026-03-21
arXiv: 2603.20664
代码: https://github.com/Dr-LingXiao/ESocialNav
领域: 机器人 / 社会导航 / 小语言模型
关键词: Social Navigation, Small Language Model, SFT, DPO, Phi-2, SigLIP, 多模态

一句话总结¶

评估 GPT-4o/Claude 在社会导航中的零样本能力（效果很差），提出 E-SocialNav：基于 Phi-2-2.7B + SigLIP 的小语言模型，通过两阶段训练（SFT on 多轮对话 + DPO on 单轮偏好对）在小数据（265 张图）下超越零样本大模型，最佳配置 SFT(projector)+DPO(lora) 达到 SMS 0.846、FPS 2.354、AA 0.550。

研究背景与动机¶

领域现状: 语言模型日益被用于机器人导航，VLM-Social-Nav 等方法已用 GPT-4v 生成导航指令，但现有基准主要关注导航成功率而忽视社会合规性。
现有痛点: 大规模 LLM（GPT-4、Claude）推理延迟高、能耗大，无法在资源受限的机器人平台上实时部署；且缺乏对这些模型零样本社会导航能力的系统评估。
核心矛盾: 社会导航需要理解和预测人群意图、管理动态环境不确定性、平衡效率与安全舒适，但大模型部署成本高，小模型又缺乏足够的上下文理解与常识推理能力。
本文要解决什么: (1) 系统评估 GPT-4o 和 Claude 的零样本社会导航能力；(2) 设计一个高效的可训练小语言模型（SLM），在小数据条件下实现社会合规导航。
切入角度: 从 SLM + 视觉塔（VT）的选型出发，通过两阶段训练（SFT 学感知推理 + DPO 学偏好对齐）在有限数据下最大化性能。
核心 idea 一句话: 用 Phi-2-2.7B + SigLIP 构建轻量多模态模型，结合多轮对话 SFT 和单轮偏好 DPO 两阶段训练，以 2.7B 参数在社会导航任务上超越 GPT-4o 零样本。

方法详解¶

整体框架¶

E-SocialNav 由 Vision Tower (VT) + Projector + Small Language Model (SLM) 三部分组成。训练分两阶段：Stage I 在多轮对话数据上做 SFT（只训 projector），Stage II 在单轮偏好对数据上做 DPO（只训 LoRA adapter）。推理时接收机器人第一视角图像，输出社会合规的导航动作和理由。

关键设计¶

设计一：多轮对话 SFT 数据集构建

做什么: 基于 SNEI 数据集（源自 SCAND 和 MuSoHu）构建 325 个样本，每个样本包含自车视角图像 + 五轮对话。265 训练 / 60 测试。
核心思路: 多轮对话而非单轮让模型学习跨对话轮次的上下文感知推理，不仅学感知还学推理。
设计动机: 小数据场景下，多轮对话能提供更丰富的监督信号，帮助模型建立从图像到导航决策的完整推理链。

设计二：DPO 偏好对构建

做什么: 对每个输入构造 chosen/rejected 响应对。chosen 是人类标注的 ground-truth，rejected 通过修改 chosen 中的部分事实生成。
核心思路: 不需要额外标注，直接从正确答案中"破坏"事实来生成负样本，如将"停下等待"改为"继续直行"。
设计动机: 在标注稀缺的场景下，低成本构造高质量偏好对，让模型学到"哪些行为是社会合规的，哪些是不合规的"。

设计三：VT 和 SLM 选型

做什么: 系统比较 CLIP/DINO/SigLIP 三种 VT 和 TinyLlama-1.1B/StableLM-1.6B/Phi-2-2.7B 三种 SLM 的组合。
核心思路: SigLIP + Phi-2 组合在所有指标上最优。SigLIP 的 sigmoid 损失比 CLIP 的对比损失提供更好的视觉表征。
设计动机: 在效率（参数量）和性能之间寻找最佳平衡点。

损失函数 / 训练策略¶

SFT 损失: 标准 next-token NLL，仅计算 assistant response tokens，不含 prompt/image tokens。\(\mathcal{L}_{\text{SFT}}(\theta) = \frac{1}{\sum_t N_t} \sum_{t=1}^T \sum_{n=1}^{N_t} [-\log \pi_\theta(y_{t,n} | x_t, y_{t,<n})]\)
DPO 损失: \(\mathcal{L}_{\text{DPO}}(\theta) = -\frac{1}{T}\sum_{t=1}^T \log\sigma(\beta \Delta_\theta(t))\)，其中 \(\Delta_\theta(t) = \ell^+_\theta(t) - \ell^-_\theta(t)\)，\(\beta = 0.1\)
训练策略: Stage I 训 20 epochs（lr=5e-5, warmup 0.03, FlashAttention-2），Stage II DPO 训 5 epochs。4×A100，总训练时间 < 1 小时。Stage I 仅训 projector，Stage II 仅训 LoRA。

实验关键数据¶

主实验¶

模型	VT	LM	SMS↑	FPS↑	AA↑
Claude (zero-shot)	-	-	0.641	0.087	0.417
GPT-4o (zero-shot)	-	-	0.651	0.212	0.450
Social-LLaVA	CLIP ViT-L/14	Vicuna-7B	0.813	1.113	0.483
E-SocialNav SFT(proj)	SigLIP	Phi-2-2.7B	0.828	1.828	0.433
E-SocialNav SFT(proj)+DPO(lora)	SigLIP	Phi-2-2.7B	0.846	2.354	0.550

消融实验¶

VT	SLM	SMS↑
CLIP	Phi-2-2.7B	0.768
DINO	Phi-2-2.7B	0.833
SigLIP	TinyLlama-1.1B	0.789
SigLIP	StableLM-1.6B	0.837
SigLIP	Phi-2-2.7B	0.846

关键发现¶

GPT-4o 和 Claude 零样本社会导航能力极差：SMS 仅 0.64-0.65，AA 仅 0.42-0.45，远低于微调模型。
两阶段训练的递进提升明显：SFT(projector) SMS 0.828 → 加 DPO(lora) 后 SMS 0.846、AA 从 0.433 跃升到 0.550。
Stage I 仅训 projector 最佳（冻结 backbone），训 vision/lora 反而性能下降——小数据下过拟合风险。
SigLIP > DINO > CLIP 作为视觉编码器，Phi-2 > StableLM > TinyLlama 作为语言模型。
E-SocialNav 比 Social-LLaVA (7B) 参数量小 60%+，但 SMS 和 AA 均更优。

亮点与洞察¶

小数据大效果: 仅 265 张训练图像就超越零样本大模型，说明任务特定数据 + 精心设计的训练策略 > 单纯的模型规模。
DPO 负样本构造方法巧妙: 通过修改正确答案中的事实生成 rejected 响应，零额外标注成本。
两阶段解耦训练: SFT 阶段只练"感知对齐"（projector），DPO 阶段只练"偏好对齐"（LoRA），各司其职避免干扰。
实际部署友好: 2.7B 参数 + FPS 2.354，在资源受限平台上可实时运行。

局限性 / 可改进方向¶

测试集仅 60 张样本，统计显著性不够强。
失败案例分析显示模型倾向保守（预测 "stop" 而非 "turn left"），可能是标注偏差。
缺少真实机器人部署实验，仅在数据集上评估。
DPO 负样本构造较为简单（仅修改事实），更复杂的错误模式（如程度错误、时机错误）未覆盖。
可考虑 RLHF 替代 DPO 进一步提升，或扩展到多文化场景的社会规范。

评分¶

维度	分数 (1-5)	说明
新颖性	3.5	SFT+DPO 二阶段训练是成熟方案，创新在于应用到社会导航 + 负样本构造
实验充分度	3.0	数据集小（265/60），缺少真实部署和更大规模验证
写作质量	3.5	结构清晰，公式完整，但篇幅较短
价值	3.5	证明了 SLM 在具身社会导航中的可行性，具有实际应用价值