Praxis-VLM: Vision-Grounded Decision Making via Text-Driven Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2503.16965
代码: https://github.com/Derekkk/Praxis-VLM
领域: 多模态VLM / Agent决策 / 强化学习
关键词: VLM decision-making, text-driven RL, GRPO, cross-modal transfer, embodied reasoning

一句话总结¶

发现VLM的决策推理能力可以与视觉感知解耦——用文本描述替代图像时决策性能不降反升，据此提出Praxis-VLM：在纯文本场景上用GRPO训练决策推理能力，然后零样本迁移到视觉输入推理，在VIVA/PCA-Bench/EgoNormia三个决策benchmark上超越SFT基线且泛化性更强。

背景与动机¶

VLM在视觉理解上表现好，但在复杂情境决策（如"看到交通事故应该做什么"）上缺乏显式推理能力。现有方法（如R1-OneVision、OpenVLThinker）用RL增强推理，但严重依赖大规模图文配对数据——在决策场景中这类数据极度稀缺。作者的关键发现：当把视觉情境替换为文本描述时，VLM的决策性能甚至更好——说明决策推理能力的核心在语言域，可以与视觉感知解耦学习。

核心问题¶

VLM的决策推理能力能否从纯文本中学习并迁移到视觉输入场景？如何用数据高效的方式（不需要图文配对数据）增强VLM的情境决策能力？

方法详解¶

整体框架¶

三阶段流程： 1. 构造纯文本决策数据（GPT-4o合成10K样本） 2. 多阶段GRPO训练（Stage1: geometry3k数学冷启动 → Stage2: 文本决策场景RL） 3. 推理时直接用视觉输入——文本中学到的推理能力自动迁移

训练时只更新LLM参数，不碰vision encoder。推理时完整VLM架构处理图像。

关键设计¶

核心发现：决策推理与视觉感知可解耦：在VIVA和PCA-Bench上，用textual situation（GPT-4o caption或标注文本）替代原始图像，Qwen2.5-VL的决策准确率与用图像输入持平甚至更高。这说明VLM的决策瓶颈不在视觉感知，而在推理能力。
Multi-Stage GRPO with Adaptive R1 Reward：
Stage 1（冷启动）：用geometry3k数学数据训练格式遵从和基础逻辑推理。Reward = R_accuracy + R_format + 0.5·R_tag。模型学会格式后去掉R_tag。
Stage 2（决策RL）：在合成文本决策数据上训练。Reward = R_accuracy + 0.8·R_format + 0.5·R_len。R_len鼓励模型生成更长、更充分的推理链（word_count/250, capped at 1.0），促进多角度分析。
关键发现：可以跳过SFT冷启动直接GRPO——只要有adaptive reward策略。
文本决策数据构造：用GPT-4o批量生成（每次10个+去重），每个样本包含文本情境描述+多选题+答案。10K训练+1K验证。不需要图像，不需要人工过滤。
推理维度分析：通过GPT-4o分析Praxis-VLM的推理链，识别出4个核心决策维度：① 情境分析 ② 行动与结果评估 ③ 安全与风险管理 ④ 规则与规范遵从

训练策略¶

基座：Qwen2.5-VL-3B/7B-Instruct
GRPO rollout N=5, KL系数0.01, lr=1e-6
训练硬件：4×A100/H100 GPU
推理：vLLM + greedy decoding

实验关键数据¶

模型	VIVA	PCA-Bench	EgoNormia (OOD)
Qwen2.5-VL-7B	80.97	46.37	46.19
+ SFT	81.13	45.74	34.83
+ Reason SFT	78.79	53.00	34.08
Praxis-VLM-7B	83.87	58.99	49.57
Praxis-VLM-7B (w/o cold start)	82.66	55.21	47.10

关键对比：SFT在OOD的EgoNormia上严重退化（34.83），Praxis-VLM反而提升（49.57 > 46.19），说明RL学到的推理更可迁移。

Majority Vote (8 samples)：Praxis-VLM-7B在VIVA 84.36, PCA-Bench 61.83, EgoNormia 55.08——全面超越。

消融实验要点¶

Math cold start提升OOD泛化（EgoNormia: 47.10→49.57），域内影响小
更长推理链对应更难样本，但在同等难度下Praxis-VLM始终优于baseline
超长推理可能"overthinking"——最长20%的样本准确率下降
Pass@1 (8 samples) 非常高：VIVA 89.27%, PCA-Bench 77.92%——说明正确推理路径充分存在

亮点 / 我学到了什么¶

决策推理与视觉感知可解耦——这个发现很有认知科学意义，呼应"心理模型理论"（人类通过语言构建内部表示来推理）
纯文本训练→视觉推理迁移：训练时不用任何图文配对数据，推理时直接处理视觉输入，极其数据高效
无需SFT冷启动——直接用adaptive reward的GRPO就能工作，简化了pipeline
R_len reward促进更充分的推理分析——与NoisyRollout中"更长不一定更好"的观点形成对比，说明在决策任务中更长推理是有益的
错误分析很有价值：情境误解、安全优先级错误、规范对齐缺失是三大失败模式

局限性 / 可改进方向¶

仅在3B/7B模型上验证，更大模型效果未知
文本决策数据由GPT-4o合成，可能存在域偏差
EgoNormia用视频帧拼接为单图——对视频理解能力的评估不够原生
推理链长度限制（1024 tokens）导致部分回答被截断
未与其他VLM决策方法（如VLA模型）直接比较

与相关工作的对比¶

vs NoisyRollout：NoisyRollout用视觉扰动增强exploration，Praxis-VLM完全绕开视觉域用纯文本训练——两种数据效率策略形成互补
vs R1-OneVision/Vision-R1等：这些方法用图文配对数据做RL，Praxis-VLM证明对决策任务可以纯文本训练
vs Sherlock：Sherlock关注推理中的自纠正，Praxis-VLM关注决策场景的推理泛化——可以组合

与我的研究方向的关联¶

"文本训练→视觉迁移"范式对VLM训练效率有深远启示——可推广到更多视觉推理任务
与CoRL (2505.17534)的"跨任务协同"互补：CoRL让generation和understanding协同，Praxis-VLM让text和vision协同
4个决策维度（情境分析、结果评估、安全考量、规范遵从）可用于设计更好的reward

评分¶

新颖性: ⭐⭐⭐⭐⭐ "纯文本训练VLM决策推理"是独特且有说服力的范式，preliminary analysis设计精妙
实验充分度: ⭐⭐⭐⭐ 3个benchmark+多种baseline+diverse sampling+错误分析，但模型规模和任务覆盖可更广
写作质量: ⭐⭐⭐⭐⭐ 从preliminary finding到方法设计的叙事逻辑极佳，"Language is the dress of thought"引用贴合
对我的价值: ⭐⭐⭐⭐⭐ VLM agent决策+数据高效RL是核心方向，文本迁移范式可直接复用