Reinforced Efficient Reasoning via Semantically Diverse Exploration¶

会议: ACL 2026
arXiv: 2601.05053
代码: https://github.com/ZiqiZhao1/ROSE-rl
领域: 模型压缩 / 高效推理
关键词: MCTS, 语义熵, GRPO, 高效推理, 分支策略

一句话总结¶

ROSE 提出语义熵引导的 MCTS 分支策略和长度感知的段级优势估计，解决了现有 MCTS-based RLVR 方法探索多样性不足和推理效率低的问题，在多个数学推理基准上取得最优 pass@8 性能。

研究背景与动机¶

领域现状：RLVR（Reinforcement Learning with Verifiable Rewards）已成为增强 LLM 推理能力的主流方法。GRPO 及其变体通过采样多条独立推理链并用二值奖励优化策略。MCTS-based 方法进一步引入树结构推理，允许不同推理链共享前缀，实现更精细的段级信用分配。

现有痛点：(1) 探索多样性不足——现有方法用生成熵（generation entropy）确定分支点，但生成熵高的位置未必对应语义分歧。图 1 案例显示 "can" 和 "need" 在生成熵视角下差异大，但语义上等价，导致分支后的推理路径完全相同；(2) 推理效率低——现有 MCTS 方法未处理"过度思考"（overthinking）问题，正确但冗长的推理链与简洁推理获得相同奖励。

核心矛盾：生成熵度量的是 token 级别的词汇不确定性，但语言生成中许多高熵选择实际上是语义等价的（同义词、功能词变体），这导致分支策略产生表面不同但本质相同的推理路径。

本文目标：(1) 设计真正能产生语义多样化推理路径的分支策略；(2) 在保持甚至提升推理性能的同时鼓励更高效的推理。

切入角度：用 token 嵌入的余弦相似度来度量候选 token 之间的语义差异，将其与生成熵相乘得到"语义熵"，确保分支点同时具有高不确定性和高语义分歧。

核心 idea：用语义熵（=生成熵 × 语义发散度）替代生成熵选择分支点，加上 \(\varepsilon\)-探索防止搜索过于局部化，再用长度感知校准惩罚冗长的正确推理链，实现"更多样+更高效"的推理探索。

方法详解¶

整体框架¶

给定问题 \(q\)，首先生成一条完整推理链，计算每个位置的语义熵，选择最高语义熵位置进行分支重新生成。以 \(\varepsilon\) 概率从头生成新链（防止局部化）。得到树结构后，进行节点值赋值、段级优势估计和长度感知校准，最后用 Dr.GRPO 损失函数训练。

关键设计¶

语义熵引导分支（Semantic-Entropy Guided Branching）:
- 功能：选择能产生真正语义多样化推理路径的分支点
- 核心思路：对位置 \(k\)，取 top-20 高概率 token 集合 \(\mathcal{V}_k\)，用 LLM 嵌入计算语义发散度 \(SD_k = -\sum_{v_i, v_j} p(v_i) p(v_j) \cdot \cos\langle \mathbf{e}_{v_i}, \mathbf{e}_{v_j} \rangle\)，再与生成熵相乘得语义熵 \(SE_k = SD_k \cdot \mathcal{H}_k\)。高语义熵 = 高不确定性 + 候选 token 语义差异大
- 设计动机：生成熵只衡量"选哪个 token 不确定"，语义发散度额外衡量"不同选择是否真的导向不同含义"。两者相乘确保分支点有实质性分歧
\(\varepsilon\)-探索机制:
- 功能：防止搜索过于局部化，平衡探索深度和广度
- 核心思路：每生成新推理链前，以 \(\varepsilon\)（默认 0.5）概率从头独立生成，否则按语义熵分支。类似 RL 中的 \(\varepsilon\)-greedy 策略
- 设计动机：纯分支策略可能将搜索限制在已有推理路径附近，从头生成提供全新的起点
长度感知段级优势估计:
- 功能：在段级信用分配基础上惩罚冗长的正确推理，鼓励高效推理
- 核心思路：节点值 \(\hat{V}(b_j)\) 定义为经过该节点的所有推理链的平均奖励。段级优势为相邻节点值之差 \(\hat{A}_{i,t} = \hat{V}(b_j) - \hat{V}(b_{j-1})\)。对于正确但比最短正确链更长的推理，从分歧节点后按长度比例降低优势：\(\hat{A}_{i,t} \leftarrow \hat{A}_{i,t} - |\hat{A}_{i,t}| \cdot (1 - (|o_s| - b_c)/(|o_c| - b_c))^\alpha)\)
- 设计动机：在树结构中，不同正确推理链从同一节点分歧后可直接比较长度。保留段级信用分配的精细性，同时引导模型偏好简洁推理

损失函数 / 训练策略¶

使用 Dr.GRPO 目标函数（去掉方差归一化和长度归一化）。batch size 512，每题 8 条推理链（G=8），学习率 \(1 \times 10^{-6}\)，clip ratio 0.2，KL 系数 0.001，最大 8 epochs。训练数据为 MATH 的 7500 题。\(\varepsilon=0.5\)，\(\alpha\) 从 {0.5, 1, 2, 3} 搜索。8×A800 GPU。

实验关键数据¶

主实验（pass@8）¶

模型	方法	AIME24	AIME25	MATH500	AMC23	平均
Qwen3-4B	GRPO	16.67	20.00	79.80	77.50	48.49
Qwen3-4B	FR3E	16.67	13.33	80.00	75.00	47.92
Qwen3-4B	ROSE	23.33	23.33	80.80	77.50	51.24
Qwen3-8B	GRPO	23.33	23.33	79.40	72.50	49.64
Qwen3-8B	ROSE	33.33	30.00	83.00	80.00	55.75
Llama-3.2-3B	GRPO	16.67	3.33	53.40	40.00	28.35
Llama-3.2-3B	ROSE	20.00	6.67	55.00	45.00	31.67

消融实验¶

分支策略	AIME24	AIME25	平均
生成熵分支 (FR3E)	16.67	6.67	30.26
语义发散度分支	20.00	6.67	-
语义熵分支 (ROSE)	20.00	6.67	31.67

关键发现¶

ROSE 在困难任务（AIME24/25）上提升最大（+6.67），说明语义多样探索在高难度问题上价值更高
Qwen3-8B 上 ROSE 平均提升 +4.65（vs GRPO），是所有方法中最高的
TreePO 在域内数据集（MATH500）提升明显但域外泛化差，说明固定长度分支策略缺乏适应性
长度感知校准在不降低性能的前提下减少了推理链长度
在 Llama 模型上同样有效（+2.86），排除了 Qwen 数据泄漏的干扰

亮点与洞察¶

语义熵 = 生成熵 × 语义发散度的设计简洁优雅。通过 token 嵌入的余弦相似度来度量语义差异，计算开销极小（只需查 embedding 表），却能有效区分"词汇不确定"和"语义不确定"
\(\varepsilon\)-探索将经典 RL 探索策略引入 MCTS 分支，简单但关键——防止搜索被现有推理路径锚定
长度感知校准巧妙利用了树结构的天然优势：同一分歧点后的不同推理链可以公平比较长度

局限与展望¶

仅在数学推理上评估，代码生成、逻辑推理等场景待验证
pass@8 指标更关注"能否解出"而非"平均正确率"，mean@8 视角下的优势可能更小
语义发散度使用静态 token 嵌入，未考虑上下文对 token 语义的影响
\(\varepsilon=0.5\) 是固定值，自适应调节可能进一步提升

评分¶

新颖性: ⭐⭐⭐⭐ 语义熵概念新颖，生成熵 vs 语义熵的区分有说服力
实验充分度: ⭐⭐⭐⭐ 三个模型、四个基准、完整消融，但缺少非数学任务
写作质量: ⭐⭐⭐⭐ 案例分析直观，方法描述清晰
价值: ⭐⭐⭐⭐ 为 MCTS-based RLVR 提供了更好的分支策略，即插即用