AutoTool: Automatic Scaling of Tool-Use Capabilities in RL via Decoupled Entropy Constraints¶

会议: ICLR 2026
arXiv: 2603.13348
代码: 无
领域: LLM Agent
关键词: 工具使用, 强化学习, 测试时扩展, 熵约束, 自动推理缩放

一句话总结¶

本文提出 AutoTool，通过解耦自适应熵约束策略解决 LLM 工具使用中直接 RL 训练的推理坍缩问题和缩放后模型的过度思考问题，实现自动根据问题难度切换长短推理模式，在准确率提升 9.8% 的同时减少 ~81% 的推理 token 开销。

领域现状: LLM 与外部工具的集成是 AI agent 的关键能力。RLVR（带可验证奖励的强化学习）在数学和代码任务上成功实现了测试时扩展，但在工具使用中尚未验证。
现有痛点: (1) 直接 RL 训练在工具使用中出现"推理坍缩"——模型无法充分延长思考长度解决复杂问题；(2) 蒸馏模型对所有问题都生成冗长推理，简单问题浪费大量 token。
核心矛盾: 数学任务中 RL 训练会自然增长推理长度，但工具使用任务中推理长度反而缩短。根因是低熵导致模型过早收敛到短推理策略。
本文目标: 设计能自动根据问题难度选择推理模式的训练方法，复杂问题长思考、简单问题直接回答。
切入角度: 发现低信息熵与推理坍缩强正相关，但简单的熵约束对系数极其敏感。
核心 idea: 解耦长短推理的策略损失，对长推理施加自适应熵约束保持探索能力，对短推理保持固定约束防止过度探索。

三阶段流程：(1) 数据准备——构建 PubTool 混合数据集；(2) 预热 SFT——混合长短推理数据让模型感知难度；(3) 解耦自适应熵约束 RL——GRPO + 解耦熵正则化。

预热 SFT 与混合推理数据:
- 功能: 让模型初步感知问题难度
- 核心思路: 对训练数据用无思考模型（Qwen2.5-7B-Instruct）和思考模型（Qwen3-32B）分别推理 8 次。无思考模型正确则用短推理作为标签，否则用思考模型的长推理。设计 auto-thinking 模板支持模式切换
- 设计动机: 直接 RL 训练会坍缩，需要 SFT 预热建立初始的长短推理能力
解耦自适应熵约束:
- 功能: 差异化控制长短推理的探索能力
- 核心思路: 策略损失 \(\mathcal{L}_p\) 中的熵系数 \(\beta_i\) 根据推理模式解耦：短推理用固定 \(\beta_s\)，长推理用自适应 \(\beta_l\)。\(\beta_l\) 通过辅助损失 \(\mathcal{L}_\beta^l = \frac{1}{N}\sum (1-m_i)\cdot\beta_l\cdot(H_i - H_l)\) 动态调整，当 \(H_i < H_l\) 时增大以鼓励探索
- 设计动机: 直接RL中低熵→推理坍缩；但全局高熵又导致简单问题过度探索
非对称奖励设计:
- 功能: 鼓励简单问题用短推理、复杂问题用长推理
- 核心思路: 正确+不思考: +1.0, 正确+思考: +0.5, 错误+思考: -0.5, 错误+不思考: -1.0
- 设计动机: 对短推理正确给予更高奖励（效率）；对短推理错误给予更重惩罚（鼓励思考）

模型	BFCL Overall	Non-Live	Live	Multi-Turn
Qwen2.5-7B (Base)	53.69	86.46	67.44	7.62
PubTool-SFT	58.17	88.98	77.28	9.68
PubTool-Distilled	60.30	87.73	78.64	15.65
AutoTool-7B	70.12	89.76	80.22	38.18
GPT-4o	70.42	87.67	79.88	43.00