TrigReason: Trigger-Based Collaboration between Small and Large Reasoning Models¶

会议: ACL 2026
arXiv: 2604.14847
代码: https://github.com/QQQ-yi/TrigReason
领域: LLM推理
关键词: 推理加速, 大小模型协作, 推测推理, 事件触发, 推理模型

一句话总结¶

TrigReason 提出基于事件触发的大小推理模型协作框架，通过分析小模型三类推理风险（路径偏离、认知过载、恢复失能），设计策略引导、认知卸载和干预请求三种触发器替代逐步轮询验证，在保持 LRM 精度的同时将 1.70-4.79 倍更多推理步骤卸载给小模型，延迟降低 43.9%、API 成本降低 73.3%。

研究背景与动机¶

领域现状：大型推理模型（LRM）如 DeepSeek-R1、QwQ 通过扩展思维链实现了强大的复杂推理能力，但自回归生成数千 thinking tokens 导致严重推理延迟。近期 SpecReason 提出用小推理模型（SRM）生成推理步骤、LRM 逐步验证的推测推理范式。

现有痛点：SpecReason 存在两个关键问题：(1) LRM-as-Judge 不可靠——实验显示四个不同 LRM 对同一推理轨迹评分从 1.87 到 8.93 差异巨大，LRM 甚至拒绝了自己生成的 63.7% 的推理步骤；(2) 逐步轮询效率低——无论步骤难度如何都调用 LRM 验证，在边缘-云协作场景下延迟反而比纯 LRM 增加 22.44%，API 成本增加 42.31%。

核心矛盾：现有方法对"SRM 何时失败、为何失败"缺乏系统理解，只能用频繁盲目验证来保证质量，导致最终输出大部分由 LRM 修正生成，推测推理名不副实。

本文目标：系统刻画 SRM 推理能力边界，设计"按需介入"而非"逐步验证"的协作策略。

切入角度：作者通过对比 SRM 和 LRM 推理轨迹，识别出三类系统性风险模式。关键发现是 SRM 失败前往往伴随异常低的 token perplexity（过度自信），可作为认知过载的预警信号。

核心 idea：将 LRM 干预从连续轮询改为事件触发——仅在开头策略规划、检测到异常过度自信、以及推理陷入停滞循环时才调用 LRM，让 SRM 自主推理绝大部分步骤。

方法详解¶

整体框架¶

TrigReason 将推理过程委托给 SRM 自主执行，LRM 仅在三种触发条件下介入：起始阶段生成策略引导（前 \(n\) 步）；SRM 推理中检测到认知过载信号时替换当前步骤；SRM 连续产生犹豫标记时 LRM 接管 \(m\) 步进行路径修正。整个过程无需 LRM 对每步做评判。

关键设计¶

策略引导触发器（Strategic Priming Trigger）:
- 功能：解决路径偏离风险，确保 SRM 从有效推理路径开始
- 核心思路：让 LRM 先生成前 \(n\) 步推理（默认 \(n=20\)），完成问题分解和策略规划，再将控制权转移给 SRM 执行后续步骤：\(y_{1:n} \sim p_L(y_{1:n}|x)\)，之后 \(y_t \sim p_S(y_t|y_{<t}, x)\) for \(t > n\)
- 设计动机：SRM 缺乏战略前瞻能力，倾向于直接跳入计算或套用熟悉但不适用的方法。消融实验显示去掉此触发器准确率暴跌 25.4%
认知卸载触发器（Cognitive Offload Trigger）:
- 功能：解决认知过载风险，在 SRM 能力不足的关键步骤及时切换 LRM
- 核心思路：监控每个推理步骤中 token-level perplexity 低于阈值 \(\tau\) 的比例 \(r_s\)。当 \(r_s > \rho\) 时触发 LRM 替换（即超过 \(\rho\) 比例的 token 的 PPL 低于 \(\tau=1.05\)）。实验发现 94.6% 的 SRM 错误步骤伴随过度自信现象，而所有步骤中仅 38.1% 表现过度自信
- 设计动机：过度自信不是能力的标志，而是认知过载下机械模式补全的症状。这一信号无需外部评判，直接从 SRM 内部状态获取
干预请求触发器（Intervention Request Trigger）:
- 功能：解决恢复失能风险，在 SRM 推理陷入停滞时请求 LRM 修正
- 核心思路：维护犹豫词集合 \(\mathcal{H}\)（如"wait"、"hmm"、"alternatively"），当连续 \(k\) 个步骤出现犹豫词时触发 LRM 介入 \(m\) 步（默认 \(m=1\)）进行路径修正
- 设计动机：SRM 缺乏自我反思和纠错机制，但会隐式产生犹豫信号。仅 1 步 LRM 修正通常就足以重新对齐推理路径（消融实验验证）

损失函数 / 训练策略¶

TrigReason 完全免训练，是纯推理时的协作策略。使用 SGLang 推理引擎，温度 0.6，top-p 0.95，默认 token 预算 8192。评估使用 pass@1 with k=16。

实验关键数据¶

主实验¶

配置	AIME24 精度	AIME25 精度	GPQA-D 精度	SRM Token 比例
LRM only (QwQ-32B)	基准	基准	基准	0%
SRM only (R1-1.5B)	显著低	显著低	显著低	100%
SpecReason	≈LRM	≈LRM	≈LRM	~35.6%
TrigReason	105.8% LRM	104.7% LRM	99.6% LRM	~61.4%

消融实验¶

配置	AIME24 精度影响	说明
去掉策略引导 (n=0)	-25.4%	最关键模块，初始规划不可或缺
去掉认知卸载 (ρ=1)	显著下降	防止错误累积
增加修正步数 (m=1→3)	边际提升	1 步修正已足够
增加引导步数 (n>30)	收益递减	过多引导浪费 LRM 资源

关键发现¶

TrigReason 在部分配置下甚至超过纯 LRM 性能（如 Qwen3-0.6B + Qwen3-30B 在 AIME24 达 LRM 的 119.3%）
SRM token 使用比例从 SpecReason 的 ~35% 提升到 ~61%，效率提升 1.70-4.79 倍
边缘-云部署下延迟降低 43.9%、API 成本降低 73.3%
在 BBH（逻辑推理）和 ARC（常识推理）上同样有效，证明触发器捕捉的是通用推理困难信号
认知过载阈值 \(\rho\) 是模型相关的：DeepSeek-R1-1.5B 最优 0.85，Qwen3-0.6B 最优 0.75

亮点与洞察¶

"过度自信作为认知过载信号"这个发现非常深刻——94.6% 的 SRM 错误步骤都伴随异常低 perplexity。这将主观的 LRM 评判替换为客观的统计信号，从根本上解决了验证不可靠的问题
事件触发替代连续轮询的范式转变值得推广：不是问"这步对不对"，而是问"什么时候可能出错"。这个思路适用于所有大小模型协作场景
仅 1 步 LRM 修正即可恢复推理路径的发现说明 LRM 的价值在于"方向指引"而非"全程参与"

局限与展望¶

触发器设计基于启发式规则，过度自信与实际推理错误的因果关系尚不完全清楚
与推测解码类似，需要额外内存运行小模型，在内存受限环境可能受限
在高 token 预算（32K）下与纯 LRM 的差距略有扩大，超长推理场景有待优化
犹豫词集合 \(\mathcal{H}\) 的定义依赖经验，跨语言泛化需验证

评分¶

新颖性: ⭐⭐⭐⭐⭐ 系统刻画 SRM 推理风险并设计针对性触发器，"过度自信=认知过载"的发现极具洞察力
实验充分度: ⭐⭐⭐⭐⭐ 4 种模型组合、3 个数学基准 + 2 个额外领域、详尽消融、边缘-云部署验证
写作质量: ⭐⭐⭐⭐⭐ motivation 论证严密，从问题分析到解决方案逻辑流畅
价值: ⭐⭐⭐⭐⭐ 为大小推理模型协作建立了新范式，实用价值极高