STaR-SQL: Self-Taught Reasoner for Text-to-SQL¶

会议: ACL 2025
arXiv: 2502.13550
代码: 无
领域: Text-to-SQL / NLP
关键词: 文本转SQL, 链式推理, 自学习推理, 测试时验证, 推理扩展

一句话总结¶

将 Text-to-SQL 任务重新定义为推理驱动的过程，通过 STaR（Self-Taught Reasoner）自举方法让 LLM 学习生成逐步推理来辅助 SQL 生成，并集成 ORM 验证器进行 best-of-N 采样，在 Spider 基准上达到 86.6% 执行准确率。

现有 Text-to-SQL 方法主要依赖 LLM 的指令遵循能力，通过精心设计的 prompt 和模式选择优化来生成 SQL，存在以下问题：

本文的核心思路是：将 Text-to-SQL 从"指令执行"转变为"推理过程"，让 LLM 通过 step-by-step 推理来理解查询意图并逐步构建 SQL。

STaR-SQL 包含三个主要步骤：(1) 逐步推理生成与自改进——通过 few-shot prompting 生成推理步骤，筛选正确推理进行微调，迭代自举；(2) 验证器训练——利用正确和错误的推理样本训练 ORM；(3) 测试时验证——采用 best-of-N 采样策略扩展推理时计算量。

Self-Taught Reasoner 自举：以预训练 LLM 为生成器，用少量带推理链的示例 prompt 引导模型对训练集中每个问题生成 k 个推理+SQL 候选。保留执行结果正确的推理用于 SFT 微调。关键设计是基于难度的重采样策略——对于模型初始答错的问题，提供 golden SQL 作为提示让模型反向生成推理链，解决了尾部窄化（tail narrowing）问题，避免训练集偏向简单问题。每次迭代都从原始预训练模型重新初始化，防止过拟合。
Outcome-supervised Reward Model (ORM)：利用 STaR 迭代过程中产生的正确和错误推理样本训练二分类验证器。在 LLM 基础上加一个线性层输出标量值，用二分类损失训练。核心思路是不浪费错误样本——传统方法丢弃错误推理，而 ORM 利用正确/错误对来学习区分。
Best-of-N 测试时计算扩展：推理时让 LLM 生成 N 个候选推理+SQL，由 ORM 打分选择最高分的作为最终输出。这使模型在不修改架构的情况下通过增加推理时计算资源提升性能。

生成器 SFT 损失：标准负对数似然损失 \(\mathcal{L}_{SFT} = -\mathbb{E} \sum \log \pi_\theta(t_i | t_{<i}, X)\)
ORM 训练损失：二分类交叉熵 \(\mathcal{L}_{ORM} = A_T \log r_T + (1-A_T) \log(1-r_T)\)
基座模型：Llama-3.1-8B-Instruct
训练数据：从 Spider 训练集选取 7,000 题，每题采样 8 个解
迭代训练直到性能平台，每次迭代从原始预训练模型重新初始化

方法	模型	EX (%)	EM (%)
Few-shot	Llama-3.1-8B	55.0	34.2
DIN-SQL	GPT-4	74.2	60.1
DAIL-SQL	GPT-4	81.7	69.1
ROUTE	Qwen2.5-7B	83.6	-
STaR-SQL	Llama-3.1-8B	75.0	64.9
STaR-SQL ORM@16	Llama-3.1-8B	86.6	72.5