跳转至

BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation

会议: ACL 2026
arXiv: 2510.20151
代码: 无
领域: 文本分割/强化学习
关键词: 结构化文本分割, 边界生成, RLVR, 熵坍塌, 中间候选

一句话总结

BoundRL 将结构化文本分割重新定义为边界生成任务——仅生成每个片段的起始 token 而非完整文本,减少 90% 的输出 token 并消除幻觉风险,结合双目标奖励函数和选择性扰动策略的 RLVR 训练,使 1.7B 小模型超越了 Claude-4 Sonnet 的 few-shot 表现。

研究背景与动机

领域现状:文本分割将文本划分为语义连贯的片段,广泛用于文档理解、QA 检索和提示优化。传统方法在句子或段落级别进行分割,但结构化文本(如 LLM 提示)包含代码片段、JSON 格式和占位符,不符合传统的句段结构。

现有痛点:(1) 传统的句子/段落级分割方法不适用于结构化文本;(2) token 级序列标注产生过于碎片化的结果;(3) 边界分类需要对每个 token 进行分类,计算量过大;(4) 现有 LLM 方法(如让模型生成每个片段的完整文本)面临高推理成本和幻觉风险。

核心矛盾:结构化文本需要 token 级别的精细分割,但生成完整片段文本的方法在长文本上推理成本与输入长度线性增长,且不可避免地引入幻觉。

本文目标:设计一种高效的 token 级结构化文本分割方法,同时实现低推理成本和高分割质量。

切入角度:将分割问题转化为边界生成——只生成每个片段的起始 token 序列和标签,然后在原文中定位这些 token 来重建完整片段。

核心 idea:通过仅生成"定位信息"(起始 token)而非"内容信息"(完整文本),将输出复杂度从 O(|d|) 降低到 O(n)(n 为片段数),同时通过定制的 RLVR 训练克服 SFT 的局限性。

方法详解

整体框架

BoundRL 的训练分为两个阶段:(1) SFT 阶段——教会模型生成起始 token 序列和标签的输出格式;(2) RLVR 阶段——使用双目标奖励函数(重建保真度 + 语义对齐)优化分割质量,并通过扰动构建中间候选来缓解熵坍塌。推理时,通过在原文中按序定位起始 token 来重建完整片段。

关键设计

  1. 边界生成输出模式 (Boundary Generation Output Pattern):

    • 功能:将文本分割从"生成完整内容"转换为"生成定位标记"
    • 核心思路:对于输入文本 d,模型仅输出每个片段的起始 token 序列 \(\hat{s}_i\)(2-10 个 token)和标签 \(\hat{l}_i\)。重建时,从左到右在原文中顺序定位每个起始 token 序列,两个相邻起始位置之间的文本即为一个片段。排序约束确保即使相同的起始 token 序列出现多次,每次出现也被唯一分配
    • 设计动机:输出长度与片段数成正比而非输入长度,减少 90% 输出 token;从原文定位而非重新生成,根本消除幻觉
  2. 双目标奖励函数 (Dual-Objective Reward Function):

    • 功能:为 RLVR 提供精确的训练信号
    • 核心思路:奖励 \(r(\hat{T}^L) = \rho_{\text{rec}}(\hat{T}^L) \cdot \frac{\text{EM}(\hat{T}^L) + \text{F1}_{\text{char}}(\hat{T}^L)}{2}\)。重建保真度 \(\rho_{\text{rec}}\) 衡量从生成片段能恢复多少原文(按字符比例);语义对齐通过精确匹配 F1 和字符级 F1 衡量与标注片段的一致性。相同边界的不同起始 token 获得相同奖励
    • 设计动机:SFT 会错误惩罚对应正确边界的起始 token,且对微小 token 不匹配惩罚不足。奖励函数解决了这两个问题
  3. 中间候选构建 (Intermediate Candidate Construction):

    • 功能:缓解 RLVR 训练中的熵坍塌问题
    • 核心思路:在 rollout 阶段,对中等奖励的候选分割进行三种扰动:(a) 截短片段(去掉一端一个词)、(b) 延伸片段(加一端一个词)、(c) 替换标签。选择奖励最高的扰动结果作为中间候选,仅在奖励提升时选择性替换原候选(最多 k 个)
    • 设计动机:标注序列作为参考可能离模型当前分布太远,直接使用难以学习。中间候选作为"踏脚石"桥接当前生成和最优解,特别适合本文连续且密集的奖励函数

损失函数 / 训练策略

SFT 阶段使用标准交叉熵损失训练 1 epoch。RLVR 阶段使用 GRPO(不含标准差归一化),每批 6 个输入文档,每个生成 m=4 个候选分割,温度 1.2。每 0.2 epoch 保存检查点,基于验证集选择最优模型。

实验关键数据

主实验

Synthetic 测试集结果 (Qwen3-1.7b)

方法 ρ_rec EM F1_char
SFT 99.9 70.6 92.2
SFT+RLVR 99.9 75.2 93.5
BoundRL 99.9 77.3 94.8

Langchain 测试集结果 (Qwen3-1.7b)

方法 ρ_rec EM F1_char
SFT 86.9 39.1 73.5
BoundRL 90.6 47.3 76.8

消融实验

  • BoundRL (Qwen3-1.7b) 在 Langchain 上 EM 达 47.3%,超越 Claude-4 Sonnet 的 few-shot prompting
  • 中间候选构建相比标准 RLVR 在多个模型上带来一致提升
  • RL-PLUS(使用参考候选替代中间候选)效果略差,验证了中间候选更贴近模型分布的假设

关键发现

  • 边界生成范式将输出 token 减少 90%,同时保持甚至提升分割质量
  • 双目标奖励函数有效解决了 SFT 在边界生成任务上的固有局限
  • 中间候选策略对 RLVR 的熵坍塌问题提供了有效且低成本的解决方案
  • 1.7B 参数的小模型通过 BoundRL 训练可以超越 Claude-4 Sonnet 的 few-shot 表现

亮点与洞察

  • "只生成定位信息不生成内容"的思路简洁优雅,从根本上避免了幻觉
  • 中间候选的扰动策略设计精巧,利用了奖励函数的连续性特征
  • 实验设计全面,涵盖了三种不同规模的基础模型
  • 构建了 StructSeg 数据集(15.3K 标注),填补了结构化文本分割评估的空白

局限与展望

  • 当起始 token 在原文中无法定位时,对应片段会被丢弃
  • 仅在 LLM 提示上进行了案例研究,未扩展到其他结构化文本类型
  • 对于超长文档(如整本书),片段数 n 可能仍然很大
  • 未来可将边界生成方法推广到代码分割、法律文档分割等领域

相关工作与启发

  • 与传统的序列标注和边界分类方法相比,边界生成范式在效率和质量上实现了更好的平衡
  • 中间候选策略与 curriculum learning 的思想一脉相承
  • 为 RLVR 在结构化输出任务中的应用提供了有价值的设计模式

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 边界生成范式是对文本分割任务的根本性重新定义
  • 实验充分度: ⭐⭐⭐⭐ 多模型、多基线、消融实验完整
  • 写作质量: ⭐⭐⭐⭐ 方法阐述清晰,图示直观

相关论文