ASSESS: A Semantic and Structural Evaluation Framework for Statement Similarity¶

会议: ICLR 2026
arXiv: 2509.22246
代码: GitHub
领域: 代码智能 / 科学计算
关键词: 自动形式化, 形式语句相似度, 树编辑距离, 语义变换, Lean定理证明

一句话总结¶

本文提出 ASSESS 框架和 TransTED Similarity 指标，通过将形式语句解析为操作符树并在树编辑距离中融入语义变换，实现了自动形式化语句相似度的 SOTA 评估（70.16% 准确率、0.35 Kappa），并发布了包含 1247 对专家标注的 EPLA 基准。

领域现状: 自动形式化（将自然语言数学命题转为 Lean 等形式语言）快速发展，但评估指标严重滞后。
现有痛点: 字符串方法（BLEU）忽视语义，\(a+b\) 和 \(b+a\) 被判为不同；证明方法在证明失败时无法提供梯度化反馈；LLM-as-Judge 成本高且不可复现。
核心矛盾: 需要一个同时捕获语义等价和结构相似的自动评估指标。
本文目标: 设计可复现、仅需 CPU 的评估指标，平衡语义和结构信息。
切入角度: 利用 Lean 语言服务器将形式语句解析为操作符树（OPT），在树编辑距离中引入语义变换。
核心 idea: TransTED = TED + 语义变换搜索，将逻辑等价的表达式视为距离为 0。

两阶段框架：(1) 用 Lean Language Server 解析形式语句为操作符树；(2) 用启发式搜索应用语义变换（tactic commands），最小化变换后的树编辑距离。

TED Similarity（基线指标）:
- 功能: 量化两个形式语句的结构对应度
- 核心思路: 解析为 OPT（操作符为内部节点、操作数为叶节点），计算标准树编辑距离并归一化：\(sim_{TED}(T_1,T_2) = 1 - d_{TED}(T_1,T_2) / \max(|T_1|,|T_2|)\)
- 设计动机: 树结构天然编码运算符优先级和层次关系
TransTED Similarity（核心指标）:
- 功能: 在 TED 基础上融入语义变换
- 核心思路: 将两个语句用等号连接构造等式，应用 Lean tactic（rw?、congrArg、ext 等）进行变换搜索，以 TED 作为启发式优先选择减小距离的变换。终止条件：证明成功（距离=0）、节点限制或时间限制
- 设计动机: 定理 1 证明满足 TED 上界约束和变换单调性约束的最大伪度量唯一存在
EPLA 基准数据集:
- 功能: 评估形式语句相似度指标的可靠基准
- 核心思路: 用 4 个翻译器（Herald、Goedel-Formalizer、Gemini-2.5-Pro、Qwen3-Max）自动形式化 miniF2F-test 和 ProofNet-test，编译过滤后由 7 位专家标注语义可证性和结构相似性
- 设计动机: 现有基准仅提供粗粒度二值标签，无法评估细粒度指标性能

基准	指标	TransTED	BEq (证明)	BLEU	Majority Voting
EPLA-miniF2F	Accuracy	70.16%	59.45%	68.96%	46.93%
EPLA-miniF2F	Kappa	0.35	0.29	0.26	0.14
EPLA-ProofNet	Accuracy	67.31%	60.34%	57.21%	54.57%
EPLA-ProofNet	Kappa	0.30	0.28	0.18	0.12

配置	EPLA-miniF2F Kappa	说明
TransTED	0.35	语义变换提升
TED only	0.31	纯结构无法区分语义等价