Semantic Regexes: Auto-Interpreting LLM Features with a Structured Language¶

会议: ICLR 2026
arXiv: 2510.06378
代码: https://github.com/apple/ml-semantic-regex
领域: LLM/NLP
关键词: mechanistic interpretability, feature description, structured language, sparse autoencoder, automated interpretability

一句话总结¶

提出 semantic regexes——一种用于自动描述 LLM 特征的结构化语言，通过 symbol/lexeme/field 三种原语及 context/composition/quantification 修饰符，在保持与自然语言同等准确度的同时，实现了更简洁、更一致的特征描述，并可量化特征复杂度随层的变化趋势。

研究背景与动机¶

自动可解释性（automated interpretability）旨在将 LLM 的内部特征翻译为人类可理解的描述。现有方法（如 Bills et al. 2023; Paulo et al. 2024）使用自然语言来描述特征，但自然语言存在三大核心痛点：

模糊性：自然语言描述往往过于冗长或含糊，不同人对同一特征的描述差异很大
不一致性：功能相同的特征可能得到完全不同的自然语言描述，不利于冗余特征检测和电路分析
缺乏结构：自然语言无法直接编码特征复杂度，难以进行模型级别的系统性分析

核心矛盾在于：自然语言的灵活性虽然足以描述单个特征，但其不确定性阻碍了大规模、系统性的特征分析。受正则表达式和编程语言的启发，作者切入的角度是设计一种兼具精确性和表达力的结构化语言，既能精确描述特征行为，又能为模型级分析提供结构化接口。

方法详解¶

整体框架¶

Semantic regex 语言嵌入标准的自动可解释性流水线中：给定一个 subject model 的特征及其激活数据，由 explainer model（GPT-4o-mini）生成 semantic regex 描述，再由 evaluator model 对描述质量进行评分。关键设计是将 描述格式 与 生成流程 解耦——只需修改 prompt 中的语言规范即可替换描述语言。

关键设计¶

三级原语（Primitives）：对应特征的三种抽象层次
[:symbol X:]：匹配精确字符串，如 [:symbol color:] 仅匹配 "color"
[:lexeme X:]：匹配词的语法变体，如 [:lexeme color:] 匹配 "color/colors/coloring"
[:field X:]：匹配语义相关词，如 [:field color:] 匹配 "red/blue/green"

三级原语从精确到抽象，反映了 LLM 特征从底层 token 检测到高层语义概念的渐变。

三类修饰符（Modifiers）：扩展原语表达力
Context：@{:context X:}(semantic regex) 限定语义上下文，如 @{:context politics:}([:symbol color:]) 仅在政治语境中匹配 "color"
Composition：支持序列组合和交替 |，如 [:field color:]([:symbol and:]|[:symbol or:])[:field color:]
Quantification：使用正则量词 ? 表示可选，如 [:symbol a:][:field color:]?[:field flower:]
语言设计方法论：采用 grounded-theory 方法，通过在 Neuronpedia 上手动调研数千个特征，迭代性地引入新原语/修饰符，直到达到饱和——能描述所有观察到的特征模式。

训练策略¶

Subject model：GPT-2-Small + Gemma-2-2B，使用 SAE 提取的 residual layer 特征
Explainer/Evaluator：GPT-4o-mini
Semantic regex 的生成 prompt 基于 max-acts 方法改造：更新指令为 semantic regex 语法 + 添加语法定义 + 修改 few-shot 示例
展示 top-10 激活例子，要求模型先输出简短解释再输出 semantic regex

实验关键数据¶

主实验（准确度对比）¶

在 GPT-2-RES-25k、Gemma-2-2B-RES-16k、Gemma-2-2B-RES-65k 上，每层评估 100 个特征：

方法	Clarity (Gen.)	Detection (Disc.)	Fuzzing (Disc.)	Responsiveness (Disc.)	Faithfulness
token-act-pair	基线	基线	基线	基线	基线
max-acts	中	中	中	中	中
semantic-regex	≥ max-acts	≥ token-act-pair	≥ token-act-pair	≥ max-acts	持平

Semantic regex 在 clarity 上跨所有模型显著优于 token-act-pair (p<0.05)
在 detection/fuzzing/responsiveness 上对 GPT-2 和 Gemma-65k 显著优于 token-act-pair
非劣效性检验确认 semantic regex 与自然语言在准确度上无显著差距

消融实验（简洁性与一致性）¶

指标	semantic-regex	max-acts	token-act-pair
描述长度中位数（字符）	41 (IQR: 19-59)	139 (IQR: 119-166)	55 (IQR: 46-66)
一致性（相同描述比例）	33.6%	0.0%	12.2%

Semantic regex 比 max-acts 短 3.4 倍，比 token-act-pair 短 1.3 倍
一致性方面，semantic regex 是 token-act-pair 的 2.8 倍

关键发现¶

特征复杂度随层增加：早期层以简单 symbol 为主，后期层需要更多组合和 field 原语，平均组件数随层递增。symbol 占比随层下降，field 占比随层上升
用户研究（24人）：semantic regex 在 12 个特征中的 9 个上帮助用户构建了更准确的心智模型（正样本激活 vs 反例激活差异更大）
用户仅需极少指导即可理解 semantic regex，收到的自然语言描述澄清问题反而更多
自然语言描述中的额外细节常误导用户，而 semantic regex 的简洁性反而降低了认知负荷

亮点与洞察¶

结构化不等于降低表达力：约束语言反而减少了噪声，提升了可用性
从个体特征到模型级分析：原语类型分布可作为层复杂度的 proxy，无需额外探针或测试
与正则表达式的精妙类比：正则表达式描述字符模式，semantic regex 描述语义模式，自然地桥接了符号系统与神经网络表示
工程上的解耦设计：只需修改 prompt 即可集成到现有流水线，兼容未来方法

局限性 / 可改进方向¶

过于简洁的描述可能导致歧义（如 [:field musician:] 匹配"吉他手"还是仅限"知名音乐人"）
非唯一映射：同一特征可有多个合法 semantic regex，缺乏规范化的"风格指南"
某些组件未完全定义（如大小写敏感性），可能导致模型行为不一致
对多义特征（polysemanticity）支持较弱，高度纠缠的概念仍产生不连贯描述
模型需从极少示例学习新语言，偶尔出现"语法错误"

评分¶

新颖性: ⭐⭐⭐⭐⭐ 首次将结构化语言引入 automated interpretability，概念新颖且方法论扎实
实验充分度: ⭐⭐⭐⭐ 多模型、多指标、含用户研究，但仅限 GPT-2 和 Gemma-2-2B
写作质量: ⭐⭐⭐⭐⭐ 可视化精美，论证逻辑清晰，类比恰当
价值: ⭐⭐⭐⭐ 为机械可解释性提供了新工具和新分析维度，但实际落地还需生态支持