跳转至

Bilinear Representation Mitigates Reversal Curse and Enables Consistent Model Editing

会议: ICLR 2026
arXiv: 2509.21993
代码: 有(GPT-NeoX 框架)
领域: LLM推理 / 知识表示 / 模型编辑
关键词: reversal curse, bilinear representation, model editing, relational structure, knowledge graph

一句话总结

通过在合成关系知识图谱上从头训练 Transformer,发现适当正则化会使模型隐层涌现出双线性关系结构(bilinear relational structure),该结构不仅能克服逆向诅咒(reversal curse),还能实现编辑单个事实后逻辑一致地传播到相关事实。

研究背景与动机

领域现状

语言模型在知识密集型任务中表现强大,但其推理能力往往缺乏逻辑一致性。一个典型例子是"逆向诅咒"(reversal curse):模型学了"A 是 B 的父亲"却推不出"B 是 A 的孩子"。模型编辑(model editing)领域致力于在不重训模型的情况下更新知识,但现有编辑方法无法将更新传播到逻辑蕴含的事实。

现有痛点

  1. 逆向诅咒被认为是根本局限:主流观点将其归因于自回归训练目标的方向性,即模型只能建模 \(P(B|A)\) 而非 \(P(A|B)\)
  2. 模型编辑无法逻辑泛化:编辑"A 的配偶是 C→D"后,模型不能自动推出"D 的配偶是 A",需要显式双向编辑
  3. 现有解决方案治标不治本:数据增强(生成反向样本)或修改训练目标只是在表面修补

核心矛盾

这些逻辑失败到底是 Transformer 架构的固有缺陷,还是模型表示知识方式的产物?

本文要解决什么

  1. 逆向诅咒是否可以通过适当训练来克服?
  2. 模型内部用什么数学结构编码关系知识?
  3. 这种结构如何影响模型编辑的逻辑一致性?

切入角度

从知识表示的几何结构入手——研究者注意到知识图谱嵌入方法(如 RESCAL)中的双线性模型天然支持关系的逆(矩阵转置)和组合(矩阵乘法),因此提出假设:如果 Transformer 学到了双线性关系结构,就能克服逆向诅咒并实现编辑泛化。

核心 idea 一句话

逆向诅咒和模型编辑失败不是 Transformer 的固有缺陷,而是知识表示结构的缺失——当模型学到双线性关系结构时,这些问题自然解决。

方法详解

整体框架

  • 输入:合成家庭关系知识图谱(1000 个家庭,每家 10 人,8 种关系)
  • 训练:GPT-NeoX 架构从头训练(12 层、896 维隐层、16 头注意力、约 206M 参数)
  • 关键控制变量:weight decay 强度(0-6.0)
  • 评估:用三种探针(linear、translational、bilinear)分析隐层表示结构
  • 输出:揭示 bilinear structure 与逆向诅咒克服、模型编辑泛化之间的因果关系

关键设计

  1. 合成知识图谱的精巧设计:
  2. 做什么:构建包含 husband, wife, father, mother, son, daughter, brother, sister 8 种关系的家庭图谱
  3. 核心思路:将 1000 个家庭分两组——Group 1 包含全部 36 个事实/家庭,Group 2 故意去掉 father/mother 关系。测试集就是 Group 2 的被隐藏关系
  4. 设计动机:这 8 种关系恰好构成一个最小闭合系统,同时涵盖逆关系(husband↔wife)和组合关系(husband∘mother=father),理想地测试逆向推理和多跳推理

  5. 三种表示探针的对比:

  6. Linear Relational Embedding\(o_L \approx W_r s_l + b_r\),用雅可比矩阵从 subject 表示预测 object 在最后一层的表示
  7. Translational\(s_l + v_r \approx o_l\),类似 Word2Vec 的向量平移,subject 和 object 在同一层
  8. Bilinear\(f_r(s_l, o_l) = s_l^\top M_r o_l\),关系用矩阵 \(M_r\) 建模 subject 和 object 之间的交互,用 RESCAL + 岭回归求解
  9. 设计动机:bilinear 模型天然支持 \(M_r^\top\) 表示逆关系、\(M_{r_2} M_{r_1}\) 表示组合关系,而 linear 和 translational 做不到

  10. Weight Decay 作为关键正则化手段:

  11. 做什么:在 AdamW 中扫描 weight decay 从 0 到 6.0
  12. 核心发现:所有模型训练精度 100%,但低 weight decay(<1.0)的模型完全无法推理逆向关系,高 weight decay 的模型能达到近 100% 的逆向推理精度
  13. 设计动机:正则化促使模型学到更泛化的内部结构(bilinear),而非简单记忆

  14. 代数性质验证:

  15. 做什么:验证学到的 \(M_r\) 矩阵是否满足转置=逆和乘积=组合
  16. 核心思路:测试 \(M_{\text{husband}}^\top\) 能否作为 wife 的关系矩阵,\(M_{\text{husband}} \cdot M_{\text{mother}}\) 能否预测 father 关系
  17. 结果:非逆向诅咒模型在第 6-9 层达到 >95% 精度,逆向诅咒模型始终低精度

  18. 模型编辑实验:

  19. 做什么:编辑一个 husband 关系事实 (A, husband, B→B'),评估逻辑传播
  20. 三个指标:Edit Success(直接编辑成功率)、Logical Generalization(蕴含事实更新率)、Locality(无关事实保持率)
  21. 核心发现:有/无 bilinear 结构的模型直接编辑都成功,但逻辑泛化差异巨大——bilinear 模型能传播到 (B', wife, A) 等蕴含事实,逆向诅咒模型几乎完全失败
  22. 定量关联:bilinear 探针精度与逻辑泛化成功率的相关性 \(R^2 = 0.939\)

有趣的层级发现

编辑效果最好的层(1-4 层)与 bilinear 结构最强的层(6-9 层)不一致——要在结构"正在形成"的层编辑,而非在结构"已经建立"的层编辑,这样才能正确更新下游表示。

实验关键数据

主实验

逆向推理精度与 weight decay 的关系(在 Group 2 被隐藏的 father/mother 关系上测试):

Weight Decay 训练精度 测试精度(逆向推理) 状态
0 100% ~10% 逆向诅咒
0.5 100% ~30% 逆向诅咒
1.0 100% ~40-98%(种子依赖) 分叉点
3.0+ 100% ~98% 克服逆向诅咒

探针精度对比(中间层 6-9)

探针类型 非逆向诅咒模型 逆向诅咒模型
Linear ~33%(基线) ~33%(基线)
Translational ~33%(基线) ~33%(基线)
Bilinear >95% ~33%(基线)

模型编辑结果

指标 有 Bilinear 结构 无 Bilinear 结构
Edit Success ~100% ~100%
Logical Generalization 高(最佳层 ~90%+) 接近 0%
Locality

关键发现

  • 逆向诅咒是表示问题不是架构问题:同一架构,不同正则化强度,截然不同的推理能力
  • Bilinear 结构集中在中间层:第 6-9 层精度最高,这与注意力头编码关系操作的发现一致
  • 代数结构是功能性的:矩阵转置≈逆关系、矩阵乘法≈关系组合,不只是统计相关
  • 编辑最佳层 ≠ 结构最强层:需要在结构"形成中"的早期层编辑才能正确传播

亮点与洞察

  • 视角转换最为深刻:将逆向诅咒从"模型能力缺陷"重新定义为"表示结构缺失",这改变了问题的解决范式——不再追求更好的训练目标或数据增强,而是关注知识的几何结构
  • 合成数据的巧妙控制:家庭关系图谱是测试关系推理的最小完备系统,8 种关系恰好覆盖逆和组合,极其优雅
  • 探针设计的系统性:linear/translational/bilinear 三种探针的对比设计清晰地排除了替代假设
  • 可迁移思路:"先检查模型是否具备推理所需的表示结构,再决定用什么算法" 这一范式适用于更广泛的 AI 可靠性问题

局限性 / 可改进方向

  • 合成数据 vs 真实数据:全部实验在干净合成数据上进行,206M 参数模型——大规模预训练模型中是否存在类似 bilinear 结构尚未验证
  • 关系类型有限:仅 8 种家庭关系,真实世界知识涉及数千种异构关系,不同知识可能采用不同几何结构
  • 编辑方法简单:仅用了基础的逐层微调,未与 ROME/MEMIT 等先进编辑方法结合
  • 因果性问题:bilinear 探针精度高是否等同于模型"使用"该结构进行推理?相关性 vs 因果性

相关工作与启发

  • vs Berglund et al. (2024) 逆向诅咒论文: 他们将逆向诅咒定义为 LM 的根本局限;本文证明这不是固有缺陷而是表示结构问题
  • vs Hernandez et al. (2024) Linear Relational Embedding: 他们认为 LM 用线性关系编码知识;本文发现 bilinear 才是支持逆向推理的关键结构
  • vs ROME/MEMIT 编辑方法: 它们关注算法设计;本文指出编辑成功与否更取决于模型是否具备合适的表示几何
  • vs Nishi et al. (2025): 他们发现编辑会"破碎"内部拓扑结构;本文进一步解释了什么结构(bilinear)需要被保护

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 将逆向诅咒归因于表示几何而非训练目标,提出全新视角
  • 实验充分度: ⭐⭐⭐⭐ 四个层层递进的实验设计精巧,但局限于合成数据 + 小模型
  • 写作质量: ⭐⭐⭐⭐⭐ 逻辑链条清晰,图表精美,公式简洁
  • 价值: ⭐⭐⭐⭐ 对理解 LM 知识表示和编辑机制有重要启发,但实际应用需更多验证