Bilinear Representation Mitigates Reversal Curse and Enables Consistent Model Editing¶

会议: ICLR 2026
arXiv: 2509.21993
代码: 有（GPT-NeoX 框架）
领域: LLM推理 / 知识表示 / 模型编辑
关键词: reversal curse, bilinear representation, model editing, relational structure, knowledge graph

一句话总结¶

通过在合成关系知识图谱上从头训练 Transformer，发现适当正则化会使模型隐层涌现出双线性关系结构（bilinear relational structure），该结构不仅能克服逆向诅咒（reversal curse），还能实现编辑单个事实后逻辑一致地传播到相关事实。

研究背景与动机¶

领域现状¶

语言模型在知识密集型任务中表现强大，但其推理能力往往缺乏逻辑一致性。一个典型例子是"逆向诅咒"（reversal curse）：模型学了"A 是 B 的父亲"却推不出"B 是 A 的孩子"。模型编辑（model editing）领域致力于在不重训模型的情况下更新知识，但现有编辑方法无法将更新传播到逻辑蕴含的事实。

现有痛点¶

逆向诅咒被认为是根本局限：主流观点将其归因于自回归训练目标的方向性，即模型只能建模 \(P(B|A)\) 而非 \(P(A|B)\)
模型编辑无法逻辑泛化：编辑"A 的配偶是 C→D"后，模型不能自动推出"D 的配偶是 A"，需要显式双向编辑
现有解决方案治标不治本：数据增强（生成反向样本）或修改训练目标只是在表面修补

核心矛盾¶

这些逻辑失败到底是 Transformer 架构的固有缺陷，还是模型表示知识方式的产物？

本文要解决什么¶

逆向诅咒是否可以通过适当训练来克服？
模型内部用什么数学结构编码关系知识？
这种结构如何影响模型编辑的逻辑一致性？

切入角度¶

从知识表示的几何结构入手——研究者注意到知识图谱嵌入方法（如 RESCAL）中的双线性模型天然支持关系的逆（矩阵转置）和组合（矩阵乘法），因此提出假设：如果 Transformer 学到了双线性关系结构，就能克服逆向诅咒并实现编辑泛化。

核心 idea 一句话¶

逆向诅咒和模型编辑失败不是 Transformer 的固有缺陷，而是知识表示结构的缺失——当模型学到双线性关系结构时，这些问题自然解决。

方法详解¶

整体框架¶

输入：合成家庭关系知识图谱（1000 个家庭，每家 10 人，8 种关系）
训练：GPT-NeoX 架构从头训练（12 层、896 维隐层、16 头注意力、约 206M 参数）
关键控制变量：weight decay 强度（0-6.0）
评估：用三种探针（linear、translational、bilinear）分析隐层表示结构
输出：揭示 bilinear structure 与逆向诅咒克服、模型编辑泛化之间的因果关系

关键设计¶

合成知识图谱的精巧设计:
做什么：构建包含 husband, wife, father, mother, son, daughter, brother, sister 8 种关系的家庭图谱
核心思路：将 1000 个家庭分两组——Group 1 包含全部 36 个事实/家庭，Group 2 故意去掉 father/mother 关系。测试集就是 Group 2 的被隐藏关系
设计动机：这 8 种关系恰好构成一个最小闭合系统，同时涵盖逆关系（husband↔wife）和组合关系（husband∘mother=father），理想地测试逆向推理和多跳推理
三种表示探针的对比:
Linear Relational Embedding：\(o_L \approx W_r s_l + b_r\)，用雅可比矩阵从 subject 表示预测 object 在最后一层的表示
Translational：\(s_l + v_r \approx o_l\)，类似 Word2Vec 的向量平移，subject 和 object 在同一层
Bilinear：\(f_r(s_l, o_l) = s_l^\top M_r o_l\)，关系用矩阵 \(M_r\) 建模 subject 和 object 之间的交互，用 RESCAL + 岭回归求解
设计动机：bilinear 模型天然支持 \(M_r^\top\) 表示逆关系、\(M_{r_2} M_{r_1}\) 表示组合关系，而 linear 和 translational 做不到
Weight Decay 作为关键正则化手段:
做什么：在 AdamW 中扫描 weight decay 从 0 到 6.0
核心发现：所有模型训练精度 100%，但低 weight decay（<1.0）的模型完全无法推理逆向关系，高 weight decay 的模型能达到近 100% 的逆向推理精度
设计动机：正则化促使模型学到更泛化的内部结构（bilinear），而非简单记忆
代数性质验证:
做什么：验证学到的 \(M_r\) 矩阵是否满足转置=逆和乘积=组合
核心思路：测试 \(M_{\text{husband}}^\top\) 能否作为 wife 的关系矩阵，\(M_{\text{husband}} \cdot M_{\text{mother}}\) 能否预测 father 关系
结果：非逆向诅咒模型在第 6-9 层达到 >95% 精度，逆向诅咒模型始终低精度
模型编辑实验:
做什么：编辑一个 husband 关系事实 (A, husband, B→B')，评估逻辑传播
三个指标：Edit Success（直接编辑成功率）、Logical Generalization（蕴含事实更新率）、Locality（无关事实保持率）
核心发现：有/无 bilinear 结构的模型直接编辑都成功，但逻辑泛化差异巨大——bilinear 模型能传播到 (B', wife, A) 等蕴含事实，逆向诅咒模型几乎完全失败
定量关联：bilinear 探针精度与逻辑泛化成功率的相关性 \(R^2 = 0.939\)

有趣的层级发现¶

编辑效果最好的层（1-4 层）与 bilinear 结构最强的层（6-9 层）不一致——要在结构"正在形成"的层编辑，而非在结构"已经建立"的层编辑，这样才能正确更新下游表示。

实验关键数据¶

主实验¶

逆向推理精度与 weight decay 的关系（在 Group 2 被隐藏的 father/mother 关系上测试）：

Weight Decay	训练精度	测试精度（逆向推理）	状态
0	100%	~10%	逆向诅咒
0.5	100%	~30%	逆向诅咒
1.0	100%	~40-98%（种子依赖）	分叉点
3.0+	100%	~98%	克服逆向诅咒

探针精度对比（中间层 6-9）¶

探针类型	非逆向诅咒模型	逆向诅咒模型
Linear	~33%（基线）	~33%（基线）
Translational	~33%（基线）	~33%（基线）
Bilinear	>95%	~33%（基线）

模型编辑结果¶

指标	有 Bilinear 结构	无 Bilinear 结构
Edit Success	~100%	~100%
Logical Generalization	高（最佳层 ~90%+）	接近 0%
Locality	高	低

关键发现¶

逆向诅咒是表示问题不是架构问题：同一架构，不同正则化强度，截然不同的推理能力
Bilinear 结构集中在中间层：第 6-9 层精度最高，这与注意力头编码关系操作的发现一致
代数结构是功能性的：矩阵转置≈逆关系、矩阵乘法≈关系组合，不只是统计相关
编辑最佳层 ≠ 结构最强层：需要在结构"形成中"的早期层编辑才能正确传播

亮点与洞察¶

视角转换最为深刻：将逆向诅咒从"模型能力缺陷"重新定义为"表示结构缺失"，这改变了问题的解决范式——不再追求更好的训练目标或数据增强，而是关注知识的几何结构
合成数据的巧妙控制：家庭关系图谱是测试关系推理的最小完备系统，8 种关系恰好覆盖逆和组合，极其优雅
探针设计的系统性：linear/translational/bilinear 三种探针的对比设计清晰地排除了替代假设
可迁移思路："先检查模型是否具备推理所需的表示结构，再决定用什么算法" 这一范式适用于更广泛的 AI 可靠性问题

局限性 / 可改进方向¶

合成数据 vs 真实数据：全部实验在干净合成数据上进行，206M 参数模型——大规模预训练模型中是否存在类似 bilinear 结构尚未验证
关系类型有限：仅 8 种家庭关系，真实世界知识涉及数千种异构关系，不同知识可能采用不同几何结构
编辑方法简单：仅用了基础的逐层微调，未与 ROME/MEMIT 等先进编辑方法结合
因果性问题：bilinear 探针精度高是否等同于模型"使用"该结构进行推理？相关性 vs 因果性

评分¶

新颖性: ⭐⭐⭐⭐⭐ 将逆向诅咒归因于表示几何而非训练目标，提出全新视角
实验充分度: ⭐⭐⭐⭐ 四个层层递进的实验设计精巧，但局限于合成数据 + 小模型
写作质量: ⭐⭐⭐⭐⭐ 逻辑链条清晰，图表精美，公式简洁
价值: ⭐⭐⭐⭐ 对理解 LM 知识表示和编辑机制有重要启发，但实际应用需更多验证