跳转至

Hypothesis Generation via LLM-Automated Language Bias for ILP

会议: AAAI 2026
arXiv: 2505.21486
代码: 无
领域: LLM/NLP
关键词: 归纳逻辑编程, 语言偏差, 多Agent, Prolog, 可解释性

一句话总结

提出首个端到端框架:多Agent LLM系统(Actor/Critic)自动从原始文本构建ILP语言偏差(谓词系统+类型声明+模式约束),Translator将文本翻译为Prolog事实,再由MAXSYNTH求解器基于MDL原则归纳全局最优规则集。在SHOES和ZENDO任务上分别达88.3%和81.3%准确率,跨4种LLM方差<5%。

研究背景与动机

  1. 领域现状:归纳逻辑编程(ILP)是从数据中发现可解释逻辑规则的经典方法。FOIL/Progol/Aleph等启发式方法和ILASP/Popper/MAXSYNTH等约束求解方法在规则搜索算法上不断改进。近期LLM在假设生成上表现出色(ChatRule、HypoGeniC、IHR等)。
  2. 现有痛点:(a) ILP需要专家手动定义"语言偏差"——谓词集合、类型、模式声明,在新领域扩展困难(如蛋白质交互研究需要定义原子距离、氨基酸属性等谓词);(b) 纯LLM方法(HypoGeniC、IHP)对噪声极敏感——数据噪声从0增加12.5%,准确率从71.2%暴降到50.9%;(c) LLM启发式生成难以保证规则集的全局一致性和最优性,而ILP求解器可以。
  3. 核心矛盾:ILP需要专家知识定义搜索空间(限制了可扩展性),LLM不需要但产出不鲁棒不最优。
  4. 本文要解决什么? 自动化ILP最耗人工的环节(语言偏差构建),同时保留ILP求解器的鲁棒性和全局最优保证。
  5. 切入角度:LLM擅长语义理解和概念抽象(适合设计谓词系统),ILP求解器擅长约束搜索和全局优化(适合归纳规则),两者分工协作。
  6. 核心idea一句话:LLM自动构建ILP的"语言偏差"(谓词系统),ILP求解器在此空间中搜索全局最优规则——神经+符号的理想分工。

方法详解

整体框架

三阶段流程:(1) 谓词系统构建——多Agent LLM设计谓词 → (2) 符号知识编码——LLM将文本翻译为Prolog事实 → (3) ILP学习——MAXSYNTH求解器归纳规则。

关键设计

  1. 谓词系统构建(Actor-Critic多Agent)
  2. 做什么:从原始文本样本中自动设计完整的ILP语言偏差
  3. 核心思路:Actor接收少量文本样本+few-shot谓词抽象示例+设计原则,输出完整谓词系统(头谓词、体谓词、元数、类型声明、输入/输出模式、全局约束如max_vars/max_body)。Critic从语义(完备性、冗余性、任务相关性)和语法(类型覆盖、元数正确性、求解器兼容性)两个角度评估,不通过则反馈给Actor迭代改进(最多5轮)
  4. 设计动机:Actor-Critic协作比单Agent更可靠——Actor负责创造性设计,Critic负责形式化验证,避免了LLM在形式约束上的常见错误

  5. 符号知识编码(Translator Agent)

  6. 做什么:将自然语言样本按谓词系统翻译为Prolog事实
  7. 核心思路:分批处理(规避上下文长度限制),LLM按谓词定义解析每个样本映射到Prolog事实。如文本"Shoe_001 is a black formal shoe made of leather"→事实集{black(shoe_001), formal_shoes(shoe_001), leather(shoe_001)}。翻译失败自动重试(最多2次)
  8. 设计动机:分批而非全量处理解决了上下文窗口限制,重试机制提升稳定性

  9. ILP学习(MAXSYNTH求解器)

  10. 做什么:在LLM构建的谓词空间中归纳全局最优规则集
  11. 核心思路:使用MAXSYNTH——基于最小描述长度(MDL)原则的约束求解器,平衡规则复杂度和噪声覆盖。输出Horn子句形式的逻辑规则,如 suitable_for_business(A) ← expensive(A) ∧ formal_shoes(A)
  12. 设计动机:MDL原则使求解器对标签噪声鲁棒(比HypoGeniC在20%噪声下仍显著更好),约束求解保证规则集的全局一致性和最优性

损失函数 / 训练策略

  • LLM温度参数设为0减少生成随机性
  • 数据集80%训练/20%测试,3次独立数据集生成取平均
  • 求解失败从谓词设计重启(最多2次)

实验关键数据

主实验

方法 模型 SHOES Acc ZENDO Acc 平均Acc
IHR GPT-4o 96.7% 50.0% 73.4%
IHR Claude-3.7 98.3% 60.0% 79.2%
HypoGeniC GPT-4o 51.7% 73.3% 62.5%
HypoGeniC Claude-3.7 75.0% 68.3% 71.7%
本文 GPT-4o 87.9% 76.7% 82.3%
本文 Claude-3.7 88.3% 81.3% 84.8%
本文 DeepSeek-V3 88.3% 81.3% 84.8%
本文 Qwen3-32B 87.9% 80.0% 84.0%

消融实验(数据维度鲁棒性)

变量 本文方法表现 对比
规则数1→3 稳定,最小退化 IHR/HypoGeniC显著下降
模板数1→3 鲁棒 HypoGeniC受影响最大
样本量50→200 50样本即达优秀 基线需2倍样本
正例比例20%→50% 类别不平衡下保持稳定 差距在低正例比下扩大
噪声0%→20% 有退化但仍优于基线 MAXSYNTH的MDL原则提供鲁棒性

关键发现

  • 模型无关性是最大亮点:跨4种LLM方差<5%,Claude和DeepSeek结果完全相同,证明真正的推理在ILP求解器而非LLM中完成
  • IHR在简单任务(SHOES)上近乎完美(98.3%)但在关系推理(ZENDO)上暴降到50-60%——纯LLM对二元关系推理能力不足
  • HypoGeniC高度依赖模型——同一任务不同LLM性能差>30%
  • 本文方法在50个样本时就基本达到最优,数据效率远超基线

亮点与洞察

  • 神经+符号的理想分工是核心贡献:LLM负责"理解"(语义→谓词抽象、文本→事实翻译),ILP负责"推理"(约束搜索、全局优化)。这比ChatRule等让LLM直接生成规则更鲁棒,也比传统ILP的专家依赖门槛更低
  • 模型无关性极具实用价值:对LLM后端不敏感意味着不会被某个特定API锁定,且随着LLM能力提升方法会自动受益
  • 自动化语言偏差构建解锁了ILP在新领域的应用:传统上ILP需要领域专家花数周定义谓词,现在LLM几分钟即可完成

局限性 / 可改进方向

  • 仅在2个构造性分类任务上验证,缺乏真实世界数据集(如医疗/金融)
  • 谓词系统质量上限受LLM概念理解能力限制——对非常专业的领域可能需要人工辅助
  • MAXSYNTH求解器的可扩展性——对大规模事实集和复杂规则的计算开销未讨论
  • 翻译步骤可能引入不一致性——虽然有重试机制但未量化翻译错误率

相关工作与启发

  • vs HypoGeniC:HypoGeniC用LLM直接生成自然语言假设+反例迭代,灵活但不一致(方差>30%);本文用ILP保证全局最优
  • vs IHR:IHR通过propose-select-refine让LLM生成代码假设,简单任务强但关系推理弱;本文的ILP求解器天然擅长关系推理

评分

  • 新颖性: ⭐⭐⭐⭐⭐ LLM自动化ILP语言偏差是全新方向,开创了神经-符号混合假设生成的新范式
  • 实验充分度: ⭐⭐⭐ 仅2个构造性任务,缺乏真实世界验证
  • 写作质量: ⭐⭐⭐⭐ 流程清晰,消融全面
  • 价值: ⭐⭐⭐⭐ 为神经-符号结合开辟新路径,模型无关性是重要实践优势

补充说明

  • 该工作展示了 LLM 在科学发现中的新角色:不是直接解题,而是将非结构化知识转化为符号推理系统可处理的形式化表示