Hypothesis Generation via LLM-Automated Language Bias for ILP¶
会议: AAAI 2026
arXiv: 2505.21486
代码: 无
领域: LLM/NLP
关键词: 归纳逻辑编程, 语言偏差, 多Agent, Prolog, 可解释性
一句话总结¶
提出首个端到端框架:多Agent LLM系统(Actor/Critic)自动从原始文本构建ILP语言偏差(谓词系统+类型声明+模式约束),Translator将文本翻译为Prolog事实,再由MAXSYNTH求解器基于MDL原则归纳全局最优规则集。在SHOES和ZENDO任务上分别达88.3%和81.3%准确率,跨4种LLM方差<5%。
研究背景与动机¶
- 领域现状:归纳逻辑编程(ILP)是从数据中发现可解释逻辑规则的经典方法。FOIL/Progol/Aleph等启发式方法和ILASP/Popper/MAXSYNTH等约束求解方法在规则搜索算法上不断改进。近期LLM在假设生成上表现出色(ChatRule、HypoGeniC、IHR等)。
- 现有痛点:(a) ILP需要专家手动定义"语言偏差"——谓词集合、类型、模式声明,在新领域扩展困难(如蛋白质交互研究需要定义原子距离、氨基酸属性等谓词);(b) 纯LLM方法(HypoGeniC、IHP)对噪声极敏感——数据噪声从0增加12.5%,准确率从71.2%暴降到50.9%;(c) LLM启发式生成难以保证规则集的全局一致性和最优性,而ILP求解器可以。
- 核心矛盾:ILP需要专家知识定义搜索空间(限制了可扩展性),LLM不需要但产出不鲁棒不最优。
- 本文要解决什么? 自动化ILP最耗人工的环节(语言偏差构建),同时保留ILP求解器的鲁棒性和全局最优保证。
- 切入角度:LLM擅长语义理解和概念抽象(适合设计谓词系统),ILP求解器擅长约束搜索和全局优化(适合归纳规则),两者分工协作。
- 核心idea一句话:LLM自动构建ILP的"语言偏差"(谓词系统),ILP求解器在此空间中搜索全局最优规则——神经+符号的理想分工。
方法详解¶
整体框架¶
三阶段流程:(1) 谓词系统构建——多Agent LLM设计谓词 → (2) 符号知识编码——LLM将文本翻译为Prolog事实 → (3) ILP学习——MAXSYNTH求解器归纳规则。
关键设计¶
- 谓词系统构建(Actor-Critic多Agent):
- 做什么:从原始文本样本中自动设计完整的ILP语言偏差
- 核心思路:Actor接收少量文本样本+few-shot谓词抽象示例+设计原则,输出完整谓词系统(头谓词、体谓词、元数、类型声明、输入/输出模式、全局约束如max_vars/max_body)。Critic从语义(完备性、冗余性、任务相关性)和语法(类型覆盖、元数正确性、求解器兼容性)两个角度评估,不通过则反馈给Actor迭代改进(最多5轮)
-
设计动机:Actor-Critic协作比单Agent更可靠——Actor负责创造性设计,Critic负责形式化验证,避免了LLM在形式约束上的常见错误
-
符号知识编码(Translator Agent):
- 做什么:将自然语言样本按谓词系统翻译为Prolog事实
- 核心思路:分批处理(规避上下文长度限制),LLM按谓词定义解析每个样本映射到Prolog事实。如文本"Shoe_001 is a black formal shoe made of leather"→事实集{black(shoe_001), formal_shoes(shoe_001), leather(shoe_001)}。翻译失败自动重试(最多2次)
-
设计动机:分批而非全量处理解决了上下文窗口限制,重试机制提升稳定性
-
ILP学习(MAXSYNTH求解器):
- 做什么:在LLM构建的谓词空间中归纳全局最优规则集
- 核心思路:使用MAXSYNTH——基于最小描述长度(MDL)原则的约束求解器,平衡规则复杂度和噪声覆盖。输出Horn子句形式的逻辑规则,如
suitable_for_business(A) ← expensive(A) ∧ formal_shoes(A) - 设计动机:MDL原则使求解器对标签噪声鲁棒(比HypoGeniC在20%噪声下仍显著更好),约束求解保证规则集的全局一致性和最优性
损失函数 / 训练策略¶
- LLM温度参数设为0减少生成随机性
- 数据集80%训练/20%测试,3次独立数据集生成取平均
- 求解失败从谓词设计重启(最多2次)
实验关键数据¶
主实验¶
| 方法 | 模型 | SHOES Acc | ZENDO Acc | 平均Acc |
|---|---|---|---|---|
| IHR | GPT-4o | 96.7% | 50.0% | 73.4% |
| IHR | Claude-3.7 | 98.3% | 60.0% | 79.2% |
| HypoGeniC | GPT-4o | 51.7% | 73.3% | 62.5% |
| HypoGeniC | Claude-3.7 | 75.0% | 68.3% | 71.7% |
| 本文 | GPT-4o | 87.9% | 76.7% | 82.3% |
| 本文 | Claude-3.7 | 88.3% | 81.3% | 84.8% |
| 本文 | DeepSeek-V3 | 88.3% | 81.3% | 84.8% |
| 本文 | Qwen3-32B | 87.9% | 80.0% | 84.0% |
消融实验(数据维度鲁棒性)¶
| 变量 | 本文方法表现 | 对比 |
|---|---|---|
| 规则数1→3 | 稳定,最小退化 | IHR/HypoGeniC显著下降 |
| 模板数1→3 | 鲁棒 | HypoGeniC受影响最大 |
| 样本量50→200 | 50样本即达优秀 | 基线需2倍样本 |
| 正例比例20%→50% | 类别不平衡下保持稳定 | 差距在低正例比下扩大 |
| 噪声0%→20% | 有退化但仍优于基线 | MAXSYNTH的MDL原则提供鲁棒性 |
关键发现¶
- 模型无关性是最大亮点:跨4种LLM方差<5%,Claude和DeepSeek结果完全相同,证明真正的推理在ILP求解器而非LLM中完成
- IHR在简单任务(SHOES)上近乎完美(98.3%)但在关系推理(ZENDO)上暴降到50-60%——纯LLM对二元关系推理能力不足
- HypoGeniC高度依赖模型——同一任务不同LLM性能差>30%
- 本文方法在50个样本时就基本达到最优,数据效率远超基线
亮点与洞察¶
- 神经+符号的理想分工是核心贡献:LLM负责"理解"(语义→谓词抽象、文本→事实翻译),ILP负责"推理"(约束搜索、全局优化)。这比ChatRule等让LLM直接生成规则更鲁棒,也比传统ILP的专家依赖门槛更低
- 模型无关性极具实用价值:对LLM后端不敏感意味着不会被某个特定API锁定,且随着LLM能力提升方法会自动受益
- 自动化语言偏差构建解锁了ILP在新领域的应用:传统上ILP需要领域专家花数周定义谓词,现在LLM几分钟即可完成
局限性 / 可改进方向¶
- 仅在2个构造性分类任务上验证,缺乏真实世界数据集(如医疗/金融)
- 谓词系统质量上限受LLM概念理解能力限制——对非常专业的领域可能需要人工辅助
- MAXSYNTH求解器的可扩展性——对大规模事实集和复杂规则的计算开销未讨论
- 翻译步骤可能引入不一致性——虽然有重试机制但未量化翻译错误率
相关工作与启发¶
- vs HypoGeniC:HypoGeniC用LLM直接生成自然语言假设+反例迭代,灵活但不一致(方差>30%);本文用ILP保证全局最优
- vs IHR:IHR通过propose-select-refine让LLM生成代码假设,简单任务强但关系推理弱;本文的ILP求解器天然擅长关系推理
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ LLM自动化ILP语言偏差是全新方向,开创了神经-符号混合假设生成的新范式
- 实验充分度: ⭐⭐⭐ 仅2个构造性任务,缺乏真实世界验证
- 写作质量: ⭐⭐⭐⭐ 流程清晰,消融全面
- 价值: ⭐⭐⭐⭐ 为神经-符号结合开辟新路径,模型无关性是重要实践优势
补充说明¶
- 该工作展示了 LLM 在科学发现中的新角色:不是直接解题,而是将非结构化知识转化为符号推理系统可处理的形式化表示