Hypothesis Generation via LLM-Automated Language Bias for ILP¶

会议: AAAI 2026
arXiv: 2505.21486
代码: 无
领域: LLM/NLP
关键词: 归纳逻辑编程, 语言偏差, 多Agent, Prolog, 可解释性

一句话总结¶

提出首个端到端框架：多Agent LLM系统（Actor/Critic）自动从原始文本构建ILP语言偏差（谓词系统+类型声明+模式约束），Translator将文本翻译为Prolog事实，再由MAXSYNTH求解器基于MDL原则归纳全局最优规则集。在SHOES和ZENDO任务上分别达88.3%和81.3%准确率，跨4种LLM方差<5%。

研究背景与动机¶

领域现状：归纳逻辑编程（ILP）是从数据中发现可解释逻辑规则的经典方法。FOIL/Progol/Aleph等启发式方法和ILASP/Popper/MAXSYNTH等约束求解方法在规则搜索算法上不断改进。近期LLM在假设生成上表现出色（ChatRule、HypoGeniC、IHR等）。
现有痛点：(a) ILP需要专家手动定义"语言偏差"——谓词集合、类型、模式声明，在新领域扩展困难（如蛋白质交互研究需要定义原子距离、氨基酸属性等谓词）；(b) 纯LLM方法（HypoGeniC、IHP）对噪声极敏感——数据噪声从0增加12.5%，准确率从71.2%暴降到50.9%；(c) LLM启发式生成难以保证规则集的全局一致性和最优性，而ILP求解器可以。
核心矛盾：ILP需要专家知识定义搜索空间（限制了可扩展性），LLM不需要但产出不鲁棒不最优。
本文要解决什么？ 自动化ILP最耗人工的环节（语言偏差构建），同时保留ILP求解器的鲁棒性和全局最优保证。
切入角度：LLM擅长语义理解和概念抽象（适合设计谓词系统），ILP求解器擅长约束搜索和全局优化（适合归纳规则），两者分工协作。
核心idea一句话：LLM自动构建ILP的"语言偏差"（谓词系统），ILP求解器在此空间中搜索全局最优规则——神经+符号的理想分工。

方法详解¶

整体框架¶

三阶段流程：(1) 谓词系统构建——多Agent LLM设计谓词 → (2) 符号知识编码——LLM将文本翻译为Prolog事实 → (3) ILP学习——MAXSYNTH求解器归纳规则。

关键设计¶

谓词系统构建（Actor-Critic多Agent）：
做什么：从原始文本样本中自动设计完整的ILP语言偏差
核心思路：Actor接收少量文本样本+few-shot谓词抽象示例+设计原则，输出完整谓词系统（头谓词、体谓词、元数、类型声明、输入/输出模式、全局约束如max_vars/max_body）。Critic从语义（完备性、冗余性、任务相关性）和语法（类型覆盖、元数正确性、求解器兼容性）两个角度评估，不通过则反馈给Actor迭代改进（最多5轮）
设计动机：Actor-Critic协作比单Agent更可靠——Actor负责创造性设计，Critic负责形式化验证，避免了LLM在形式约束上的常见错误
符号知识编码（Translator Agent）：
做什么：将自然语言样本按谓词系统翻译为Prolog事实
核心思路：分批处理（规避上下文长度限制），LLM按谓词定义解析每个样本映射到Prolog事实。如文本"Shoe_001 is a black formal shoe made of leather"→事实集{black(shoe_001), formal_shoes(shoe_001), leather(shoe_001)}。翻译失败自动重试（最多2次）
设计动机：分批而非全量处理解决了上下文窗口限制，重试机制提升稳定性
ILP学习（MAXSYNTH求解器）：
做什么：在LLM构建的谓词空间中归纳全局最优规则集
核心思路：使用MAXSYNTH——基于最小描述长度(MDL)原则的约束求解器，平衡规则复杂度和噪声覆盖。输出Horn子句形式的逻辑规则，如 suitable_for_business(A) ← expensive(A) ∧ formal_shoes(A)
设计动机：MDL原则使求解器对标签噪声鲁棒（比HypoGeniC在20%噪声下仍显著更好），约束求解保证规则集的全局一致性和最优性

损失函数 / 训练策略¶

LLM温度参数设为0减少生成随机性
数据集80%训练/20%测试，3次独立数据集生成取平均
求解失败从谓词设计重启（最多2次）

实验关键数据¶

主实验¶

方法	模型	SHOES Acc	ZENDO Acc	平均Acc
IHR	GPT-4o	96.7%	50.0%	73.4%
IHR	Claude-3.7	98.3%	60.0%	79.2%
HypoGeniC	GPT-4o	51.7%	73.3%	62.5%
HypoGeniC	Claude-3.7	75.0%	68.3%	71.7%
本文	GPT-4o	87.9%	76.7%	82.3%
本文	Claude-3.7	88.3%	81.3%	84.8%
本文	DeepSeek-V3	88.3%	81.3%	84.8%
本文	Qwen3-32B	87.9%	80.0%	84.0%

消融实验（数据维度鲁棒性）¶

变量	本文方法表现	对比
规则数1→3	稳定，最小退化	IHR/HypoGeniC显著下降
模板数1→3	鲁棒	HypoGeniC受影响最大
样本量50→200	50样本即达优秀	基线需2倍样本
正例比例20%→50%	类别不平衡下保持稳定	差距在低正例比下扩大
噪声0%→20%	有退化但仍优于基线	MAXSYNTH的MDL原则提供鲁棒性

关键发现¶

模型无关性是最大亮点：跨4种LLM方差<5%，Claude和DeepSeek结果完全相同，证明真正的推理在ILP求解器而非LLM中完成
IHR在简单任务(SHOES)上近乎完美(98.3%)但在关系推理(ZENDO)上暴降到50-60%——纯LLM对二元关系推理能力不足
HypoGeniC高度依赖模型——同一任务不同LLM性能差>30%
本文方法在50个样本时就基本达到最优，数据效率远超基线

亮点与洞察¶

神经+符号的理想分工是核心贡献：LLM负责"理解"（语义→谓词抽象、文本→事实翻译），ILP负责"推理"（约束搜索、全局优化）。这比ChatRule等让LLM直接生成规则更鲁棒，也比传统ILP的专家依赖门槛更低
模型无关性极具实用价值：对LLM后端不敏感意味着不会被某个特定API锁定，且随着LLM能力提升方法会自动受益
自动化语言偏差构建解锁了ILP在新领域的应用：传统上ILP需要领域专家花数周定义谓词，现在LLM几分钟即可完成

局限性 / 可改进方向¶

仅在2个构造性分类任务上验证，缺乏真实世界数据集（如医疗/金融）
谓词系统质量上限受LLM概念理解能力限制——对非常专业的领域可能需要人工辅助
MAXSYNTH求解器的可扩展性——对大规模事实集和复杂规则的计算开销未讨论
翻译步骤可能引入不一致性——虽然有重试机制但未量化翻译错误率

评分¶

新颖性: ⭐⭐⭐⭐⭐ LLM自动化ILP语言偏差是全新方向，开创了神经-符号混合假设生成的新范式
实验充分度: ⭐⭐⭐ 仅2个构造性任务，缺乏真实世界验证
写作质量: ⭐⭐⭐⭐ 流程清晰，消融全面
价值: ⭐⭐⭐⭐ 为神经-符号结合开辟新路径，模型无关性是重要实践优势

补充说明¶

该工作展示了 LLM 在科学发现中的新角色：不是直接解题，而是将非结构化知识转化为符号推理系统可处理的形式化表示