跳转至

Com2: A Causal-Guided Benchmark for Complex Commonsense Reasoning

会议: ACL 2025
arXiv: 2506.07064
代码: GitHub
领域: NLP理解
关键词: 常识推理, 因果图, 干预, 反事实, 推理基准

一句话总结

提出Com2基准,利用因果事件图和因果理论(干预/反事实)构建复杂常识推理任务,发现LLM在推理深度和广度上存在不足,后训练和慢思考可部分缓解。

研究背景与动机

  1. 领域现状: LLM通过预训练掌握了大量简单常识知识,在简单常识推理基准上接近人类水平。
  2. 现有痛点: LLM难以处理由简单常识派生出的复杂隐式常识推理(如事件长期影响),而这是人类日常关注的重点。现有工作集中在数学和代码的复杂推理。
  3. 核心矛盾: 常识知识表达非形式化、上下文依赖,且缺乏普遍接受的ground truth,使得复杂常识推理数据集构建困难。
  4. 本文要解决什么: 填补复杂常识推理基准的空白,系统评估LLM在深层因果推理中的表现。
  5. 切入角度: 利用因果事件图(CEG)编码复杂逻辑关系,采用因果理论中的干预和反事实操作构建不同推理场景。
  6. 核心idea一句话: 以因果事件图为骨架,通过因果理论操作生成5种复杂常识推理场景,系统测试LLM的推理边界。

方法详解

整体框架

4步构建流程:事件提议→因果链提议→因果图提议(5种类型)→Com2合成(选择题/多选题+慢思考)。另外用侦探故事构建更难的Com2-hard。

关键设计

  1. 5种因果图场景: Direct(长期因果链)、Decision(分叉→坏结果)、Transition(因果传递退化)、Intervention(突发事件改变因果方向)、Counterfactual(反事实假设)。
  2. Com2-hard(侦探故事): 基于BMDS侦探故事集构建,包含多线索交织的Decision、Intervention、Counterfactual三类任务,推理复杂度更高。
  3. 慢思考(Slow Thinking): 每个样本附带由因果图引导的系统化分析过程,包括分治、自我修正和上下文识别,供模型参考。

评估策略

零样本设置下评估准确率。Decision任务为多选题,使用软评分策略(部分正确按比例得分)。评估16个通用LLM和推理LLM。

实验关键数据

主实验(Com2整体准确率%)

模型 Direct Decision Transition Intervention Counter. Main Avg Hard Avg
GPT-4o 80.60 66.43 48.40 32.20 68.80 59.26 59.72
Qwen2.5-32B 83.60 65.16 48.80 33.80 72.40 60.73 54.80
R1-distilled 75.20 56.51 43.40 30.00 68.20 54.65 62.70
LLaMA-3.2-1B 68.20 27.16 35.60 24.20 47.20 40.52 20.01
人类(有因果图) - - - - - 92% 90%

消融实验(Post-training效果)

模型 Com2-main(训练前→后) Com2-hard(训练前→后)
LLaMA-3.1-8B 58.01 → 显著提升 53.56 → 小幅提升
Qwen2-7B 58.13 → 显著提升 54.71 → 小幅提升

关键发现

  • Intervention是最难任务(Main最低30%),说明LLM难以处理突发事件改变因果方向
  • 反事实推理表现意外较好,可能因预训练中获得了假设推理能力
  • 推理LLM在Com2-hard上优于通用LLM,但在Com2-main上可能因"过度思考"反而退化
  • 输出更多token不一定提升性能——常识推理中的test-time scaling不如数学领域有效

亮点与洞察

  • 因果理论指导的数据构建方法论新颖,确保了推理场景的多样性和逻辑严谨性
  • 发现LLM常识推理中的"推理广度不足"问题——难以应对非常见场景
  • 推理LLM的"过度思考"现象值得进一步研究

局限性 / 可改进方向

  • 数据由GPT-4o-mini生成,可能继承模型偏见
  • 因果链长度固定为5步,未系统变化推理深度
  • Com2-hard基于英文侦探故事,文化和语言覆盖有限
  • 多选题评估策略可能对部分正确过于宽容

相关工作与启发

  • 与CausalNet、GLUCOSE等因果常识图谱互补
  • 因果理论(Pearl's causal hierarchy)在NLP评估中的应用值得推广
  • 对推理LLM能力边界的刻画有参考价值
  • "过度思考"现象揭示test-time scaling在常识领域需要不同于数学的策略
  • 因果图可作为常识推理的可解释性工具,帮助理解模型的推理路径

技术细节补充

  • Com2-main:5类×500=2500样本;Com2-hard:3类×418=1254样本
  • 因果链长度固定为5个事件节点
  • 人类评估:有因果图辅助下Com2-main准确率92%,Com2-hard准确率90%,慢思考可靠性88%
  • Decision任务使用软评分:部分正确按正确选项比例得分,包含错误选项则直接0分
  • 训练数据构建:8386样本(Direct 4184、Decision 476、Transition 475、Intervention 2757、Counterfactual 476)
  • 推理LLM在Com2-hard Decision任务上提升最显著,说明越难的任务越能体现推理LLM优势
  • 后训练后token使用量减少但性能提升,说明学到了更高效的推理策略

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 因果理论驱动的复杂常识推理基准,方法论创新
  • 实验充分度: ⭐⭐⭐⭐ 模型覆盖广,分析深入,但后训练实验细节较少
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,但基准构建流程稍显复杂
  • 价值: ⭐⭐⭐⭐ 填补复杂常识推理评估空白,对推理LLM发展有指导