Com2: A Causal-Guided Benchmark for Complex Commonsense Reasoning¶
会议: ACL 2025
arXiv: 2506.07064
代码: GitHub
领域: NLP理解
关键词: 常识推理, 因果图, 干预, 反事实, 推理基准
一句话总结¶
提出Com2基准,利用因果事件图和因果理论(干预/反事实)构建复杂常识推理任务,发现LLM在推理深度和广度上存在不足,后训练和慢思考可部分缓解。
研究背景与动机¶
- 领域现状: LLM通过预训练掌握了大量简单常识知识,在简单常识推理基准上接近人类水平。
- 现有痛点: LLM难以处理由简单常识派生出的复杂隐式常识推理(如事件长期影响),而这是人类日常关注的重点。现有工作集中在数学和代码的复杂推理。
- 核心矛盾: 常识知识表达非形式化、上下文依赖,且缺乏普遍接受的ground truth,使得复杂常识推理数据集构建困难。
- 本文要解决什么: 填补复杂常识推理基准的空白,系统评估LLM在深层因果推理中的表现。
- 切入角度: 利用因果事件图(CEG)编码复杂逻辑关系,采用因果理论中的干预和反事实操作构建不同推理场景。
- 核心idea一句话: 以因果事件图为骨架,通过因果理论操作生成5种复杂常识推理场景,系统测试LLM的推理边界。
方法详解¶
整体框架¶
4步构建流程:事件提议→因果链提议→因果图提议(5种类型)→Com2合成(选择题/多选题+慢思考)。另外用侦探故事构建更难的Com2-hard。
关键设计¶
- 5种因果图场景: Direct(长期因果链)、Decision(分叉→坏结果)、Transition(因果传递退化)、Intervention(突发事件改变因果方向)、Counterfactual(反事实假设)。
- Com2-hard(侦探故事): 基于BMDS侦探故事集构建,包含多线索交织的Decision、Intervention、Counterfactual三类任务,推理复杂度更高。
- 慢思考(Slow Thinking): 每个样本附带由因果图引导的系统化分析过程,包括分治、自我修正和上下文识别,供模型参考。
评估策略¶
零样本设置下评估准确率。Decision任务为多选题,使用软评分策略(部分正确按比例得分)。评估16个通用LLM和推理LLM。
实验关键数据¶
主实验(Com2整体准确率%)¶
| 模型 | Direct | Decision | Transition | Intervention | Counter. | Main Avg | Hard Avg |
|---|---|---|---|---|---|---|---|
| GPT-4o | 80.60 | 66.43 | 48.40 | 32.20 | 68.80 | 59.26 | 59.72 |
| Qwen2.5-32B | 83.60 | 65.16 | 48.80 | 33.80 | 72.40 | 60.73 | 54.80 |
| R1-distilled | 75.20 | 56.51 | 43.40 | 30.00 | 68.20 | 54.65 | 62.70 |
| LLaMA-3.2-1B | 68.20 | 27.16 | 35.60 | 24.20 | 47.20 | 40.52 | 20.01 |
| 人类(有因果图) | - | - | - | - | - | 92% | 90% |
消融实验(Post-training效果)¶
| 模型 | Com2-main(训练前→后) | Com2-hard(训练前→后) |
|---|---|---|
| LLaMA-3.1-8B | 58.01 → 显著提升 | 53.56 → 小幅提升 |
| Qwen2-7B | 58.13 → 显著提升 | 54.71 → 小幅提升 |
关键发现¶
- Intervention是最难任务(Main最低30%),说明LLM难以处理突发事件改变因果方向
- 反事实推理表现意外较好,可能因预训练中获得了假设推理能力
- 推理LLM在Com2-hard上优于通用LLM,但在Com2-main上可能因"过度思考"反而退化
- 输出更多token不一定提升性能——常识推理中的test-time scaling不如数学领域有效
亮点与洞察¶
- 因果理论指导的数据构建方法论新颖,确保了推理场景的多样性和逻辑严谨性
- 发现LLM常识推理中的"推理广度不足"问题——难以应对非常见场景
- 推理LLM的"过度思考"现象值得进一步研究
局限性 / 可改进方向¶
- 数据由GPT-4o-mini生成,可能继承模型偏见
- 因果链长度固定为5步,未系统变化推理深度
- Com2-hard基于英文侦探故事,文化和语言覆盖有限
- 多选题评估策略可能对部分正确过于宽容
相关工作与启发¶
- 与CausalNet、GLUCOSE等因果常识图谱互补
- 因果理论(Pearl's causal hierarchy)在NLP评估中的应用值得推广
- 对推理LLM能力边界的刻画有参考价值
- "过度思考"现象揭示test-time scaling在常识领域需要不同于数学的策略
- 因果图可作为常识推理的可解释性工具,帮助理解模型的推理路径
技术细节补充¶
- Com2-main:5类×500=2500样本;Com2-hard:3类×418=1254样本
- 因果链长度固定为5个事件节点
- 人类评估:有因果图辅助下Com2-main准确率92%,Com2-hard准确率90%,慢思考可靠性88%
- Decision任务使用软评分:部分正确按正确选项比例得分,包含错误选项则直接0分
- 训练数据构建:8386样本(Direct 4184、Decision 476、Transition 475、Intervention 2757、Counterfactual 476)
- 推理LLM在Com2-hard Decision任务上提升最显著,说明越难的任务越能体现推理LLM优势
- 后训练后token使用量减少但性能提升,说明学到了更高效的推理策略
评分¶
- 新颖性: ⭐⭐⭐⭐⭐ 因果理论驱动的复杂常识推理基准,方法论创新
- 实验充分度: ⭐⭐⭐⭐ 模型覆盖广,分析深入,但后训练实验细节较少
- 写作质量: ⭐⭐⭐⭐ 结构清晰,但基准构建流程稍显复杂
- 价值: ⭐⭐⭐⭐ 填补复杂常识推理评估空白,对推理LLM发展有指导