Com2: A Causal-Guided Benchmark for Exploring Complex Commonsense Reasoning in Large Language Models¶

会议: ACL 2025
arXiv: 2506.07064
代码: GitHub
领域: LLM Evaluation / Commonsense Reasoning
关键词: 复杂常识推理, 因果图, 因果理论, 干预, 反事实, benchmark

一句话总结¶

提出 Com2，一个基于因果事件图和因果理论（干预/反事实）构建的复杂常识推理基准，包含 2500 道主题和 1254 道侦探故事题目，揭示 LLM 在推理深度与广度上的显著不足。

研究背景与动机¶

问题定义: 现有常识推理基准（如 CommonsenseQA）大多是单步推理——只要知道相关知识就能回答。但现实世界中人们更关注复杂的多步常识推理，如某事件的长期影响、突发事件的后果、反事实假设等场景。
现有方法局限: (1) 数学和代码领域的复杂推理已有充分研究 (AIME、MATH)，但复杂常识推理因缺乏结构化表达和明确的 ground truth 而被忽视；(2) 现有推理 LLM (o1, R1) 的 test-time scaling 策略主要在数学/代码任务上验证，对常识推理的效果未知。
核心动机: LLM 通过预训练掌握了大量简单显式知识，但面对从简单知识推导出的复杂隐式知识（如事件的长期连锁反应、反直觉场景）时表现如何？需要一个系统化的基准来回答这一问题。
核心挑战: 常识知识的表达是非形式化、上下文依赖的，且通常缺乏公认的标准答案，使得构建高质量数据集困难。

方法详解¶

整体框架¶

Com2 的构建分为四步流水线：(1) 事件提议 (Event Proposal)——使用 LLM 生成具体事件和抽象事件作为种子；(2) 因果链提议 (Causal Chain Proposal)——以事件为根构建 5 节点因果链表示简单场景；(3) 因果图提议 (Causal Graph Proposal)——利用因果理论（干预、反事实等）修改因果链生成复杂场景；(4) Com2 合成 (Com2 Synthesis)——基于因果图生成多选/多答题。

关键设计¶

五种因果图场景对应五类推理任务:
- Direct: 因果链直接推理，问事件长期结果（最简单）
- Decision: 双分支因果图，问如何预防不良结果（多选题）
- Transition: 含因果传递问题（如场景漂移）的因果链，测试推理深度增加时可靠性
- Intervention: 加入外部突发事件打断原因果链，测试模型对非常见场景的推理能力
- Counterfactual: 对已发生的具体事件构建反事实假设，问"如果 X 没发生会怎样"
Com2-hard 子集: 基于 400+ 侦探故事 (BMDS)，构建多线索交织的复杂推理场景，包含 Decision、Intervention、Counterfactual 三种更高难度任务。
慢思考 (Slow Thinking) 引导: 每个样本配套系统分析、分治策略、自我修正和上下文识别等思维步骤，可作为辅助提示验证 LLM 的推理能力。

损失函数¶

无模型训练，属于 benchmark 工作。评估使用准确率 (Accuracy)；多选题 Decision 使用软 (soft) 评分策略——按正确预测选项比例计分。

实验¶

主实验：LLM 在 Com2 上的表现¶

模型	Direct	Decision	Transition	Intervention	Counter.	Main 平均	Hard 平均	总分
Qwen2.5-32B	83.60	65.16	48.80	33.80	72.40	60.73	54.80	57.77
GPT-4o	80.60	66.43	48.40	32.20	68.80	59.26	59.72	59.49
GPT-4o-mini	83.20	62.54	49.20	31.40	71.20	59.50	55.29	57.40
LLaMA-3.1-8B	83.20	58.04	47.00	30.40	71.40	58.01	53.56	55.79
R1-distilled	75.20	56.51	43.40	30.00	68.20	54.65	62.70	58.68
QwQ-32B	79.80	59.82	47.40	32.00	64.60	56.70	52.01	54.36
o1-mini	80.00	32.64	47.80	30.00	66.60	51.48	56.54	54.01

所有 LLM 在 Intervention 任务上表现最差（约 30%），揭示了推理广度的严重不足。

消融实验：Post-training 效果¶

模型	Main 平均 (训练前)	Main 平均 (训练后)	Hard 平均 (训练前)	Hard 平均 (训练后)
LLaMA-3.1-8B	58.01	~68 (显著提升)	53.56	~58 (OOD 仍有提升)
Qwen2-7B	58.13	~66 (显著提升)	54.71	~57

Post-training 在 Main 上提升明显但在 Hard (OOD) 上提升有限，说明从简单任务学到的推理能力可部分迁移。

关键发现¶

Counterfactual 并非最难: 按因果理论，反事实应该最难，但 LLM 在此任务上表现反而好于 Transition 和 Intervention，说明预训练赋予了 LLM 较好的假设推理能力。
Intervention 是最大瓶颈: 平均仅 ~31%，说明 LLM 处理突发/非常见场景的推理广度严重不足。
推理 LLM 不一定更好: 在 Com2-main 上，o1-mini 和 QwQ 反而不如通用 LLM，可能由于"过度思考" (overthinking) 导致在常识场景中陷入思维陷阱。
Test-time scaling 对常识推理低效: 输出更多 token 并不一定提升性能，与数学/代码领域的 scaling law 形成对比。
慢思考 (Slow Thinking) 有效: 提供引导式思维过程后，LLM 准确率显著提升，表明结构化推理引导可弥补模型缺陷。

亮点¶

首次系统性地利用因果事件图 + 因果理论构建复杂常识推理基准，5 种任务类型精确对应人们关心的实际场景。
揭示了 LLM 在复杂常识推理中的关键缺陷：推理广度不足（无法处理突发事件）和推理深度不稳定（因果传递过程中可靠性下降）。
Com2-hard 基于侦探故事构建，场景更自然且极具挑战性，是优秀的分布外泛化测试集。
全面涵盖 10+ 个 LLM（通用 + 推理型），实验设计详尽。

局限性¶

数据合成过程依赖 ChatGPT (gpt-4o-mini)，虽有人工评估验证质量，但可能存在系统性偏差。
仅使用选择题/多选题格式，未涵盖开放式生成任务。
Com2-hard 基于侦探故事构建，LLM 可能在预训练中已接触过类似故事，导致表现虚高。
因果图构建过程可以更精细化和步骤化，当前的 prompt-based 方法可能不够严谨。

评分¶

维度	分数 (1-10)
创新性	8
实验充分性	9
论文清晰度	7
实用性	7
总分	7.8