Com2: A Causal-Guided Benchmark for Complex Commonsense Reasoning¶

会议: ACL 2025
arXiv: 2506.07064
代码: GitHub
领域: NLP理解
关键词: 常识推理, 因果图, 干预, 反事实, 推理基准

一句话总结¶

提出Com2基准，利用因果事件图和因果理论（干预/反事实）构建复杂常识推理任务，发现LLM在推理深度和广度上存在不足，后训练和慢思考可部分缓解。

4步构建流程：事件提议→因果链提议→因果图提议（5种类型）→Com2合成（选择题/多选题+慢思考）。另外用侦探故事构建更难的Com2-hard。

5种因果图场景: Direct（长期因果链）、Decision（分叉→坏结果）、Transition（因果传递退化）、Intervention（突发事件改变因果方向）、Counterfactual（反事实假设）。
Com2-hard（侦探故事）: 基于BMDS侦探故事集构建，包含多线索交织的Decision、Intervention、Counterfactual三类任务，推理复杂度更高。
慢思考（Slow Thinking）: 每个样本附带由因果图引导的系统化分析过程，包括分治、自我修正和上下文识别，供模型参考。

零样本设置下评估准确率。Decision任务为多选题，使用软评分策略（部分正确按比例得分）。评估16个通用LLM和推理LLM。

模型	Direct	Decision	Transition	Intervention	Counter.	Main Avg	Hard Avg
GPT-4o	80.60	66.43	48.40	32.20	68.80	59.26	59.72
Qwen2.5-32B	83.60	65.16	48.80	33.80	72.40	60.73	54.80
R1-distilled	75.20	56.51	43.40	30.00	68.20	54.65	62.70
LLaMA-3.2-1B	68.20	27.16	35.60	24.20	47.20	40.52	20.01
人类（有因果图）	-	-	-	-	-	92%	90%

模型	Com2-main（训练前→后）	Com2-hard（训练前→后）
LLaMA-3.1-8B	58.01 → 显著提升	53.56 → 小幅提升
Qwen2-7B	58.13 → 显著提升	54.71 → 小幅提升

Com2-main：5类×500=2500样本；Com2-hard：3类×418=1254样本
因果链长度固定为5个事件节点
人类评估：有因果图辅助下Com2-main准确率92%，Com2-hard准确率90%，慢思考可靠性88%
Decision任务使用软评分：部分正确按正确选项比例得分，包含错误选项则直接0分
训练数据构建：8386样本（Direct 4184、Decision 476、Transition 475、Intervention 2757、Counterfactual 476）
推理LLM在Com2-hard Decision任务上提升最显著，说明越难的任务越能体现推理LLM优势
后训练后token使用量减少但性能提升，说明学到了更高效的推理策略