LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory¶

基本信息¶

论文不再把大模型战略推理简单等同于“是否接近纳什均衡”，而是基于 behavioral game theory 构建评测框架，区分真实推理能力与上下文因素，系统测评 22 个 LLM 的互动决策行为，发现模型规模并不决定战略水平，CoT 提升也并非普遍有效，同时暴露出显著的人口属性偏置。

现有 LLM strategic reasoning 研究通常关注： - 模型是否找到 Nash Equilibrium； - 在少数博弈中的最终收益表现。

但这种评估忽略了两个关键点： - NE 结果并不等价于推理机制正确； - 模型的策略选择可能受到 prompt、身份设定、上下文 framing 强烈影响。

作者希望建立一个更“行为科学化”的评估框架。

如何把 LLM 在交互式决策中的“推理能力”与“上下文扰动、身份设定、偏见”等因素区分开来，并据此更真实地评估 agentic strategic reasoning？

框架核心不是只看均衡结果，而是分析： - 模型如何响应对手策略； - 推理是否体现层级博弈思考； - 行为模式是否稳定、一致、可解释。

作者测试了 22 个 SOTA LLM，比较不同模型在多类博弈中的表现，得到几个关键结论： - GPT-o3-mini、GPT-o1、DeepSeek-R1 总体领先； - 模型规模不是决定性因素； - 某些小模型在特定策略模式上也可能更稳健。

论文特别指出： - CoT prompting 并非对所有模型都有效； - 只有某些能力层级的模型会因 CoT 明显提升战略推理； - 对其他模型收益很有限，甚至可能不稳定。

作者进一步编码人口属性特征，考察其对决策行为的影响，发现： - 某些性别设定会改变模型推理强度； - 某些身份设定会诱发系统性策略偏置； - 这对 agent 部署和伦理标准提出直接挑战。