Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation¶

会议: ACL 2026
arXiv: 2604.17220
代码: 无
领域: LLM智能体 / 行为模拟
关键词: 供应链模拟, 认知异质性, 牛鞭效应, LLM智能体, 啤酒分销博弈

一句话总结¶

使用LLM智能体（DeepSeek/GPT系列）在经典啤酒分销博弈中模拟多阶段供应链，系统研究认知异质性（推理能力差异）对系统行为的影响，发现LLM智能体能复现人类的牛鞭效应和短视行为，且信息共享能有效缓解这些不良效应。

领域现状：行为实验（如啤酒分销博弈）揭示了认知偏差导致的供应链低效（如牛鞭效应），但传统人类实验面临可扩展性、成本和实验控制的限制。LLM作为行为代理的潜力正被探索。

现有痛点：（1）大多数LLM多智能体研究聚焦于静态或结构简单的设置，未探索高度动态的多周期环境；（2）现有研究通常部署同质智能体，忽略了认知异质性（不同推理能力的智能体混合）对群体行为的影响；（3）缺乏严格的统计验证。

核心矛盾：真实组织中策略多样性既普遍又重要，但其在合成环境中的交互效应尚未被充分研究。

本文目标：构建LLM驱动的供应链模拟范式，系统研究认知异质性如何影响集体行为。

切入角度：用不同推理能力的LLM（基础版 vs 推理增强版）代表不同的认知层级，在供应链不同位置部署异质智能体。

核心 idea：LLM智能体能复现人类行为偏差，认知异质性加剧系统低效，而信息共享是有效的缓解手段。

在经典啤酒分销博弈（4级供应链：零售商→批发商→分销商→制造商）中部署LLM智能体，每个智能体在每个周期决定订购量。实验包含同质条件（全部浅层/深层智能体）和分层条件（单个深层智能体在不同位置），每个配置32次独立重复，20个周期。

层级推理框架（Hierarchical Reasoning Framework）:
- 功能：系统化地建模不同认知深度的智能体
- 核心思路：将认知分为浅层（DeepSeek-V3, GPT-4.1）和深层（DeepSeek-R1, GPT-5）两级。深层模型在AIME、GPQA等推理基准上一致优于对应的基础版。通过双家族设计（DeepSeek系列+GPT系列）控制架构差异，同时验证跨家族的一致性
- 设计动机：提供经验支持的认知分层依据，确保实验分类有科学基础
认知异质性实验设计:
- 功能：隔离认知深度对供应链行为的影响
- 核心思路：6种配置——同质条件（Original全浅层、R-Overall全深层）+分层条件（R-S1到R-S4，仅在一个位置放置深层智能体）。每种配置+两种信息条件（有/无信息共享），使用CoT提示支持结构化决策
- 设计动机：通过系统性变化单一变量（认知深度的位置）来识别因果效应
信息共享机制:
- 功能：测试信息透明度对缓解行为偏差的效果
- 核心思路：在信息共享条件下，向每个智能体提供其他层级的库存和积压信息。比较有/无信息共享条件下的订单波动、总成本和牛鞭效应强度
- 设计动机：信息不对称是牛鞭效应的经典原因之一，验证LLM智能体是否也从信息共享中受益

不涉及模型训练。实验使用标准统计检验（符号检验、t检验、Mann-Whitney检验）验证结果显著性。

牛鞭效应复现（同质条件，无信息共享）：

配置	订单方差增幅	p值	说明
DeepSeek-Original	82.3%	<0.001	显著牛鞭效应
DeepSeek-R-Overall	79.8%	<0.001	推理增强后仍存在
GPT-Original	74.2%	<0.001	跨家族一致
GPT-R-Overall	74.3%	<0.001	一致性验证

信息共享的缓解效果：

条件	无IS总成本	有IS总成本	降低幅度
DeepSeek-Original	39.43	20.15	~49%
DeepSeek-R-Overall	29.43	17.71	~40%