Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation¶
会议: ACL 2026
arXiv: 2604.17220
代码: 无
领域: LLM智能体 / 行为模拟
关键词: 供应链模拟, 认知异质性, 牛鞭效应, LLM智能体, 啤酒分销博弈
一句话总结¶
使用LLM智能体(DeepSeek/GPT系列)在经典啤酒分销博弈中模拟多阶段供应链,系统研究认知异质性(推理能力差异)对系统行为的影响,发现LLM智能体能复现人类的牛鞭效应和短视行为,且信息共享能有效缓解这些不良效应。
研究背景与动机¶
领域现状:行为实验(如啤酒分销博弈)揭示了认知偏差导致的供应链低效(如牛鞭效应),但传统人类实验面临可扩展性、成本和实验控制的限制。LLM作为行为代理的潜力正被探索。
现有痛点:(1)大多数LLM多智能体研究聚焦于静态或结构简单的设置,未探索高度动态的多周期环境;(2)现有研究通常部署同质智能体,忽略了认知异质性(不同推理能力的智能体混合)对群体行为的影响;(3)缺乏严格的统计验证。
核心矛盾:真实组织中策略多样性既普遍又重要,但其在合成环境中的交互效应尚未被充分研究。
本文目标:构建LLM驱动的供应链模拟范式,系统研究认知异质性如何影响集体行为。
切入角度:用不同推理能力的LLM(基础版 vs 推理增强版)代表不同的认知层级,在供应链不同位置部署异质智能体。
核心 idea:LLM智能体能复现人类行为偏差,认知异质性加剧系统低效,而信息共享是有效的缓解手段。
方法详解¶
整体框架¶
在经典啤酒分销博弈(4级供应链:零售商→批发商→分销商→制造商)中部署LLM智能体,每个智能体在每个周期决定订购量。实验包含同质条件(全部浅层/深层智能体)和分层条件(单个深层智能体在不同位置),每个配置32次独立重复,20个周期。
关键设计¶
-
层级推理框架(Hierarchical Reasoning Framework):
- 功能:系统化地建模不同认知深度的智能体
- 核心思路:将认知分为浅层(DeepSeek-V3, GPT-4.1)和深层(DeepSeek-R1, GPT-5)两级。深层模型在AIME、GPQA等推理基准上一致优于对应的基础版。通过双家族设计(DeepSeek系列+GPT系列)控制架构差异,同时验证跨家族的一致性
- 设计动机:提供经验支持的认知分层依据,确保实验分类有科学基础
-
认知异质性实验设计:
- 功能:隔离认知深度对供应链行为的影响
- 核心思路:6种配置——同质条件(Original全浅层、R-Overall全深层)+分层条件(R-S1到R-S4,仅在一个位置放置深层智能体)。每种配置+两种信息条件(有/无信息共享),使用CoT提示支持结构化决策
- 设计动机:通过系统性变化单一变量(认知深度的位置)来识别因果效应
-
信息共享机制:
- 功能:测试信息透明度对缓解行为偏差的效果
- 核心思路:在信息共享条件下,向每个智能体提供其他层级的库存和积压信息。比较有/无信息共享条件下的订单波动、总成本和牛鞭效应强度
- 设计动机:信息不对称是牛鞭效应的经典原因之一,验证LLM智能体是否也从信息共享中受益
损失函数 / 训练策略¶
不涉及模型训练。实验使用标准统计检验(符号检验、t检验、Mann-Whitney检验)验证结果显著性。
实验关键数据¶
主实验¶
牛鞭效应复现(同质条件,无信息共享):
| 配置 | 订单方差增幅 | p值 | 说明 |
|---|---|---|---|
| DeepSeek-Original | 82.3% | <0.001 | 显著牛鞭效应 |
| DeepSeek-R-Overall | 79.8% | <0.001 | 推理增强后仍存在 |
| GPT-Original | 74.2% | <0.001 | 跨家族一致 |
| GPT-R-Overall | 74.3% | <0.001 | 一致性验证 |
消融实验¶
信息共享的缓解效果:
| 条件 | 无IS总成本 | 有IS总成本 | 降低幅度 |
|---|---|---|---|
| DeepSeek-Original | 39.43 | 20.15 | ~49% |
| DeepSeek-R-Overall | 29.43 | 17.71 | ~40% |
关键发现¶
- LLM智能体成功复现了人类实验中观察到的牛鞭效应(p<0.001),验证了LLM作为行为代理的可信性
- 与人类数据相比,LLM智能体的决策更稳定(方差更低),统计信号更清晰
- 认知增强(R1/GPT-5)虽降低总成本但未消除牛鞭效应——即使更"聪明"的智能体仍表现出短视行为
- 信息共享是最有效的干预:在所有配置中一致降低成本40-50%
- 自利行为(每个智能体最小化自身成本)是系统低效的根本原因
亮点与洞察¶
- 用LLM模拟行为实验是一个极有前景的范式:相比人类实验,成本低几个数量级、可大规模重复、变量精确控制。这对运营管理和行为经济学研究有变革性意义。
- 认知增强无法消除牛鞭效应这一发现很有洞察力:问题不在于个体智力不足,而在于信息结构和激励机制——这与现实组织中的情况高度吻合。
- 双家族验证设计(DeepSeek+GPT)确保了发现的跨平台鲁棒性。
局限与展望¶
- LLM智能体的"认知偏差"与人类的是否本质相同存疑——可能是训练数据中学到的行为模式而非真正的认知限制
- 啤酒分销博弈虽经典但高度简化,真实供应链的复杂性(多产品、随机性、合同约束)远超此设定
- 温度参数固定为1,不同温度下行为可能不同(虽然引用了先前工作的稳定性结果)
- 仅研究了4级线性供应链,网络化供应链的行为可能完全不同
相关工作与启发¶
- vs Kirshner (2024): 在供应链中部署LLM智能体的先驱,但使用同质设置;本文首次引入认知异质性
- vs Park et al. (2023) (Generative Agents): 聚焦社交互动模拟;本文将LLM智能体扩展到结构化经济环境
- vs 传统RL方法(IPPO/MAPPO): 需要严格的状态空间定义和大量训练;LLM智能体零训练即可展现类人行为
评分¶
- 新颖性: ⭐⭐⭐⭐ 认知异质性+供应链模拟的新视角
- 实验充分度: ⭐⭐⭐⭐⭐ 32次重复×6配置×2信息条件,统计验证严格
- 写作质量: ⭐⭐⭐⭐ 实验设计清晰,统计分析扎实
- 价值: ⭐⭐⭐⭐ 为LLM智能体在组织行为研究中的应用开辟了新方向
相关论文¶
- [ACL 2026] XMark: Reliable Multi-Bit Watermarking for LLM-Generated Texts
- [ACL 2026] The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination
- [ICLR 2026] LLM Unlearning with LLM Beliefs
- [AAAI 2026] Chatsparent: An Interactive System for Detecting and Mitigating Cognitive Fatigue in LLMs
- [ECCV 2024] One-stage Prompt-based Continual Learning