跳转至

Dynamics of Cognitive Heterogeneity: Investigating Behavioral Biases in Multi-Stage Supply Chains with LLM-Based Simulation

会议: ACL 2026
arXiv: 2604.17220
代码: 无
领域: LLM智能体 / 行为模拟
关键词: 供应链模拟, 认知异质性, 牛鞭效应, LLM智能体, 啤酒分销博弈

一句话总结

使用LLM智能体(DeepSeek/GPT系列)在经典啤酒分销博弈中模拟多阶段供应链,系统研究认知异质性(推理能力差异)对系统行为的影响,发现LLM智能体能复现人类的牛鞭效应和短视行为,且信息共享能有效缓解这些不良效应。

研究背景与动机

领域现状:行为实验(如啤酒分销博弈)揭示了认知偏差导致的供应链低效(如牛鞭效应),但传统人类实验面临可扩展性、成本和实验控制的限制。LLM作为行为代理的潜力正被探索。

现有痛点:(1)大多数LLM多智能体研究聚焦于静态或结构简单的设置,未探索高度动态的多周期环境;(2)现有研究通常部署同质智能体,忽略了认知异质性(不同推理能力的智能体混合)对群体行为的影响;(3)缺乏严格的统计验证。

核心矛盾:真实组织中策略多样性既普遍又重要,但其在合成环境中的交互效应尚未被充分研究。

本文目标:构建LLM驱动的供应链模拟范式,系统研究认知异质性如何影响集体行为。

切入角度:用不同推理能力的LLM(基础版 vs 推理增强版)代表不同的认知层级,在供应链不同位置部署异质智能体。

核心 idea:LLM智能体能复现人类行为偏差,认知异质性加剧系统低效,而信息共享是有效的缓解手段。

方法详解

整体框架

在经典啤酒分销博弈(4级供应链:零售商→批发商→分销商→制造商)中部署LLM智能体,每个智能体在每个周期决定订购量。实验包含同质条件(全部浅层/深层智能体)和分层条件(单个深层智能体在不同位置),每个配置32次独立重复,20个周期。

关键设计

  1. 层级推理框架(Hierarchical Reasoning Framework):

    • 功能:系统化地建模不同认知深度的智能体
    • 核心思路:将认知分为浅层(DeepSeek-V3, GPT-4.1)和深层(DeepSeek-R1, GPT-5)两级。深层模型在AIME、GPQA等推理基准上一致优于对应的基础版。通过双家族设计(DeepSeek系列+GPT系列)控制架构差异,同时验证跨家族的一致性
    • 设计动机:提供经验支持的认知分层依据,确保实验分类有科学基础
  2. 认知异质性实验设计:

    • 功能:隔离认知深度对供应链行为的影响
    • 核心思路:6种配置——同质条件(Original全浅层、R-Overall全深层)+分层条件(R-S1到R-S4,仅在一个位置放置深层智能体)。每种配置+两种信息条件(有/无信息共享),使用CoT提示支持结构化决策
    • 设计动机:通过系统性变化单一变量(认知深度的位置)来识别因果效应
  3. 信息共享机制:

    • 功能:测试信息透明度对缓解行为偏差的效果
    • 核心思路:在信息共享条件下,向每个智能体提供其他层级的库存和积压信息。比较有/无信息共享条件下的订单波动、总成本和牛鞭效应强度
    • 设计动机:信息不对称是牛鞭效应的经典原因之一,验证LLM智能体是否也从信息共享中受益

损失函数 / 训练策略

不涉及模型训练。实验使用标准统计检验(符号检验、t检验、Mann-Whitney检验)验证结果显著性。

实验关键数据

主实验

牛鞭效应复现(同质条件,无信息共享):

配置 订单方差增幅 p值 说明
DeepSeek-Original 82.3% <0.001 显著牛鞭效应
DeepSeek-R-Overall 79.8% <0.001 推理增强后仍存在
GPT-Original 74.2% <0.001 跨家族一致
GPT-R-Overall 74.3% <0.001 一致性验证

消融实验

信息共享的缓解效果:

条件 无IS总成本 有IS总成本 降低幅度
DeepSeek-Original 39.43 20.15 ~49%
DeepSeek-R-Overall 29.43 17.71 ~40%

关键发现

  • LLM智能体成功复现了人类实验中观察到的牛鞭效应(p<0.001),验证了LLM作为行为代理的可信性
  • 与人类数据相比,LLM智能体的决策更稳定(方差更低),统计信号更清晰
  • 认知增强(R1/GPT-5)虽降低总成本但未消除牛鞭效应——即使更"聪明"的智能体仍表现出短视行为
  • 信息共享是最有效的干预:在所有配置中一致降低成本40-50%
  • 自利行为(每个智能体最小化自身成本)是系统低效的根本原因

亮点与洞察

  • 用LLM模拟行为实验是一个极有前景的范式:相比人类实验,成本低几个数量级、可大规模重复、变量精确控制。这对运营管理和行为经济学研究有变革性意义。
  • 认知增强无法消除牛鞭效应这一发现很有洞察力:问题不在于个体智力不足,而在于信息结构和激励机制——这与现实组织中的情况高度吻合。
  • 双家族验证设计(DeepSeek+GPT)确保了发现的跨平台鲁棒性。

局限与展望

  • LLM智能体的"认知偏差"与人类的是否本质相同存疑——可能是训练数据中学到的行为模式而非真正的认知限制
  • 啤酒分销博弈虽经典但高度简化,真实供应链的复杂性(多产品、随机性、合同约束)远超此设定
  • 温度参数固定为1,不同温度下行为可能不同(虽然引用了先前工作的稳定性结果)
  • 仅研究了4级线性供应链,网络化供应链的行为可能完全不同

相关工作与启发

  • vs Kirshner (2024): 在供应链中部署LLM智能体的先驱,但使用同质设置;本文首次引入认知异质性
  • vs Park et al. (2023) (Generative Agents): 聚焦社交互动模拟;本文将LLM智能体扩展到结构化经济环境
  • vs 传统RL方法(IPPO/MAPPO): 需要严格的状态空间定义和大量训练;LLM智能体零训练即可展现类人行为

评分

  • 新颖性: ⭐⭐⭐⭐ 认知异质性+供应链模拟的新视角
  • 实验充分度: ⭐⭐⭐⭐⭐ 32次重复×6配置×2信息条件,统计验证严格
  • 写作质量: ⭐⭐⭐⭐ 实验设计清晰,统计分析扎实
  • 价值: ⭐⭐⭐⭐ 为LLM智能体在组织行为研究中的应用开辟了新方向

相关论文