跳转至

Adaptive Cooperative Transmission Design for URLLC via Deep Reinforcement Learning

会议: NeurIPS 2025
arXiv: 2511.02216
代码: 无
领域: 强化学习 / 通信系统
关键词: URLLC, 协作中继, 深度强化学习, 5G NR, 自适应传输

一句话总结

针对两跳协作中继通信中的URLLC难题,提出DRL-CoLA算法:将每跳传输参数配置建模为MDP,用双agent DQN在仅观测本地CSI和ARQ反馈下学习分布式时延感知传输策略,接近全局最优可靠性。

研究背景与动机

  1. 领域现状:下一代无线通信需支持URLLC服务(误码率\(10^{-5}\)~\(10^{-7}\),时延毫秒级)。
  2. 现有痛点:现有两跳方案假设全局CSI,但URLLC时延约束下获取全局CSI不可行;5G NR参数此前仅被单独优化。
  3. 核心矛盾:ARQ重传提升可靠性但增加时延;无全局CSI下如何分布式决策?
  4. 切入角度:双agent DRL + delay outage rate感知奖励,让源端和中继端隐式协作。

方法详解

关键设计

  1. 双Agent分布式MDP:状态\(s_n^{(i)} = (\gamma_i, \bar{\gamma}_{i+1}, H, \tau_n)\),动作\((\mu, N_{sym}, I_{MCS})\)(300种组合)
  2. DOR感知奖励:成功奖励\(1 - \mathcal{P}_{DOR}(\bar{\gamma}_{i+1}, \tau_{n+1})\),源端学会为下一跳留足时延
  3. DQN训练:离散动作空间下DQN优于A2C/PPO

实验关键数据

方法 条件 丢包率
DRL-CoLA(无全局CSI) 各时延预算 接近最优
One-shot(有全局CSI) 下界 最优

关键发现

  • 中继位置V型曲线:\(d_1=d_2\)时丢包率最低
  • DQN在离散空间中收敛更快

亮点与洞察

  • DOR作为跨跳协作信号,无需显式通信协议

局限性 / 可改进方向

  • 仅两跳;Rayleigh衰落假设;无真实系统验证

评分

  • 新颖性: ⭐⭐⭐ DOR奖励设计有新意
  • 实验充分度: ⭐⭐⭐ 有对比和消融
  • 写作质量: ⭐⭐⭐⭐ 系统模型清晰
  • 价值: ⭐⭐⭐ 对URLLC有参考价值