Adaptive Cooperative Transmission Design for URLLC via Deep Reinforcement Learning¶
会议: NeurIPS 2025
arXiv: 2511.02216
代码: 无
领域: 强化学习 / 通信系统
关键词: URLLC, 协作中继, 深度强化学习, 5G NR, 自适应传输
一句话总结¶
针对两跳协作中继通信中的URLLC难题,提出DRL-CoLA算法:将每跳传输参数配置建模为MDP,用双agent DQN在仅观测本地CSI和ARQ反馈下学习分布式时延感知传输策略,接近全局最优可靠性。
研究背景与动机¶
- 领域现状:下一代无线通信需支持URLLC服务(误码率\(10^{-5}\)~\(10^{-7}\),时延毫秒级)。
- 现有痛点:现有两跳方案假设全局CSI,但URLLC时延约束下获取全局CSI不可行;5G NR参数此前仅被单独优化。
- 核心矛盾:ARQ重传提升可靠性但增加时延;无全局CSI下如何分布式决策?
- 切入角度:双agent DRL + delay outage rate感知奖励,让源端和中继端隐式协作。
方法详解¶
关键设计¶
- 双Agent分布式MDP:状态\(s_n^{(i)} = (\gamma_i, \bar{\gamma}_{i+1}, H, \tau_n)\),动作\((\mu, N_{sym}, I_{MCS})\)(300种组合)
- DOR感知奖励:成功奖励\(1 - \mathcal{P}_{DOR}(\bar{\gamma}_{i+1}, \tau_{n+1})\),源端学会为下一跳留足时延
- DQN训练:离散动作空间下DQN优于A2C/PPO
实验关键数据¶
| 方法 | 条件 | 丢包率 |
|---|---|---|
| DRL-CoLA(无全局CSI) | 各时延预算 | 接近最优 |
| One-shot(有全局CSI) | 下界 | 最优 |
关键发现¶
- 中继位置V型曲线:\(d_1=d_2\)时丢包率最低
- DQN在离散空间中收敛更快
亮点与洞察¶
- DOR作为跨跳协作信号,无需显式通信协议
局限性 / 可改进方向¶
- 仅两跳;Rayleigh衰落假设;无真实系统验证
评分¶
- 新颖性: ⭐⭐⭐ DOR奖励设计有新意
- 实验充分度: ⭐⭐⭐ 有对比和消融
- 写作质量: ⭐⭐⭐⭐ 系统模型清晰
- 价值: ⭐⭐⭐ 对URLLC有参考价值