跳转至

📚 AI Paper Notes

Adaptive Cooperative Transmission Design for URLLC via Deep Reinforcement Learning

Adaptive Cooperative Transmission Design for URLLC via Deep Reinforcement Learning¶

会议: NeurIPS 2025
arXiv: 2511.02216
代码: 无
领域: 强化学习 / 通信系统
关键词: URLLC, 协作中继, 深度强化学习, 5G NR, 自适应传输

一句话总结¶

针对两跳协作中继通信中的URLLC难题，提出DRL-CoLA算法：将每跳传输参数配置建模为MDP，用双agent DQN在仅观测本地CSI和ARQ反馈下学习分布式时延感知传输策略，接近全局最优可靠性。

研究背景与动机¶

领域现状：下一代无线通信需支持URLLC服务（误码率\(10^{-5}\)~\(10^{-7}\)，时延毫秒级）。
现有痛点：现有两跳方案假设全局CSI，但URLLC时延约束下获取全局CSI不可行；5G NR参数此前仅被单独优化。
核心矛盾：ARQ重传提升可靠性但增加时延；无全局CSI下如何分布式决策？
切入角度：双agent DRL + delay outage rate感知奖励，让源端和中继端隐式协作。

方法详解¶

关键设计¶

双Agent分布式MDP：状态\(s_n^{(i)} = (\gamma_i, \bar{\gamma}_{i+1}, H, \tau_n)\)，动作\((\mu, N_{sym}, I_{MCS})\)（300种组合）
DOR感知奖励：成功奖励\(1 - \mathcal{P}_{DOR}(\bar{\gamma}_{i+1}, \tau_{n+1})\)，源端学会为下一跳留足时延
DQN训练：离散动作空间下DQN优于A2C/PPO

实验关键数据¶

方法	条件	丢包率
DRL-CoLA（无全局CSI）	各时延预算	接近最优
One-shot（有全局CSI）	下界	最优

关键发现¶

中继位置V型曲线：\(d_1=d_2\)时丢包率最低
DQN在离散空间中收敛更快

亮点与洞察¶

DOR作为跨跳协作信号，无需显式通信协议

局限性 / 可改进方向¶

仅两跳；Rayleigh衰落假设；无真实系统验证

评分¶

新颖性: ⭐⭐⭐ DOR奖励设计有新意
实验充分度: ⭐⭐⭐ 有对比和消融
写作质量: ⭐⭐⭐⭐ 系统模型清晰
价值: ⭐⭐⭐ 对URLLC有参考价值