跳转至

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

会议: CVPR 2026
arXiv: 2603.10791
代码: 无
领域: 卫星通信 / 语义通信
关键词: 语义通信, 卫星链路, 音视频同步重建, LLM代理, 跨模态生成

一句话总结

提出LLM驱动的自适应多模态语义卫星通信系统,通过双流生成架构(V2A/A2V)+动态知识库更新+GPT-4o决策代理,实现比强制更新基线节省约50%带宽的高保真同步音视频重建。

背景与动机

卫星通信面临严峻的带宽限制、雨衰和多普勒频移,传统JSCC方法在低压缩率下产生模糊重建。现有生成式语义通信使用固定模态优先级和静态知识库,无法适应变化的信道条件和任务需求。

核心问题

如何在严重受限且波动的卫星信道上实现任务自适应、带宽高效的同步音视频重建?需要灵活的模态优先级选择和智能知识库管理。

方法详解

整体框架

三层架构(有效性/语义/技术层) + 共享语义知识库(KB) + 双流生成模块(V2A/A2V) + 动态KB更新 + LLM(GPT-4o)决策代理。

关键设计

  1. 双流生成架构: V2A路径传输3DMM参数+文本→先重建视频→由唇编码器+注意力Mel谱生成器+HiFi-GAN生成音频。A2V路径传输音频语义→先重建音频(FastSpeech2+HiFi-GAN)→由audio-to-3DMM模块+Real3D-Portrait渲染视频。

  2. 动态关键帧更新: 多级决策——L0:CSIM身份检查, L1:PSNR像素质量, L2:3DMM语义质量, L3:强制更新。L2与L3质量相当但带宽仅约50%。

  3. LLM代理自适应: GPT-4o执行意图理解→工作流选择→资源/超参调整。集成卫星特定知识(轨道位置、天气、链路SNR)做前瞻性跨层规划。

损失函数 / 训练策略

语义编解码器MSE+CE训练400 epochs; V2A网络pitch/energy/Mel L2/Frobenius损失训练1000 epochs。NTN-TDL-A信道模型。

实验关键数据

对比 指标 本文 基线
V2A vs SVC AKD 5.41 8.36 (@12dB)
A2V音频 WER 0.11 DeepSC-S: 0.11 (28×更少带宽)
L2 vs L3更新 AKD 5.8 vs 4.8 ~50%带宽节省

消融实验要点

  • V2A 900符号显著优于600符号——更多带宽改善视频语义重建
  • KB更新L2以50%带宽(8192 vs 16384符号/段)达到接近L3的质量
  • A2V实现"零符号"视频传输但有性能瓶颈——额外带宽不再提升视频质量

亮点

  • 首个灵活双流跨模态生成的卫星音视频系统
  • LLM做前瞻性规划替代静态规则
  • 比H264/H265带宽降低数量级

局限性 / 可改进方向

  • 仅面部说话头场景,非通用视频
  • 生成网络推理延迟高(172+ ms/帧)
  • 依赖GPT-4o API,实际卫星部署不现实

与相关工作的对比

  • SVC(IEEE JSAC 23): 视频关键点语义会议,AKD 8.36 → 本文5.41
  • Tian et al.(IEEE TWC 25): 同步多模态语义通信,仅固定视频驱动

评分

  • 新颖性: ⭐⭐⭐⭐ 双流生成+LLM代理的系统设计新颖
  • 实验充分度: ⭐⭐⭐ 场景有限(仅说话头)
  • 写作质量: ⭐⭐⭐⭐ 系统架构描述清晰
  • 价值: ⭐⭐⭐ 对语义通信领域有探索价值