Semantic Satellite Communications for Synchronized Audiovisual Reconstruction¶
会议: CVPR 2026
arXiv: 2603.10791
代码: 无
领域: 卫星通信 / 语义通信
关键词: 语义通信, 卫星链路, 音视频同步重建, LLM代理, 跨模态生成
一句话总结¶
提出LLM驱动的自适应多模态语义卫星通信系统,通过双流生成架构(V2A/A2V)+动态知识库更新+GPT-4o决策代理,实现比强制更新基线节省约50%带宽的高保真同步音视频重建。
背景与动机¶
卫星通信面临严峻的带宽限制、雨衰和多普勒频移,传统JSCC方法在低压缩率下产生模糊重建。现有生成式语义通信使用固定模态优先级和静态知识库,无法适应变化的信道条件和任务需求。
核心问题¶
如何在严重受限且波动的卫星信道上实现任务自适应、带宽高效的同步音视频重建?需要灵活的模态优先级选择和智能知识库管理。
方法详解¶
整体框架¶
三层架构(有效性/语义/技术层) + 共享语义知识库(KB) + 双流生成模块(V2A/A2V) + 动态KB更新 + LLM(GPT-4o)决策代理。
关键设计¶
-
双流生成架构: V2A路径传输3DMM参数+文本→先重建视频→由唇编码器+注意力Mel谱生成器+HiFi-GAN生成音频。A2V路径传输音频语义→先重建音频(FastSpeech2+HiFi-GAN)→由audio-to-3DMM模块+Real3D-Portrait渲染视频。
-
动态关键帧更新: 多级决策——L0:CSIM身份检查, L1:PSNR像素质量, L2:3DMM语义质量, L3:强制更新。L2与L3质量相当但带宽仅约50%。
-
LLM代理自适应: GPT-4o执行意图理解→工作流选择→资源/超参调整。集成卫星特定知识(轨道位置、天气、链路SNR)做前瞻性跨层规划。
损失函数 / 训练策略¶
语义编解码器MSE+CE训练400 epochs; V2A网络pitch/energy/Mel L2/Frobenius损失训练1000 epochs。NTN-TDL-A信道模型。
实验关键数据¶
| 对比 | 指标 | 本文 | 基线 |
|---|---|---|---|
| V2A vs SVC | AKD | 5.41 | 8.36 (@12dB) |
| A2V音频 | WER | 0.11 | DeepSC-S: 0.11 (28×更少带宽) |
| L2 vs L3更新 | AKD | 5.8 vs 4.8 | ~50%带宽节省 |
消融实验要点¶
- V2A 900符号显著优于600符号——更多带宽改善视频语义重建
- KB更新L2以50%带宽(8192 vs 16384符号/段)达到接近L3的质量
- A2V实现"零符号"视频传输但有性能瓶颈——额外带宽不再提升视频质量
亮点¶
- 首个灵活双流跨模态生成的卫星音视频系统
- LLM做前瞻性规划替代静态规则
- 比H264/H265带宽降低数量级
局限性 / 可改进方向¶
- 仅面部说话头场景,非通用视频
- 生成网络推理延迟高(172+ ms/帧)
- 依赖GPT-4o API,实际卫星部署不现实
与相关工作的对比¶
- SVC(IEEE JSAC 23): 视频关键点语义会议,AKD 8.36 → 本文5.41
- Tian et al.(IEEE TWC 25): 同步多模态语义通信,仅固定视频驱动
评分¶
- 新颖性: ⭐⭐⭐⭐ 双流生成+LLM代理的系统设计新颖
- 实验充分度: ⭐⭐⭐ 场景有限(仅说话头)
- 写作质量: ⭐⭐⭐⭐ 系统架构描述清晰
- 价值: ⭐⭐⭐ 对语义通信领域有探索价值