Semantic Satellite Communications for Synchronized Audiovisual Reconstruction¶

SVC(IEEE JSAC 23): 视频关键点语义会议，AKD 8.36 → 本文5.41
Tian et al.(IEEE TWC 25): 同步多模态语义通信，仅固定视频驱动

会议: CVPR 2026
arXiv: 2603.10791
代码: 无
领域: 卫星通信 / 语义通信
关键词: 语义通信, 卫星链路, 音视频同步重建, LLM代理, 跨模态生成

一句话总结¶

提出LLM驱动的自适应多模态语义卫星通信系统，通过双流生成架构(V2A/A2V)+动态知识库更新+GPT-4o决策代理，实现比强制更新基线节省约50%带宽的高保真同步音视频重建。

卫星通信面临严峻的带宽限制、雨衰和多普勒频移，传统JSCC方法在低压缩率下产生模糊重建。现有生成式语义通信使用固定模态优先级和静态知识库，无法适应变化的信道条件和任务需求。

如何在严重受限且波动的卫星信道上实现任务自适应、带宽高效的同步音视频重建？需要灵活的模态优先级选择和智能知识库管理。

三层架构(有效性/语义/技术层) + 共享语义知识库(KB) + 双流生成模块(V2A/A2V) + 动态KB更新 + LLM(GPT-4o)决策代理。

双流生成架构: V2A路径传输3DMM参数+文本→先重建视频→由唇编码器+注意力Mel谱生成器+HiFi-GAN生成音频。A2V路径传输音频语义→先重建音频(FastSpeech2+HiFi-GAN)→由audio-to-3DMM模块+Real3D-Portrait渲染视频。
动态关键帧更新: 多级决策——L0:CSIM身份检查, L1:PSNR像素质量, L2:3DMM语义质量, L3:强制更新。L2与L3质量相当但带宽仅约50%。
LLM代理自适应: GPT-4o执行意图理解→工作流选择→资源/超参调整。集成卫星特定知识(轨道位置、天气、链路SNR)做前瞻性跨层规划。

语义编解码器MSE+CE训练400 epochs; V2A网络pitch/energy/Mel L2/Frobenius损失训练1000 epochs。NTN-TDL-A信道模型。