跳转至

Semantic Satellite Communications for Synchronized Audiovisual Reconstruction

会议: CVPR 2026
arXiv: 2603.10791
代码: 无
领域: 遥感 / 语义通信
关键词: 卫星通信, 语义传输, 视听同步, 跨模态生成, LLM智能体

一句话总结

本文提出一种自适应多模态语义卫星传输系统,通过双流生成架构(视频驱动音频 / 音频驱动视频)灵活切换传输优先级,结合动态知识库更新机制和LLM智能体自适应决策,在严苛带宽约束下实现高保真视听同步重建。

研究背景与动机

  1. 领域现状:卫星通信在海事、航空和灾害救援等场景不可或缺,但面临自由空间路径损耗(FSPL)、多普勒频移、长传播延迟等严峻物理层挑战。传统自适应调制和波束成形技术难以支撑数据密集型多模态流传输。
  2. 现有痛点:语义通信在文本和图像传输上已有进展,但视频传输因数据量大和时序复杂性仍是瓶颈。现有方法主要局限于单模态视频传输,无法满足实际视听同步需求。已有的跨模态语义传输方案(如视频会议中传3DMM参数)在模态优先级选择上是固定的,无法根据任务需求动态调整。
  3. 核心矛盾:三大难题——①语义层与物理层设计脱节,②跨模态依赖关系僵化(只能单向生成),③被动信道自适应策略在高延迟卫星链路中效果差。
  4. 本文目标 在带宽受限的卫星场景下,如何实现灵活的模态优先级切换、高效的知识库维护、以及环境感知的主动决策。
  5. 切入角度:将LLM的推理规划能力引入卫星语义通信,通过LLM Agent理解任务意图和物理约束,动态调整传输策略。
  6. 核心 idea:用LLM驱动的双流跨模态生成架构替代固定规则传输,实现卫星场景下的自适应视听同步语义通信。

方法详解

整体框架

系统由三层组成:效能层(评估任务质量指标)、语义层(语义特征提取/编解码/跨模态生成)、技术层(OFDM物理层传输),以及共享语义知识库。输入视听数据被分解为视频 \(\mathbf{V}\) 和音频 \(\mathbf{A}\),分别提取语义特征后复用到统一数据流映射为OFDM符号,经上下行卫星信道传输后在地面接收端重建。

关键设计

  1. 双流跨模态生成网络

    • 功能:根据任务需求在"视频驱动音频生成(V2A)"和"音频驱动视频生成(A2V)"之间灵活切换。
    • 核心思路:V2A路径传输3DMM参数和文本,先重建视频再用唇部特征和文本生成同步音频;A2V路径传输音频语义(文本、音素、时长),先重建音频再通过Audio-to-3DMM模块预测面部参数驱动视频生成。视频语义提取使用3DMM模型得到表情/旋转/平移参数(仅保留前6维表情系数),音频语义提取使用Whisper-small做语音识别加Montreal Forced Aligner提取声学特征。
    • 设计动机:不同任务对模态的要求不同——监控场景需要高视频保真度(选V2A),语音调度需要高音频清晰度(选A2V),固定优先级无法适应多样化卫星服务需求。
  2. 时序语义编解码器

    • 功能:将提取的语义特征(3DMM参数、文本、音素、时长)编码为信道符号并在接收端解码恢复。
    • 核心思路:针对浮点数据(3DMM、时长)使用线性投影嵌入,针对token序列(文本、音素)使用查找表嵌入,均映射到相同维度 \(E\)。编码器使用Transformer架构利用时序相关性抵抗信道衰落,解码器使用全连接层(浮点用MSE损失,token用交叉熵损失)。
    • 设计动机:卫星信道的时频衰落会破坏语义特征的时序连贯性,需要专门的时序编解码架构来保护语义信息。
  3. 动态知识库更新机制

    • 功能:在带宽和重建质量之间取得平衡,避免知识库过时导致生成质量下降。
    • 核心思路:设计L0-L3四级判断机制——L0检查用户身份一致性(CSIM余弦相似度 > \(\alpha_{CSIM}\)),L1评估像素级视觉质量(PSNR > \(\alpha_{PSNR}\)),L2评估3DMM语义一致性(表情/旋转/平移距离),L3强制更新。只有当逐级检查都满足条件时才重用已有参考帧,否则传输新帧更新知识库。
    • 设计动机:卫星带宽受限,频繁更新高维图像代价高昂(每张256×256图像需16384个符号),但过时的参考帧又会导致生成质量大幅下降,需要按需更新策略。

损失函数 / 训练策略

  • 语义编解码器:MSE损失用于浮点型特征(3DMM、时长),交叉熵损失用于token序列(文本、音素),4个编解码器分别独立训练400 epochs。
  • V2A音频生成网络:联合优化pitch、energy和Mel谱损失,\(\mathcal{L} = \|\hat{\mathbf{P}} - \mathbf{P}\|_2^2 + \|\hat{\mathbf{E}} - \mathbf{E}\|_2^2 + \|\hat{\mathbf{F}} - \mathbf{F}\|_F^2\),训练1000 epochs。
  • LLM Agent:使用GPT-4o,通过Prompt工程配置,结合卫星环境知识和历史传输日志进行自适应决策。

实验关键数据

主实验

数据集:LRS2(40K训练 + 8K测试)和VoxCeleb子集,视频分辨率256×256。卫星信道模型:NTN-TDL-A,高度300-1200km。

方法 传输符号数 参数量(M) 运行时间(s/帧)
H264+LDPC 400,991 - 0.033
H265+LDPC 54,390 - 0.013
SVC 600 60.11 0.019
V2A 600 540.9 0.171
A2V 600 477.13 0.115

在12dB SNR下,V2A的AKD=5.41,A2V的AKD=5.85,SVC的AKD=8.36,H264/H265因面部模糊无法检测关键点。

消融实验:知识库更新策略

更新级别 更新次数(100段) 语义符号 知识库更新符号 说明
L0 17 300 2,785 仅身份一致性
L1 27 300 4,427 +像素质量
L2 50 300 8,192 +3DMM语义
L3 100 300 16,384 强制更新(基线)

V2A-L2在12dB下AKD=5.8,接近L3的4.8,但带宽仅为L3的约50%。

关键发现

  • V2A在视频重建上随带宽增加提升显著,A2V在音频相关任务上表现更好但视频重建存在性能瓶颈(额外带宽无法进一步改善)。
  • 跨模态生成方法(V2A、A2V)在低SNR下远超传统H264/H265,展现出强鲁棒性。
  • LLM Agent对比Lookup-Table方法,在面部验证任务中实现相近性能但节省约50%带宽。

亮点与洞察

  • 双流生成架构的灵活性是最大亮点:A2V可以实现"零符号"视频传输(视频完全由音频语义驱动生成),在极端带宽受限场景下极具实用价值。
  • 多级知识库更新机制设计巧妙,从粗到细(身份→像素→3DMM语义)逐级判断是否需要更新,在几百倍带宽差异中找到精确平衡点。
  • LLM Agent将规则匹配升级为语义理解+主动规划,可迁移到其他需要多维度权衡的通信系统设计。

局限与展望

  • 计算复杂度较高:V2A和A2V涉及多个大规模生成网络,推理延迟明显高于传统方法。
  • 限于人脸视频场景(依赖3DMM),无法直接推广到通用视频传输。
  • LLM Agent的决策过程慢且依赖云端API(GPT-4o),在对时延敏感的卫星通信中可能存在实际部署瓶颈。
  • 可以考虑用轻量化本地模型替代GPT-4o进行决策,或使用蒸馏后的小模型。

相关工作与启发

  • vs SVC [27]: SVC传输视频关键点但无跨模态能力且无法动态调整优先级,本文支持双向跨模态生成且有LLM协调。
  • vs DeepWiVe [59]: DeepWiVe是端到端JSCC方案重建质量受限于像素级近似,低压缩率下模糊;本文利用生成式语义极大压缩带宽。
  • vs [57,58]: 它们分别只支持V2A或A2V单向固定路径,本文实现双向灵活切换。

评分

  • 新颖性: ⭐⭐⭐⭐ 双流生成+LLM Agent的系统集成创新,但各模块多用现有预训练模型
  • 实验充分度: ⭐⭐⭐⭐ 多维度对比完善,包含案例分析,但缺乏真实卫星实验
  • 写作质量: ⭐⭐⭐⭐ 结构清晰,系统描述详尽
  • 价值: ⭐⭐⭐⭐ 为卫星语义通信提供了完整的系统范式,但应用场景较窄

相关论文