跳转至

Video TokenCom: Textual Intent-guided Multi-Rate Video Token Communications with UEP-based Adaptive Source–Channel Coding

日期: 2026-03-02
arXiv: 2603.02470
代码: 无
领域: multimodal_vlm
关键词: token communications, video semantic communication, unequal error protection, multi-rate coding, vision-language model

一句话总结

Video TokenCom 提出了文本意图引导的多速率视频 Token 通信框架,通过 CLIP 热力图+光流传播识别用户意图区域、为意图/非意图 token 分配不同比特精度的多速率编码、以及 UEP 自适应信源-信道联合编码,在超低 BPP 下以 0.013 BPP 在 PSNR(26.36 vs 23.28)和 FVD(1289 vs 4010)上全面超越 H.265。

研究背景与动机

Token 通信(TokenCom)是一种新范式,以离散 token 作为通信和计算的统一单元,在未来无线网络中实现高效的语义和目标导向信息交换。然而,视频 TokenCom 尚未被充分研究

现有视频语义通信系统的核心矛盾: 1. 大多数系统基于连续特征表示或任务特定潜码,不利用离散视频 token 的语义结构进行高效通信 2. 现有框架未利用 token 级语义结构来优化信源和信道编码速率的分配 3. 端到端学习或 DJSCC 方案缺乏在不同信道/网络条件下的灵活性,且不兼容 ITU-T OSI 分层设计

本文提出面向源信道分离的 Token 通信方案,利用预训练离散分词器实现灵活适配。

方法详解

整体框架

系统包含三个主要组件: 1. Token-based 文本意图引导信源编码器: 多模态用户意图 token 提取 + 语义感知多速率比特编码 2. Token-based 信源解码器: 差分重建 + 解码 3. UEP 信源信道编码/解码自适应: 联合比特精度和 MCS 选择

关键设计

1. 多模态用户意图 Token 提取

文本条件热力图生成: - 利用 CLIP 视觉-语言模型计算首帧每个 patch 与用户文本意图的余弦相似度热力图 - 归一化后以阈值 ℓ=0.6 二值化,标识用户意图区域 - 可选形态学膨胀扩大高响应区域,上采样到像素分辨率

动态光流传播: - 首帧语义掩码通过前向光流 F_{k→k+1} 逐帧传播:M_{k+1} = Warp(M_k, F_{k→k+1}) - 使用双线性采样处理亚像素坐标

离散 Token 映射: - 将像素级掩码通过时空池化映射到 token 网格 (h, w, t) - 以阈值 θ=0.3 确定 token 级二值掩码 S_τ - 分出意图 token 集合 S 和非意图 token 集合 N

2. 语义感知多速率比特编码

意图 token — 全精度编码: - 使用完整 codebook 精度 B_full = ⌈log₂N⌉ 位编码(如 N=64000 时 B_full=16)

非意图 token — 差分减精度编码: - 相对参考帧(首帧)做差分:x = Z_τ[i,j] - Z_ref[i,j] - B_Δ 位有符号量化器表示 [-Q, Q] 范围内的整数,Q = 2^(B_Δ-1) - 1 - 对称裁剪 + Q 偏移后以 B_Δ 位传输

BPP 分析: BPP = (1/(3·d_t·d_s²)) · (ρ_s · B_full + (1-ρ_s) · B_Δ)

3. UEP 联合失真-延迟最小化 - 意图 token 候选集:K_s = {QPSK 1/3, QPSK 1/2} - 非意图 token 联合选择 MCS 和 B_Δ:B_Δ ∈ {10,11,12,13,14,15,16},MCS ∈ {QPSK 1/3, QPSK 1/2, 16QAM 1/2, 16QAM 3/4} - Token 打包成 PDU,量化失真用指数模型 d_k = α·exp(-β·B_k) - 优化问题:min w_D · D_norm + w_T · T_norm,约束资源预算 R_max,MILP 求解

损失函数 / 训练策略

本文为系统设计工作,不涉及端到端训练。使用预训练的 Cosmos DV-8×16×16 / DV-4×8×8 作为视频分词器,预训练 CLIP 作为视觉-语言模型。优化参数通过经验曲线拟合(α_c=1.0, β_c=0.2)和均衡权重设定(w_D=0.5, w_T=0.5)。

实验关键数据

主实验

UVG 数据集基线对比 (128×128, 30帧):

视频 VideoTokenCom PSNR VC-DM PSNR H.265 PSNR VideoTokenCom LPIPS VC-DM LPIPS H.265 LPIPS VideoTokenCom FVD VC-DM FVD H.265 FVD
Average 26.36 24.47 23.28 0.095 0.104 0.184 1289 2087 4010
  • 本方法 BPP=0.013,基线 BPP=0.02,更低码率下性能更优
  • FVD 平均降低 798(vs VC-DM)和 2721(vs H.265)

信道自适应对比(MCL-JCV + UVG,不同 SNR): - 在所有 SNR 级别上,LPIPS、CLIP 相似度、FVD 均一致优于 H.265 - 在 SNR=6dB 时,FVD 降低近 1500 - H.265 在极低 SNR 下频繁解码失败(<85% 帧可重建),Video TokenCom 全 SNR 稳定

消融实验

  • 对比有/无文本意图引导:在低 B_Δ 下,意图感知方案在 CLIP、LPIPS、FVD 语义指标上有显著优势
  • 7 种 B_Δ(10-16)全面测试,B_Δ 越高性能越好,但全精度时有无意图差异收敛
  • 语义掩码传输开销约 1.7%(B_full=16, B_Δ=11, ρ_s=0.7 时)

关键发现

  • 文本意图引导在比特率受限场景下价值最大——保护了用户关注区域的语义质量
  • 不同文本意图(如 "woman hitting phone" vs "sky")产生相似码率但截然不同的质量分布
  • 框架可通过切换分词器(DV-4×8×8 → DV-8×16×16)实现粗粒度码率适配,再通过意图感知实现细粒度适配
  • 计算延迟:全精度 65ms/帧,其他精度 122ms/帧(单 A6000 GPU)

亮点与洞察

  1. Token 域通信新范式: 不同于传统像素域或特征域,直接在离散 token 索引上操作,天然支持数字传输和低比特表示
  2. 语义与信号层的桥接: 通过 CLIP 热力图将自然语言意图映射到 token 网格的语义重要性,实现了高层语义到物理层资源分配的端到端映射
  3. 差分编码的巧妙应用: 非意图区域使用参考帧差分 + 缩减 codebook,同时保持了与全精度的向后兼容
  4. 源信道分离设计: 不同于 DJSCC 的端到端方案,本方法兼容 OSI 分层架构,具有实际部署潜力

局限性 / 可改进方向

  1. 光流传播可能在快速运动或遮挡场景下失效,导致语义掩码不准确
  2. 仅对首帧做 CLIP 热力图,长视频中意图焦点可能随时间变化
  3. 差分编码以首帧为参考,对动态内容变化大的长序列效果可能衰减
  4. MILP 优化虽然变量少,但在实时系统中的延迟开销需进一步验证
  5. 缺乏与 DJSCC 等端到端语义通信方案的直接对比
  6. 分词器固定为 Cosmos 预训练模型,未探索针对通信任务微调分词器

相关工作与启发

  • TokenCom 框架首次在 [Qiao et al., 2025] 中提出,本文是其在视频领域的重要扩展
  • 与 TokenCom-UEP [Zhang et al., 2025] 的区别在于引入了视频时序建模和文本意图
  • 用户意图驱动的语义通信 [Liu et al., 2026] 启发了本文的差异化处理思路
  • 未来方向:与 token 域多址接入 (ToDMA)、token 包聚合等技术的集成

评分

  • 新颖性: ⭐⭐⭐⭐ 文本意图+视频 token 通信的组合新颖,但核心思想是已有 TokenCom 的自然扩展
  • 实验充分度: ⭐⭐⭐⭐ 多数据集、多 SNR 水平、消融全面,但缺乏与 DJSCC 的对比
  • 写作质量: ⭐⭐⭐ 公式密集,信号处理术语较重,对 CV/NLP 读者不友好
  • 价值: ⭐⭐⭐⭐ 为 AI-native 无线网络中的视频传输提供了实用框架