Video TokenCom: Textual Intent-guided Multi-Rate Video Token Communications with UEP-based Adaptive Source–Channel Coding¶

日期: 2026-03-02
arXiv: 2603.02470
代码: 无
领域: multimodal_vlm
关键词: token communications, video semantic communication, unequal error protection, multi-rate coding, vision-language model

一句话总结¶

Video TokenCom 提出了文本意图引导的多速率视频 Token 通信框架，通过 CLIP 热力图+光流传播识别用户意图区域、为意图/非意图 token 分配不同比特精度的多速率编码、以及 UEP 自适应信源-信道联合编码，在超低 BPP 下以 0.013 BPP 在 PSNR（26.36 vs 23.28）和 FVD（1289 vs 4010）上全面超越 H.265。

研究背景与动机¶

Token 通信（TokenCom）是一种新范式，以离散 token 作为通信和计算的统一单元，在未来无线网络中实现高效的语义和目标导向信息交换。然而，视频 TokenCom 尚未被充分研究。

现有视频语义通信系统的核心矛盾： 1. 大多数系统基于连续特征表示或任务特定潜码，不利用离散视频 token 的语义结构进行高效通信 2. 现有框架未利用 token 级语义结构来优化信源和信道编码速率的分配 3. 端到端学习或 DJSCC 方案缺乏在不同信道/网络条件下的灵活性，且不兼容 ITU-T OSI 分层设计

本文提出面向源信道分离的 Token 通信方案，利用预训练离散分词器实现灵活适配。

方法详解¶

整体框架¶

系统包含三个主要组件： 1. Token-based 文本意图引导信源编码器: 多模态用户意图 token 提取 + 语义感知多速率比特编码 2. Token-based 信源解码器: 差分重建 + 解码 3. UEP 信源信道编码/解码自适应: 联合比特精度和 MCS 选择

关键设计¶

1. 多模态用户意图 Token 提取

文本条件热力图生成: - 利用 CLIP 视觉-语言模型计算首帧每个 patch 与用户文本意图的余弦相似度热力图 - 归一化后以阈值 ℓ=0.6 二值化，标识用户意图区域 - 可选形态学膨胀扩大高响应区域，上采样到像素分辨率

动态光流传播: - 首帧语义掩码通过前向光流 F_{k→k+1} 逐帧传播：M_{k+1} = Warp(M_k, F_{k→k+1}) - 使用双线性采样处理亚像素坐标

离散 Token 映射: - 将像素级掩码通过时空池化映射到 token 网格 (h, w, t) - 以阈值 θ=0.3 确定 token 级二值掩码 S_τ - 分出意图 token 集合 S 和非意图 token 集合 N

2. 语义感知多速率比特编码

意图 token — 全精度编码: - 使用完整 codebook 精度 B_full = ⌈log₂N⌉ 位编码（如 N=64000 时 B_full=16）

非意图 token — 差分减精度编码: - 相对参考帧（首帧）做差分：x = Z_τ[i,j] - Z_ref[i,j] - B_Δ 位有符号量化器表示 [-Q, Q] 范围内的整数，Q = 2^(B_Δ-1) - 1 - 对称裁剪 + Q 偏移后以 B_Δ 位传输

BPP 分析: BPP = (1/(3·d_t·d_s²)) · (ρ_s · B_full + (1-ρ_s) · B_Δ)

3. UEP 联合失真-延迟最小化 - 意图 token 候选集：K_s = {QPSK 1/3, QPSK 1/2} - 非意图 token 联合选择 MCS 和 B_Δ：B_Δ ∈ {10,11,12,13,14,15,16}，MCS ∈ {QPSK 1/3, QPSK 1/2, 16QAM 1/2, 16QAM 3/4} - Token 打包成 PDU，量化失真用指数模型 d_k = α·exp(-β·B_k) - 优化问题：min w_D · D_norm + w_T · T_norm，约束资源预算 R_max，MILP 求解

损失函数 / 训练策略¶

本文为系统设计工作，不涉及端到端训练。使用预训练的 Cosmos DV-8×16×16 / DV-4×8×8 作为视频分词器，预训练 CLIP 作为视觉-语言模型。优化参数通过经验曲线拟合（α_c=1.0, β_c=0.2）和均衡权重设定（w_D=0.5, w_T=0.5）。

实验关键数据¶

主实验¶

UVG 数据集基线对比 (128×128, 30帧):

视频	VideoTokenCom PSNR	VC-DM PSNR	H.265 PSNR	VideoTokenCom LPIPS	VC-DM LPIPS	H.265 LPIPS	VideoTokenCom FVD	VC-DM FVD	H.265 FVD
Average	26.36	24.47	23.28	0.095	0.104	0.184	1289	2087	4010

本方法 BPP=0.013，基线 BPP=0.02，更低码率下性能更优
FVD 平均降低 798（vs VC-DM）和 2721（vs H.265）

信道自适应对比（MCL-JCV + UVG，不同 SNR）: - 在所有 SNR 级别上，LPIPS、CLIP 相似度、FVD 均一致优于 H.265 - 在 SNR=6dB 时，FVD 降低近 1500 - H.265 在极低 SNR 下频繁解码失败（<85% 帧可重建），Video TokenCom 全 SNR 稳定

消融实验¶

对比有/无文本意图引导：在低 B_Δ 下，意图感知方案在 CLIP、LPIPS、FVD 语义指标上有显著优势
7 种 B_Δ（10-16）全面测试，B_Δ 越高性能越好，但全精度时有无意图差异收敛
语义掩码传输开销约 1.7%（B_full=16, B_Δ=11, ρ_s=0.7 时）

关键发现¶

文本意图引导在比特率受限场景下价值最大——保护了用户关注区域的语义质量
不同文本意图（如 "woman hitting phone" vs "sky"）产生相似码率但截然不同的质量分布
框架可通过切换分词器（DV-4×8×8 → DV-8×16×16）实现粗粒度码率适配，再通过意图感知实现细粒度适配
计算延迟：全精度 65ms/帧，其他精度 122ms/帧（单 A6000 GPU）

亮点与洞察¶

Token 域通信新范式: 不同于传统像素域或特征域，直接在离散 token 索引上操作，天然支持数字传输和低比特表示
语义与信号层的桥接: 通过 CLIP 热力图将自然语言意图映射到 token 网格的语义重要性，实现了高层语义到物理层资源分配的端到端映射
差分编码的巧妙应用: 非意图区域使用参考帧差分 + 缩减 codebook，同时保持了与全精度的向后兼容
源信道分离设计: 不同于 DJSCC 的端到端方案，本方法兼容 OSI 分层架构，具有实际部署潜力

局限性 / 可改进方向¶

光流传播可能在快速运动或遮挡场景下失效，导致语义掩码不准确
仅对首帧做 CLIP 热力图，长视频中意图焦点可能随时间变化
差分编码以首帧为参考，对动态内容变化大的长序列效果可能衰减
MILP 优化虽然变量少，但在实时系统中的延迟开销需进一步验证
缺乏与 DJSCC 等端到端语义通信方案的直接对比
分词器固定为 Cosmos 预训练模型，未探索针对通信任务微调分词器

评分¶

新颖性: ⭐⭐⭐⭐ 文本意图+视频 token 通信的组合新颖，但核心思想是已有 TokenCom 的自然扩展
实验充分度: ⭐⭐⭐⭐ 多数据集、多 SNR 水平、消融全面，但缺乏与 DJSCC 的对比
写作质量: ⭐⭐⭐ 公式密集，信号处理术语较重，对 CV/NLP 读者不友好
价值: ⭐⭐⭐⭐ 为 AI-native 无线网络中的视频传输提供了实用框架