跳转至

StegaVAR: Privacy-Preserving Video Action Recognition via Steganographic Domain Analysis

会议: AAAI2026
arXiv: 2512.12586
代码: 即将公开
领域: video_understanding
关键词: privacy-preserving, video action recognition, steganography, wavelet transform, cross-band attention

一句话总结

提出 StegaVAR 框架,首次将视频隐写术与动作识别结合,将隐私视频嵌入自然 cover 视频后直接在隐写域做分类,通过 STeP(secret 视频引导的时空特征学习)和 CroDA(跨频带差分注意力)实现接近原始视频的识别精度,同时提供优于匿名化方法的隐私保护。

研究背景与动机

视频动作识别(VAR)在监控等场景需要远程传输和云端分析,引发隐私泄露风险。现有隐私保护方法的两大根本缺陷:

Low Concealment:匿名化产生视觉失真(模糊/遮挡/下采样),反而成为"红旗",吸引攻击者针对性攻击

Spatiotemporal Disruption:匿名化过程不可逆地破坏像素数据和时空关系,导致 VAR 精度大幅下降

核心思路转变:从"编辑"视频(匿名化)转向"隐藏"视频(隐写术)——将隐私视频嵌入自然视频,传输过程中外观正常不引起怀疑,服务器端直接在隐写域分析而无需提取原视频。

方法详解

整体框架

  • Client 端:隐写网络 \(\mathcal{S}\)\(x_{secret}\) 嵌入 \(x_{cover}\) 生成 stego 视频 \(x_{stego}\)
  • Server 端:SDANet \(\mathcal{A}\) 直接对 \(x_{stego}\) 做动作识别,\(x_{secret}\) 全程不暴露

SDANet 设计

用 DWT 将 stego 视频分解为 4 个子带(LL/LH/HL/HH),分别用独立 ResNet3D-18 提取特征。

Secret Spatio-Temporal Promotion (STeP)

训练时利用 secret 视频的高频分量引导 stego 域特征学习: - 对 \(x_{secret}\) 做 4 级空间 DWT,再沿时间维度做 DWT,得到空间引导信号 \(G^s\) 和时间引导信号 \(G^t\) - Stego 子带特征经 DWC 模块对齐通道后,用 MSE loss 逼近 secret 的高频信号 - 推理时不需要 \(x_{secret}\)

Cross-Band Difference Attention (CroDA)

将问题视为信号去噪:LL 子带主要包含 cover 语义,高频子带包含 secret 信息 + 少量 cover 噪声。 - 计算高频子带与 LL 子带的 cross-attention 差分:\(x_{out}^b = x_{in}^b + \text{SA}(x_{in}^b) - \theta \cdot \text{CA}(x^{LL}, x_{in}^b)\) - DyTemP:基于 RoPE 加 learnable offset 的动态时序位置编码,统一不同子带的时间感知

总损失

\(\mathcal{L} = \mathcal{L}_{cls} + \alpha \cdot \mathcal{L}_{spatial} + \beta \cdot \mathcal{L}_{temporal}\),其中 \(\alpha=0.2\)\(\beta=0.3\)\(\theta=0.2\)

实验关键数据

VAR 精度与隐私保护对比

方法 UCF101 Top-1↑ HMDB51 Top-1↑ VISPR1 cMAP↓ VISPR1 F1↓
Raw data 71.98 44.25 64.41 0.555
BPAP (SOTA 匿名化) 62.11 34.52 57.10 0.450
StegaVAR (LF-VSN) 71.66 43.66 47.87 0.507
  • VAR 精度仅低于原始视频 0.32%/0.59%,远超 BPAP 约 9%
  • 隐私保护:cMAP 低于 BPAP 9.23 个百分点,即攻击者更难从 stego 视频推断隐私属性

SDANet vs 普通 ResNet3D

输入 ResNet3D SDANet
Raw data 62.33 71.98
Stego video (LF-VSN) 58.88 71.66

SDANet 凭借 DWT 高频分量引导在原始视频上也超越 ResNet3D 近 10%。

消融实验(UCF101)

配置 Top-1
Baseline(无 STeP/CroDA) 63.15
+ Spatial Promotion 66.29
+ Temporal Promotion 66.16
+ CroDA 65.81
Full model 71.66

子带分组策略:4 个子带独立处理最优(71.66%),全部合并仅 58.03%。

亮点

  • 范式创新:首次将隐写术用于隐私保护 VAR,从「编辑视频」转向「隐藏视频」,同时解决隐蔽性和时空完整性问题
  • STeP 跨域有效:DWT 高频引导机制不仅在隐写域有效,在原始视频上也显著提升 ResNet3D 性能(+9.65%),证明其作为通用增强的潜力
  • CroDA 差分去噪:利用 LL 子带近似 cover 语义再做减法,思路简洁有效
  • 多隐写模型兼容:Weng / HiNet / LF-VSN 三种隐写模型均有效,框架通用性强

局限与展望

  • 相比原始视频仍有微小精度损失,可探索更先进的可逆变换或自适应融合
  • 当前 cover 视频从 YouTube-VIS 随机采样,未考虑 cover-secret 语义匹配对性能的影响
  • 超参数 \(\theta\) 极为敏感(0.1→70.28, 0.2→71.66, 0.3→68.76),鲁棒性有待改善
  • 仅在 UCF101/HMDB51 上评测 VAR,未验证更大规模数据集(Kinetics)
  • 隐写网络冻结不训练,联合优化隐写+分析可能进一步提升性能

评分

  • 新颖性: ⭐⭐⭐⭐⭐ — 隐写术+动作识别的全新范式,思路转变有启发性
  • 实验充分度: ⭐⭐⭐⭐ — 多隐写模型×多数据集×详尽消融,但数据集规模偏小
  • 写作质量: ⭐⭐⭐⭐ — 动机论述清晰,方法图示直观,问题定义精准
  • 价值: ⭐⭐⭐⭐ — 为隐私保护视频分析提供全新方向,应用前景广阔

相关论文