跳转至

STEAD: Robust Provably Secure Linguistic Steganography with Diffusion Language Model

会议: NeurIPS 2025
arXiv: 2601.14778
代码: GitHub
领域: 图像分割
关键词: 语言隐写术, 扩散语言模型, 可证安全, 鲁棒性, 纠错编码

一句话总结

提出STEAD,首个基于扩散语言模型(DLM)的可证安全且鲁棒的语言隐写术方法,利用DLM并行去噪的特性找到"鲁棒位置"进行信息嵌入,结合重复纠错编码和邻域搜索策略,抵御token级别的替换、插入、删除攻击。

研究背景与动机

语言隐写术旨在将秘密信息伪装成自然语言文本进行隐蔽通信。近年来,基于自回归语言模型(ARM)的可证安全隐写术(PSLS)方法取得进展,通过确保隐写文本的分布与模型正常输出无法区分来保证安全性。

然而,ARM的顺序生成特性带来致命弱点:每个token的生成概率依赖于所有前序token,一旦某个隐写token被篡改,不仅影响当前位置的信息,还会因条件分布改变导致所有后续token的信息提取失效——即严重的错误传播问题。在审查严格的环境中,对手可能通过中间人攻击对公共渠道上的文本进行篡改,使现有方法完全失效。

扩散语言模型(DLM)的快速发展提供了解决契机。与ARM不同,DLM从完全噪声状态开始,以部分并行的方式动态细化整个序列。同一去噪步骤中被解码的多个位置是条件独立的,这为在单步内应用纠错编码创造了可能。然而直接将DLM用于隐写术并不能解决问题——跨步骤的分布依赖仍然存在,且DLM对位置偏移(插入/删除导致的token位置错位)更加敏感。

方法详解

整体框架

STEAD的核心思想是:利用DLM在单个去噪步骤中独立并行采样的特性,找到满足纠错条件的"鲁棒位置",在这些位置嵌入相同的信息(重复编码),并在提取阶段引入伪随机纠错和邻域搜索机制。整个嵌入过程不改变模型的预测概率分布,从而保证计算安全性。

关键设计

  1. 消息驱动的伪随机数采样(Message-driven PRN Sampling): 在正常DLM生成中,每个被解码的位置 \(j\) 使用伪随机数 \(\mathbf{r}_s^j\) 从分布 \(p_\theta(\cdot|\mathbf{x}_t)\) 中采样token。STEAD将此替换为消息驱动采样:给定 \(\ell\) 位消息 \(\mathbf{m}^j\),计算偏移后的伪随机数 \(\mathbf{r}_s^j(\mathbf{m}^j) = [\mathbf{r}_s^j + \frac{\text{dec}(\mathbf{m}^j)}{2^\ell}] \bmod 1\),用此偏移PRN采样token。提取时,接收方知道PRN和分布,可以通过反向映射恢复消息。该方案的安全性核心在于:偏移后的PRN仍然不可与原始PRN区分(由PRNG的密码学性质保证),因此隐写文本与正常文本在计算上不可区分。

  2. 鲁棒位置嵌入与重复纠错编码(Robust Position Embedding with Repetitive ECC): 在每个去噪步骤 \(t \to s\) 中,被解码的位置集合 \(\{j_1, \ldots, j_{N_{\text{unmask},s}}\}\) 是条件独立的。STEAD仅在满足两个条件的"鲁棒位置"嵌入信息:(1) 当前步骤解码位置数 \(N_{\text{unmask},s} \geq 3\);(2) 所有位置分布的最小熵足够嵌入至少1 bit。嵌入容量 \(\ell_s = \min_j \lfloor -\log_2(\max(p_\theta(\mathbf{x}_s^j|\mathbf{x}_t))) \rfloor\)。关键策略是所有鲁棒位置嵌入相同的消息(重复编码),只要被篡改的位置不超过半数,就能通过多数投票正确恢复。对于非鲁棒位置,使用共享的PRN作为伪随机纠错码。

  3. 邻域搜索提取策略(Neighborhood Search Extraction): 当发生token插入或删除时,隐写token会偏离其原始位置,导致整批鲁棒位置的信息提取失败。STEAD设计了 \(\mu\)-邻域搜索机制:当某个位置提取出错时,在 \(\mu\) 邻域内搜索正确的对应token。窗口大小动态调整:\(\mu = \max(2, |L - L'|)\),其中 \(L\) 为原始序列长度,\(L'\) 为篡改后长度。

损失函数 / 训练策略

STEAD是一个推理阶段的方法,不涉及模型训练。安全性通过严格的密码学证明保证(定理4.1):

安全性证明核心思路:通过反证法,假设存在PPT区分器 \(\mathcal{A}\) 能区分偏移后的PRN \(\mathbf{r}(\mathbf{m})\) 和原始PRN \(\mathbf{r}\),则可构造新算法 \(\mathcal{A}'\) 破解PRNG。因为常数偏移不改变均匀分布的性质(\([X + \frac{\text{dec}(\mathbf{m})}{2^\ell}] \bmod 1\) 仍均匀),所以 \(\mathcal{A}'\) 的区分优势等于 \(\mathcal{A}\) 的优势,与PRNG的安全性定义矛盾。

鲁棒性保证(定理4.3):当对手的篡改能力满足 \(2(\alpha + \beta + \gamma) < \min_s \frac{N_s}{L}\)\(\beta + \gamma < \frac{\mu}{L}\) 时,STEAD是鲁棒的。直觉上,只要每批鲁棒位置中被篡改的token不超过半数,重复编码的多数投票即可恢复正确信息。

实验关键数据

主实验

嵌入容量与开销对比:

方法 模型 Top-p 嵌入容量(bit/10³ token) 熵(bit/token) 编码速率(s/bit)
PSARS Qwen2 1.00 13.81 3.48 1.66
STEAD Dream 1.00 84.08 7.78 0.99
STEAD Dream 0.92 36.33 4.59 2.35
STEAD Dream 0.90 33.23 4.20 2.60

STEAD的嵌入容量比同类安全鲁棒方法PSARS高出约6倍。

消融实验

配置 替换鲁棒性(α=0.2) 插入鲁棒性(β*=10) 删除鲁棒性(γ*=10)
Baseline (无RPE/ECC/NSE) ≈ARM水平,极低 极低 极低
+RPE+ECC 显著提升 无改善 无改善
+RPE+ECC+NSE (完整STEAD) 显著提升 显著提升 显著提升

消融证实三个组件各有不可替代的贡献:RPE+ECC解决替换鲁棒性,NSE解决插入/删除鲁棒性。

关键发现

  • 隐写分析检测错误率 \(P_E\) 接近50%(FCN: 50.67%,R-BiLSTM-C: 49.00%),证明STEAD的安全性
  • 隐写文本的困惑度(PPL)与模型正常生成的文本一致,不影响文本质量
  • 在词级同义词替换攻击(更贴近现实的攻击)下,替换率0.1时非鲁棒方法几乎完全失效,STEAD维持>80%的正确提取率
  • 混合攻击(同时替换+插入+删除)下STEAD仍然优于所有对比方法

亮点与洞察

  • 首次将扩散语言模型引入可证安全隐写术,巧妙利用DLM并行解码的独特特性
  • 安全性证明简洁有力:偏移PRN不改变均匀分布性质,安全性规约到PRNG的计算安全性
  • 重复编码虽然简单,但配合DLM的并行独立采样恰好适配,体现了方法论的"简洁之美"
  • 邻域搜索策略的窗口自适应设计巧妙,能根据攻击强度动态调整

局限与展望

  • 重复编码牺牲了嵌入容量换取鲁棒性,更高效的纠错码(如Turbo码)可能提升容量
  • 实验仅基于Dream一个DLM模型,其他DLM(如MDLM、SEDD)的效果未知
  • 当前方法假设发送方和接收方共享完全相同的模型和参数,实际部署中的模型版本差异可能导致问题
  • 对于大规模篡改(如重写整段文字),任何token级鲁棒方法都无法应对

相关工作与启发

  • 与Meteor、Discop、SparSamp等ARM隐写方法相比,STEAD的核心优势在于鲁棒性而非仅安全性
  • DLM的并行采样特性为信息隐藏领域开辟了新范式,类似的思路可推广到图像/音频隐写
  • 消息驱动PRN采样的局部化错误检测特性值得深入研究

评分

  • 新颖性: ⭐⭐⭐⭐⭐ 首次在DLM上实现可证安全+鲁棒的隐写术,视角独特
  • 实验充分度: ⭐⭐⭐⭐ 安全性/鲁棒性/容量评测全面,消融完整,但仅测试一个DLM模型
  • 写作质量: ⭐⭐⭐⭐ 理论部分严谨,但符号较多,需要仔细阅读
  • 价值: ⭐⭐⭐⭐ 解决了隐写术的关键瓶颈问题,对隐蔽通信实际部署有重要意义

相关论文