《MDDM: Practical Message-Driven Generative Image Steganography Based on Diffusion Models》ICML 2025

04_yummy

已于 2025-08-27 14:32:42 修改

阅读量962

点赞数 18

CC 4.0 BY-SA版权

文章标签：人工智能深度学习

于 2025-08-27 09:50:09 首次发布

本文链接：https://blog.csdn.net/Echo1104_yummy/article/details/150584492

论文：MDDM: Practical Message-Driven Generative Image Steganography Based on Diffusion Models | OpenReview

2.2.1 将二进制消息映射为服从标准正态分布的噪声

3.1 Cardan Grille 隐私安全

5.1 密钥更 “聪明”：用 “卡丹格栅” 替代传统密钥

5.2 生成更灵活：同一条消息能变着花样生成图像

5.3 通信更方便：不用 “面对面” 也能传消息

5.4 抗干扰能力更强：图片有点 “小损伤” 也不影响

六、其他

为解决生成式图像隐写术方案在提取精度、可控性和实用性方面面临的挑战，本文提出了一种基于扩散模型的实用型消息驱动生成式图像隐写术框架，称为 MDDM。具体来说，就是利用卡丹格板（Cardan Grille）将消息编码到高斯噪声中，该高斯噪声作为图像生成的初始输入，使用户能够通过可控提示词生成多样化的图像，且无需额外训练。在信息提取过程中，接收者只需使用预先共享的卡丹格板进行精确的扩散反转，即可恢复消息，无需图像生成的种子或提示词。

卡丹格板（Cardan Grille）是一种用于隐藏信息的工具，在密码学和隐写术领域有着重要应用。通常作为发送方与接收方之间的共享密钥用于信息的隐藏与提取，具有较强的安全性。

一、背景介绍

实现可证明安全的图像隐写术是一项重大挑战。传统方法通常通过修改载体图像来嵌入秘密数据。这些方法往往会留下痕迹，容易被隐写分析工具检测到，因此被认为是经验上安全的，而非可证明安全的。

近年来，图像隐写术的发展重点集中在提高隐蔽性、增强安全性和提升抗攻击性上。下面介绍一下图像隐写术的几个方面。（具体没有深入了解）

	分类	缺陷
基于载体图像的隐写术：将信息直接嵌入图像中	最古老且经典的嵌入型隐写方案是 LSB，它将信息嵌入图像像素的最低有效位。	往往会在图像上留下修改痕迹，仍可能被检测到
	为减少嵌入导致的图像失真，提出了自适应方法，包括人工设计的方法和基于神经网络的技术。
	还有基于频域的隐写方法，如 DctDwt 和 DctDwtSvd。
	基于深度学习的隐写术
生成式图像隐写术（借助生成模型，通常分为三大类）	基于流模型的方法	在计算效率、实际部署以及隐写效果方面仍面临挑战
	基于生成对抗网络（GAN）的方法
	基于扩散模型的方法

与基于统计特征的隐写分析方法相比，生成式图像隐写术主要基于生成对抗网络（GAN）、基于流的模型（如 Glow）以及最新的扩散模型（DM），但在实际应用中仍存在局限性。例如，基于 GAN 的方法需要大量训练，成本高昂且难以控制；基于流的方法在训练和推理过程中需要大量计算资源，尤其是在高分辨率图像生成任务中，基于扩散模型的方法也存在不足。

基于扩散模型的隐写方法	本质	存在的问题
无种子型	对图像进行修改	导致生成的隐写图像与原始图像保持相似性，从而降低了图像生成的多样性。
种子依赖型	需要完整重现生成过程	在一次性种子交换后，发送方在生成任意图像时会受到限制，这可能需要额外的通信。

二、MDDM框架

为解决现有基于扩散模型隐写技术的问题，文章提出了 MDDM，这是一种实用的、消息驱动的生成式图像隐写框架。具体流程如下：

发送方：生成一个卡丹格板，并通过精心设计的编码策略，将均匀分布的二进制消息映射到符合标准正态分布的噪声中。然后，发送方以该噪声为起点，利用 DDIM和条件文本生成隐写图像。（在此过程中，发送方可在保持消息和卡丹格板不变的情况下生成不同的噪声，并使用不同的提示词生成多种图像供选择。由于生成过程与正常图像生成完全一致，因此隐写图像与普通图像无法区分。）

接收方：对隐写图像执行精确的扩散反转以重构噪声，并使用预先共享的卡丹格板获取隐藏消息，无需知晓图像生成的种子或提示词。

2.1 MDDM 的基本原理

2.1.1 DDIM确定性采样

采样公式如下：

$\begin{aligned} x_{t-1}= & \sqrt{\alpha_{t-1}}\left(\frac{x_{t}-\sqrt{1-\alpha_{t}} \epsilon_{\theta}^{(t)}\left(x_{t}\right)}{\sqrt{\alpha_{t}}}\right) \\ & +\sqrt{1-\alpha_{t-1}-\sigma_{t}^{2}} \cdot \epsilon_{\theta}^{(t)}\left(x_{t}\right) \\ & +\sigma_{t} \epsilon_{t} . \end{aligned}$

当 $\sigma_{t}=0$ 时，公式中的随机性消失，该过程变为确定性的。初始噪声存在潜在的一一对应关系。

在隐写术任务中，确定性采样的核心目标是确保信息隐藏与提取的可靠性，即通过建立初始噪声与生成图像的一一对应关系，让接收方能准确恢复秘密信息。尽管这种确定性可能在一定程度上限制了单组参数下生成图像的随机性，但实际应用中可通过调整初始噪声的多样性来弥补 —— 不同的初始噪声仍能生成具有差异的图像，从而在保障隐写功能的同时，尽可能维持生成结果的多样性，实现安全性、准确性与多样性的平衡。

2.1.2 无损精确扩散反转

这步骤的目标是实现精确且可靠的反转，依赖与第一步所提到的初始噪声存在潜在的一一对应关系。

2.1.3 生成图像与初始噪声的相关性

DDIM 采样是一个确定性过程，这意味着在相同条件下，两个存在细微差异的输入会遵循几乎完全相同的采样轨迹，这也使得两个采样过程所得到的复原图像几乎是没什么差别的。——因此，这就在初始噪声输入的相似性与其生成图像的相似性之间建立了关联。

2.1.4 信息损失在可接受范围内

研究结果表明，无论是基于潜在扩散DDPM还是像素空间扩散SD，原始噪声与反转噪声之间的绝对差值均小于随机噪声的差值，且大多数差值保持在 1.0 以内——这表明扩散反转过程中的信息损失处于可接受水平。

2.2 MDDM的框架

发送方和接收方首先共享一个随机生成的卡丹格板，规定了隐藏消息的位置，但并不包含消息。
通过编码策略，二进制消息被映射为服从标准正态分布的噪声。
预训练的扩散模型生成图像——发送。
接收方利用获取到的图像进行精确扩散反转，重建噪声，并通过预先共享的卡丹格栅恢复隐藏的二进制数据。

MDDM 的优势在于，发送方可在不改变秘密信息和卡丹格板的情况下生成多张图像，并选择信息提取精度高、质量好的图像进行传输。

2.2.1 将二进制消息映射为服从标准正态分布的噪声

步骤二这边来理解看看，怎么将二进制消息映射为服从标准正态分布的噪声：

首先展示发送方与接收方共享随机生成的 Cardan Grille（相当于密钥），该 Grille 的核心作用是规定噪声中哪些位置用于承载二进制消息（上图蓝色网格区域代表卡丹格栅），哪些位置用 “无意义的随机正态噪声” 填充。
二进制消息的 “离散 - 连续” 转换（适配正态分布）：“消息位”，逐一填入对应区间的数值；“填充位” 则直接采样标准正态分布的随机值。
噪声的 “完整性校验”，确保映射后的噪声不会偏离标准正态分布，否则输入扩散模型会生成 “异常图像”，直接暴露隐写信息。

2.2.2 高鲁棒性区域的决定

需筛选出受反转误差影响小、能稳定承载信息的 “高鲁棒性区域”。由于扩散模型在精确反转前后，噪声数值的绝对差值通常处于 - 1 至 1 的范围（原文图四），这意味着若将信息嵌入到噪声数值易因反转产生 ±1 以内波动的区域，可能因误差导致信息提取错误。所以要确定这样的高鲁棒性区域。

高鲁棒性区域不是 “随便选的区间”，而是通过标准正态分布的累积分布函数 $\Phi(x)$ 计算过的。如，计算 $(1,+\infty)$ 区间的噪声占比为 15.87%，则 $(-\infty,-1)$ 区间也占 15.87%，两者合计约 31.74%。这个占比既保证了 “有足够的噪声数据承载信息”（不会因区间太小导致信息嵌不进去），又确保了 “每个承载信息的噪声都足够稳定”（不会因误差丢失信息）—— 这就是 “高鲁棒性” 的本质：在 “能嵌得下” 和 “能提得准” 之间找到最优解。

高鲁棒性区域的数据量 $L_{max}$ 可通过以下公式计算：
$L_{max}=2× (1-\Phi (1)) × 1 × c × h × w \quad (5)$

当当确定待传输的秘密消息m的长度l小于高鲁棒性区域最大数据量 $L_{max}$ 时，可以重新确定这个高鲁棒区域，高鲁棒性区域调整为 $(-\infty,-k)$ 和 $(k,+\infty)$ ，这边k的确定： $k=\Phi^{-1}\left(1-\frac{l}{2 × 1 × c × h × w}\right)$

至此，准备步骤已全部完成。

2.2.3 填充数据

接下来，将在之前确定的卡丹格栅位置CG处，通过对标准正态分布进行截断采样来生成初始噪声。在每次迭代中，从标准正态分布 $N(0, I)$ 中抽取一批新样本，并根据截断阈值k将这些样本划分为三个样本池。对于秘密消息m的每一位：若该位为 0，则从 $(-\infty, -k)$ 样本池中随机采样；若该位为 1，则从 $(k, +\infty)$ 样本池中随机采样，随后将采样得到的数值插入到一维噪声向量中由CG指定的索引位置。

在填充完所有承载消息的位置后，对于噪声向量中剩余未使用的位置，通过每次新抽取的方式从截断区间 $(-k, k)$ 中采样数值，并将其填入这些未使用的位置。

2.2.4 消息提取

接收方首先从公共信道获取隐写图像，利用预先共享的卡丹格栅（Cardan Grille），接收方能够依次提取该噪声中对应位置的数值，并根据数值大于或小于零的情况推导得到二进制消息。

三、安全分析：可证明安全与密钥隐私

3.1 可证明安全

分布不可区分：嵌入消息的噪声通过截断采样保持标准正态分布的对称性与局部密度，隐写图像与正常生成图像的统计分布无差异；Cardan Grille 随机采样、消息位均匀分布，无结构性偏差，常规隐写分析工具无法检测。
绝对安全依据：基于相对熵理论，若载体数据（正常图像）与隐写数据（隐写图像）的相对熵 $D(P_C\|P_S)=0$ ，则系统绝对安全；MDDM 消息不嵌入像素、不改变噪声分布，满足该条件。

3.1 Cardan Grille 隐私安全

抗重复使用攻击：即使 Cardan Grille 重复使用（≤5 次），攻击者通过 “Union 策略”（合并多图高绝对值噪声位置）或 “Top 策略”（筛选高频位置）的位置命中率低，且无法破解索引顺序；
抗暴力破解：Cardan Grille 的顺序暴力破解复杂度为 $O(l!)$ （l为消息长度），随l指数增长，推荐消息长度≥50 位可进一步提升安全性。

四、核心实验结果

4.1 整体性能

提取精度：潜在扩散模型下，消息长度≤5199 位时精度接近 100%；即便消息长度增加，精度仍保持合理水平（如 62386 位时约 84.95%~95.19%）；
图像质量：默认引导尺度 7.5 时，生成图像质量高（FID 与 GAN-based 方法可比），且多样性强（同一消息 + CG 可生成无限张不同图像）。

4.2 鲁棒性

抗常见图像攻击（JPEG 95% 压缩、0.5 倍缩放、高斯模糊（半径 1.0）等），提取精度大多保持 99%~100%，可兼顾水印任务需求（如对比 DwtDct、RivaGAN 等方法，MDDM 容量更灵活且鲁棒性相当）。

4.3 抗隐写分析

用 ZhuNet、SiaStegNet 等 6 种先进隐写分析工具检测，检测率均约 50%，证明隐写图像与正常图像分布不可区分。

4.4 可控性与实用性

无需额外训练：直接复用预训练扩散模型；
生成灵活：发送方可生成多张图像筛选（选质量高、精度高的传输），接收方无需知道生成种子或提示词；
异步通信：仅需初始共享 Cardan Grille，后续可通过社交媒体等公开渠道传输，无需点对点额外通信。

五、与其他隐写术相比MDDM的优势

MDDM 作为一种基于扩散模型的生成式隐写技术，和同类技术相比，核心差异主要体现在密钥机制、生成灵活性、通信效率和鲁棒性这几个方面，用通俗的话来说就是：

5.1 密钥更 “聪明”：用 “卡丹格栅” 替代传统密钥

其他生成式隐写技术通常需要频繁交换或修改密钥（比如噪声种子）才能生成新的隐写图像。而 MDDM 用 “卡丹格栅” 作为核心密钥 —— 它像一把 “隐形尺子”，提前约定好图像中哪些位置用来藏消息。
只要发送方和接收方手里的 “尺子”（卡丹格栅）一致，哪怕生成的图像不同，也能准确提取消息。这种方式避免了频繁交换密钥的麻烦，更安全。

5.2 生成更灵活：同一条消息能变着花样生成图像

其他技术如果想换一张图像藏同样的消息，往往需要修改 “初始噪声种子”（相当于重新摇号），这会增加通信成本，还可能被攻击者察觉。
但 MDDM 不用改种子：保持消息和卡丹格栅不变，就能生成很多张不同的图像（比如不同角度的猫、不同风格的卧室），发送方可从中挑合适的用。这样既保证了消息不变，又能通过多样的图像迷惑攻击者。

5.3 通信更方便：不用 “面对面” 也能传消息

其他技术大多需要发送方和接收方 “点对点” 实时连接（比如直接发图片给对方），否则容易出错。
MDDM 则支持 “异步通信”：发送方可以把藏了消息的图像发到社交媒体（比如朋友圈），接收方啥时候看到了，下载下来用初始约定的 “卡丹格栅” 就能提取消息。后续要发新消息，双方按约定顺序换个 “小种子” 就行，不用额外沟通，很适合日常场景。

5.4 抗干扰能力更强：图片有点 “小损伤” 也不影响

生成的图像难免会被压缩（比如 JPEG 压缩）、轻微模糊，其他技术可能因此提取不出消息。
但 MDDM 因为依赖 “初始噪声和生成图像的关联性”，只要图像大体没变，哪怕有点小损伤，也能准确提取消息，实用性更高。

六、其他

文章里面没有提到要对初始的二进制消息做什么样的一个处理，当从后面的步骤来看，其实是要求消息 m 已经是加密后的、均匀分布的二进制流（即0和1出现的概率各为50%），所以这边应该是需要将消息输入 MDDM 之前，先使用其他加密方法（如 AES、RSA 或流密码）对原始消息进行加密，使其变为随机-looking 的二进制串。——所以通信双方在最开始的时候除了要共享卡丹格栅的随机生成种子，还需要共享对消息m初始加密的密钥。

文章中提及MDDM方案可以生成的图像是多样的？

其他隐写术需要频繁交换或修改密钥，核心原因在于它们的密钥设计往往与图像生成参数（比如噪声种子）深度绑定，且缺乏像 MDDM 中 “卡丹格栅” 这样固定、统一的隐写位置约定。这类技术若固定密钥，会导致两个关键问题：一是生成的隐写图像载体风格单一，容易被潜在攻击者察觉异常；二是隐写位置或编码逻辑无法适配不同图像的生成结果，必须通过修改密钥来匹配新的生成参数。比如 Peng 等人（2023）、Jois 等人（2024）的方法，若要生成新的隐写图像，需先修改噪声种子，但修改种子后必须同步更新密钥 —— 否则接收方无法用原密钥匹配新图像的隐写逻辑，这就导致了频繁的密钥交换，不仅增加了通信开销，还可能因多次交互带来密钥泄露的风险。