《OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep ImageWatermarking》CVPR2025

论文:CVPR 2025 Open Access Repository

代码:aipi-inc/0615github-OmniGuard: [CVPR 2025] OmniGuard: Hybrid Manipulation Localization via Augmented Versatile Deep Image Watermarking


目录

一、研究背景与挑战

1.1 图像篡改检测与定位

1.2 以 EditGuard 为代表的现有方法技术框架

二、核心方案:OmniGuard 框架

2.1 混合取证框架,支持灵活选择定位水印

2.1.1 核心设计:三大关键组件与协同逻辑

2.1.2 关键流程:从输入到篡改掩码的 4 步操作

2.1.3 数学表达:核心过程的公式化总结

2.2 自适应定位水印变换:提升嵌入灵活性

2.2.1 核心机制:“原始图像引导的自适应变换”

2.3 轻量级 AIGC 编辑模拟层,以增强在全局和局部编辑场景下的鲁棒性

2.3.1 核心设计:“轻量级” 与 “精准模拟” 的平衡

2.4 三阶段训练

三、实验结果与性能优势

四、局限性与未来方向


一、研究背景与挑战

随着生成式 AI(AIGC)在图像编辑领域的广泛应用,数字内容的真实性与完整性面临严峻挑战。现有多功能水印技术存在三大核心问题:

  1. 保真度与定位精度的权衡:为保证篡改定位准确性,需牺牲水印图像的视觉质量;
  2. 灵活性不足:定位水印需固定,无法适配不同图像内容;
  3. 鲁棒性薄弱:在亮度调整、JPEG 压缩等退化条件下,定位水印易失效;且版权水印易被 AIGC 全局编辑擦除。

1.1 图像篡改检测与定位

被动方案被动图像篡改检测与定位网络主要专注于识别异常区域,例如伪影、噪声和分辨率不一致等问题。
主动方案主动篡改检测与定位指在图像被篡改前就将信息嵌入原始图像中,以辅助网络检测篡改行为或进行溯源。

1.2 以 EditGuard 为代表的现有方法技术框架

  1. 嵌入阶段:将二维定位水印W_{loc}和一维版权水印w_{cop}通过 “图像 - 比特联合嵌入网络” 串行嵌入原始图像I_{ori},生成容器图像I_{con},且两种水印可共存且互不干扰;
  2. 解码阶段:若接收到的图像I_{rec}经历了 AIGC 编辑\mathcal{E}_{edit}和退化\mathcal{D}_{deg},通过 “图像 - 比特解码网络” 并行提取恢复的定位水印\hat{W}_{loc}和版权水印\hat{w}_{cop}
  3. 篡改定位:通过 “像素级残差减法” 对比W_{loc}\hat{W}_{loc},经阈值判决生成篡改掩码\hat{M}_{loc},以此标记篡改区域。

但现有方法技术框架存在三个共性缺陷(原文):‘

  1. 保真度与检测精度相互制约:由于篡改检测精度高度依赖\hat{W}_{loc}的恢复精度,需优先优化水印恢复效果,导致容器图像的视觉质量(保真度)被迫妥协;
  2. 非盲提取与固定水印的局限性:提取\hat{M}_{loc}需预先知晓原始定位水印(非盲提取),因此通常采用固定W_{loc}以简化编解码协同,但固定水印无法适配所有图像,难以实现最优保真度;
  3. 抗退化鲁棒性不足:若图像经历严重退化,\hat{W}_{loc}的未篡改区域可能产生伪影,这些伪影会被残差减法误判为篡改区域,导致检测鲁棒性下降。

对上面的这个现有技术的总结应该就是这篇文章提出的动机。——OmniGuard 是一种 “混合取证框架”,其最关键的设计是将两种技术模块结合:

  • 主动双水印网络:即通过预先嵌入两种水印(如定位水印、版权水印)实现主动篡改检测与版权保护的模块;
  • 被动式深度退化感知篡改提取器:即无需预先嵌入信息,通过感知图像退化状态来提取篡改痕迹的被动检测模块。

二、核心方案:OmniGuard 框架

OmniGuard 提出 “主动嵌入 + 被动盲提取” 的混合取证框架,通过三大创新模块解决上述问题,实现鲁棒的版权保护与篡改定位。

首先采用自适应前向变换将原始图像I_{ori }嵌入到定位水印W_{loc }中,使变换后的水印\tilde{W}_{loc }获得具有内容感知性的合理纹理,这已被证明有助于实现有效的隐藏。随后,将定位标记\overline{W}_{loc }和版权水印w_{cop }嵌入到I_{ori }中,生成容器图像I_{con }

类似的,从I_{rec }中提取\hat{w}_{cop},并通过定位水印解码模块和逆变换得到伪影图\hat{W}_{loc }。最后,将伪影图和篡改后的图像I_{rec }共同输入到深度篡改提取器中,生成篡改掩码\hat{M}_{loc}

2.1 混合取证框架,支持灵活选择定位水印

这是 OmniGuard 的核心创新。传统方法需在解码时预先知晓预定义的定位水印才能生成篡改掩码,而该混合框架无需依赖这一前提 —— 仅通过重建的定位水印即可输出篡改掩码,实现了编解码端的解耦

也就是通过得到的伪影图,就能知道图像是否被修改,以及哪里被修改。但定位水印解码得到的伪影图\hat{W}_{loc}在严重退化(如强噪声、高压缩)下重建效果差,可能导致 “将退化伪影误判为篡改” 或 “漏检真实篡改”。因此,“被动式退化感知篡改提取器”模块设计的核心目标是:不依赖原始定位水印信息,通过结合篡改后图像自身特征与退化感知能力,辅助修正伪影图的定位偏差,提升复杂场景下的篡改检测鲁棒性

2.1.1 核心设计:三大关键组件与协同逻辑

模块的核心创新在于引入 “双输入 + 可学习退化查询” 机制,具体由三个关键部分构成:

双输入源:互补提供篡改线索

  1. 主输入:定位水印解码得到的伪影图\hat{W}_{loc}(提供主动水印捕捉的篡改痕迹初步线索);
  2. 辅助输入:篡改后原始图像I_{rec}(提供图像自身的视觉特征,用于验证伪影图中的 “异常区域是否为真篡改”)。

可学习退化查询Q_{deg}:实现退化感知

  1. 受 Q-Former 启发,通过\{\hat{W}_{loc}, I_{rec}, M_{gt}\}(伪影图、篡改图、真实篡改掩码)样本对监督训练,构建退化表征空间Q_{deg}
  2. 功能:根据I_{rec}的内容自适应识别其经历的退化类型(如 JPEG 压缩、颜色抖动),避免将 “退化伪影” 误判为 “篡改痕迹”。

基于窗口的 Transformer 骨干:精准提取篡改特征

  1. 采用窗口 Transformer(而非传统 CNN),可高效捕捉图像的长距离依赖关系(如篡改区域与周围正常区域的纹理不连续性);
  2. 结合Swin-ViT 骨干网络特征金字塔网络(FPN),提取多尺度视觉特征(兼顾篡改区域的细节与全局上下文),为精准定位提供支撑。
2.1.2 关键流程:从输入到篡改掩码的 4 步操作

模块的具体工作流程可拆解为以下步骤,最终输出精准的篡改掩码\hat{M}_{loc}

预处理:图像→Token 转换

\hat{W}_{loc}I_{rec}填充至固定分辨率,通过Patch 嵌入(将图像分割为小块并线性变换)转换为两组图像令牌T_{loc}(伪影图 Token)和T_{rec}(篡改图 Token)。

退化特征提取:生成F_{rec}

T_{rec}依次执行全局平均池化(GAP)(压缩特征维度)→MLP 层(特征映射)→Sigmoid 算子(归一化),得到与Q_{deg}对齐的退化特征F_{rec}

特征融合:增强伪影图 Token

不采用复杂的交叉注意力,而是通过逐元素乘法F_{rec} \circledast Q_{deg}融合退化特征与查询向量,再经卷积层处理;

将融合结果与原始T_{loc}叠加(通过可学习权衡参数\beta控制权重),生成增强后的伪影图令牌\tilde{T}_{loc}(修正退化导致的伪影干扰)。

掩码生成:多尺度特征→篡改掩码

\tilde{T}_{loc}输入 Swin-ViT 提取多尺度特征,经特征金字塔网络融合后,由线性层构成的掩码解码器输出最终的篡改掩码\hat{M}_{loc}

2.1.3 数学表达:核心过程的公式化总结

模块的关键操作通过以下公式量化:

  1. 退化特征F_{rec}的生成:F_{rec}=Sigmoid\left(MLP\left(GAP\left(T_{rec}\right)\right)\right)
  2. 伪影图 Token 的增强:T_{loc}=T_{loc}+\beta \cdot Conv\left(F_{rec} \circledast Q_{deg}\right)
  3. 完整掩码提取过程:M_{loc }= TamperExtractor\left(\hat{W}_{loc } | I_{rec }, Q_{deg}\right)

2.2 自适应定位水印变换:提升嵌入灵活性

传统定位水印多采用 “固定图案嵌入” 方式,存在明显缺陷:为保证篡改检测精度,需增强水印的可识别性,但这会导致容器图像视觉质量(保真度)下降;若追求保真度,又会削弱水印的篡改感知能力。因此,设计 “自适应定位水印变换” 的核心目标是:让定位水印与原始图像内容深度适配,在 “不破坏图像视觉效果” 的前提下,确保水印能被有效提取并精准反映篡改痕迹

2.2.1 核心机制:“原始图像引导的自适应变换”

核心创新在于将原始图像I_{ori}作为 “变换指导”,通过特定算法调整定位水印W_{loc}的纹理特征,使其从 “独立于图像的固定图案” 转变为 “贴合图像内容的自适应标记”。

自适应前向变换:生成内容感知的水印\tilde{W}_{loc}

输入:原始图像I_{ori}和初始定位水印W_{loc}

核心操作:通过 “自适应前向变换” 算法,将I_{ori}的局部内容特征(如边缘轮廓、纹理密度、色彩分布)“注入” 到W_{loc}中;

输出:变换后的定位水印\tilde{W}_{loc}—— 该水印不再是统一的固定图案,而是在图像的 “平滑区域” 呈现低纹理水印、在 “细节区域” 呈现高纹理水印,实现与原始图像的 “视觉融合”。

后续嵌入:生成高保真容器图像I_{con}

经自适应变换后的定位水印(通常记为\overline{W}_{loc}),会与版权水印w_{cop}共同嵌入到原始图像中;

优势:由于\overline{W}_{loc}已适配图像内容,嵌入后不会产生肉眼可见的伪影,大幅提升了容器图像I_{con}的保真度;同时,水印与图像内容的 “深度绑定” 确保了 —— 一旦图像局部被篡改,该区域的水印必然同步损坏,为后续检测提供明确线索。

该过程为2.1节中被动提取器提供高质量的输入。

2.3 轻量级 AIGC 编辑模拟层,以增强在全局和局部编辑场景下的鲁棒性

轻量级 AIGC 编辑模拟层通过模拟 AIGC(生成式人工智能)对图像的编辑行为,增强系统对 “AI 篡改场景” 的适应能力,解决了传统版权水印对 AIGC 编辑抵抗能力不足的问题。——以低成本、高效率的方式模拟 AIGC 的典型编辑行为,用于模型训练或测试,让版权水印解码模块能 “提前适应” AI 篡改,提升鲁棒性

2.3.1 核心设计:“轻量级” 与 “精准模拟” 的平衡

该模块的核心是在 “模拟真实性” 与 “计算效率” 之间找到平衡,具体体现在两个关键点:

“轻量级” 架构:低资源消耗,易集成

不同于直接部署复杂的 AIGC 生成模型,这边的模拟器采用 “简化的深度学习模块设计”(如轻量化 CNN、小型 Transformer 组件);

优势:参数少、运行速度快、对硬件要求低,可轻松集成到 OmniGuard 的训练或推理流程中,避免增加系统整体复杂度。

“精准模拟 AIGC 典型编辑”:覆盖核心篡改场景

模拟器并非盲目复现所有 AIGC 功能,而是针对性模拟对版权水印威胁最大的两类 AIGC 编辑行为

  • 全局编辑:如 AI 风格迁移(将照片转为油画风格)、全局色彩调整(AI 自动调色)、分辨率缩放(AI 超分 / 降分)等影响整幅图像的操作;
  • 局部篡改:如 AI 局部内容替换(用 AI 生成的 “花朵” 替换原图的 “树木”)、AI 修复(用 AI 填补图像中的裁剪区域)、AI 擦除(用 AI 去除图像中的文字 / 标识)等仅影响部分区域的操作。

2.4 三阶段训练

  • 第一阶段:版权水印隐藏与解码网络训练:优化版权水印的 “隐蔽性” 与 “解码准确性”,确保水印嵌入后不破坏图像质量,且能稳定提取。

  • 第二阶段:主动式双水印网络联合训练:在冻结版权水印网络权重的基础上,优化定位水印的嵌入质量,同时保证容器图像的感知真实性。

  • 第三阶段:篡改提取器训练:优化2.1节的 “被动式退化感知篡改提取器”,提升其根据伪影图和篡改图像生成精准篡改掩码的能力。

三、实验结果与性能优势

实验基于 COCO、DIV2K 等数据集,对比了 SOTA 水印方法(如 EditGuard、Robust-Wide)和被动定位方法(如 MVSS-Net、IML-ViT),验证了 OmniGuard 在保真度、鲁棒性、灵活性上的全面优势。

3.1 篡改定位精度

  • 清洁条件下:F1 分数>0.96,AUC 接近 1,与 EditGuard 相当;
  • 退化条件下(JPEG 压缩、高斯噪声等):F1 分数比 EditGuard 高 20.7%,几乎无性能衰减(EditGuard 因依赖像素级残差对比,F1 下降约 0.2)。

3.2 图像保真度

  • 同时嵌入定位与版权水印时,PSNR 达 41.78 dB,比 EditGuard 高 4.25 dB,SSIM 达 0.989,视觉 artifacts 显著减少。

3.3 版权提取鲁棒性

  • AIGC 全局编辑(如 InstructPix2Pix):比特准确率>98%,仅比专门优化的 Robust-Wide 低 0.9%;
  • 局部篡改与传统退化:比特准确率接近 100%,全面超越 EditGuard、SepMark 等方法。

3.4 效率与灵活性

  • 训练单样本耗时 0.16s(Robust-Wide 为 3.675s),支持任意分辨率图像;
  • 可灵活选择定位水印(纯色、自然图像等),结合自适应变换进一步提升性能。

四、局限性与未来方向

  1. 局限性:极端退化条件下(超出隐写术鲁棒阈值),定位性能接近被动方法;超高分辨率图像(如全景图)中,分辨率缩放可能放大水印 artifacts。
  2. 未来方向:探索扩散模型增强隐写术鲁棒性;设计真正可扩展的任意分辨率水印方案;建立低质量图像取证排除标准。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值