大家读完觉得有帮助记得关注和点赞!!!
抽象
物联网 (IoT) 网络的快速扩展导致安全漏洞激增,凸显了对强大的异常检测和分类技术的迫切需求。在这项工作中,我们提出了一种利用 Mel 频率倒谱系数 (MFCC) 和 ResNet-18 来识别物联网网络流量异常的新方法,ResNet-18 是一种深度学习模型,以其在特征提取和基于图像的任务中的有效性而闻名。可学习的 MFCC 支持自适应频谱特征表示,比传统的固定 MFCC 更有效地捕获网络流量中固有的时间模式。我们证明了将原始信号转换为 MFCC 将数据映射到更高维的空间,增强了类的可分性并实现了更有效的多类分类。我们的方法将 MFCC 的优势与 ResNet-18 强大的特征提取功能相结合,为异常检测提供了一个强大的框架。所提出的模型在三个广泛使用的物联网入侵检测数据集上进行了评估:CICIoT2023、NSL-KDD 和 IoTID20。实验结果突出了将自适应信号处理技术与深度学习架构集成的潜力,以在异构 IoT 网络环境中实现稳健且可扩展的异常检测。
1介绍
近年来,传感器的普及和无线通信技术的进步推动了物联网 (IoT) 网络的快速扩展。这些网络已成为各种现代应用的基石,包括智能家居、医疗保健、智能城市、智能电网、智能交通系统和许多其他创新[1].物联网网络由配备各种传感器、执行器、存储组件以及计算和通信功能的互连设备组成。这些设备负责收集数据并通过传统互联网传输数据[2].在 IoT 网络中传输的数据通常带有敏感信息,例如政府记录或智能交通系统中的道路安全通知。因此,实施强大的安全措施来保护这些数据至关重要。
由于物联网网络的复杂性和动态性,其面临多种安全威胁。常见风险包括拒绝服务 (DoS) 和分布式拒绝服务 (DDoS) 攻击、权限提升、欺骗、侦察和信息盗窃[1,3,4].DoS 攻击旨在通过用过多流量淹没系统、网络或服务器来破坏对系统的访问,而 DDoS 攻击涉及来自多个设备的协调 DoS 攻击,通常通过僵尸网络进行。DDoS 攻击的分布式特性使其特别难以抵御。此外,网络入侵通常旨在未经授权获取敏感或机密数据。为了应对这些威胁,防火墙、加密、身份验证机制和防病毒软件通常用作第一道防线[5].
提高 IoT 网络安全性以抵御异常情况通常需要部署入侵检测系统 (IDS) 作为额外的保护层。IDS 实时监控网络流量,检测异常模式并识别未经授权的活动。根据部署情况,IDS 可分为基于主机和基于网络的系统,而其检测方法分为四类:基于签名、基于异常、基于规范和混合检测[6,7].但是,IDS 面临着重大挑战,例如检测准确性降低和难以识别新的攻击模式[8,9].为了解决这些限制,现代 IDS 集成了人工智能技术,包括机器学习 (ML) 和深度学习 (DL),这些技术可以准确预测网络流量是正常的还是攻击的迹象[10,11,12,13]. 本文介绍了一种新的异常检测框架,该框架将听觉启发的信号处理与先进的深度学习架构协同结合。我们的方法采用了 Mel 频率倒谱系数 (MFCC),这是一种经过验证的语音识别技术,用于捕获 IoT 网络流量中的判别性频谱时间模式。所提出的系统通过 Swin Transformer 架构处理这些 MFCC 特征,利用其分层注意力机制对本地信号特征和全局上下文关系进行建模。这种受生物启发的方法解决了 IoT 安全中的三个关键挑战:(1) 需要资源高效的特征提取,(2) 在嘈杂环境中进行稳健的模式识别,以及 (3) 实时处理高维网络流。
这项研究的主要贡献有四个方面:
- 将 ResNet-18 与可学习的 MFCC 参数集成,以实现联合优化。
- MFCC 的跨域适应,以实现 IoT 安全。
- 对基准数据集(CICIoT2023、NSL-KDD、IoTID20)进行综合评估,F1 分数高达 100
- 将 MFCC 确立为核方法的理论分析。
图 1:MFCC 功能。该图说明了从信号中提取 Mel 频率倒谱系数 (MFCC) 的完整过程。它首先将信号预处理为帧,然后应用快速傅里叶变换,将信号转换为频谱图。然后应用 Mel 滤波器组来提取频率特征,最后,执行离散余弦变换以生成 MFCC。
实验结果表明,所提出的框架在检测准确性方面优于传统的残差卷积 sl 架构和 transformer 基线,尤其是在处理复杂的攻击场景时。该系统的计算效率和最低的预处理要求使其成为实时 IoT 安全应用的可行解决方案。此外,可学习的 MFCC 公式无需手动进行特征工程即可自动适应不同的网络环境 - 这是一个关键优势。
2相关工作
机器学习 (ML) 和深度学习 (DL) 具有非常先进的入侵检测系统 (IDS)。Hassan 等人。[14]评估了 Random Forest 和 ANN 等 ML 模型,在检测 IoT 攻击方面实现了 99.4% 的准确率。图形处理单元 (GPU) 技术的最新进展由于增强了处理能力,加速了深度学习 (DL) 方法的采用。DL 能够从原始数据中自动提取显著特征,因此特别适合 IoT 网络,因为 IoT 网络会生成和处理大量数据,从而实现更准确、更高效的预测[15].已经研究了各种 DL 架构以进行网络入侵检测。Toldinas 等人。[16]使用 ResNet50 进行网络特征分类,而 Ahmad 等人。[17]提出了一个基于频谱图的 IoT 安全系统。Liu 等人。[18]和 Xiong 等人。[19]探索了用于异常检测的 ML 和 DL 组合,并在实际数据集上取得了可喜的结果。Altulaihan 等人。[20]和 Ahmad 等人。[21]分别展示了决策树和 DNN 在 IoT 安全方面的有效性。
3初步概念
Mel 频率倒谱系数 (MFCC) 变换 —MFCC 是一种通过关注声音和其他信号的频率特性来表示声音和其他信号的有效方法。它们通过模仿人耳的耳蜗如何处理声音来工作,基本上将其分解为不同的频段。这使得 MFCC 对于解释 IoT 数据流并将其转换为计算机系统可以理解的格式特别有用。
所提出的方法旨在将 IoT 网络数据流转换为 AI 模型的可解释格式。MFCC 特征提取过程从预加重滤波器开始,该滤波器可提高高频能量,同时降低高频噪声。通过调整窗口大小和连续帧之间的间距来控制变换精度。然后使用 Mel 滤波器组将频谱映射到 Mel 音阶,使信号的频率与人类听觉感知保持一致,就像人类耳蜗分析各种频率的声波一样。这种变换为频域提供了合适的非线性刻度。应用对数变换以适应频率特性的非线性性质。最后,将 DCT 应用于转换后的数据,提取 MFCC 特征值。图 1 说明了整个 MFCC 特征提取过程。
图 2:主要的 ResNet-18 编码器架构。
4方法论
本研究应用受声音启发的频谱特征分析在 IoT 网络数据集中进行异常检测,包括两个阶段。首先,我们从 CICIoT2023、NSL-KDD 和 IoTID20 中提取 MFCC 特征,以将物联网流量的频谱特性捕获为声学波形。其次,我们使用 Swin Transformer 改进分类,这是一种高级模型,可以有效地处理分层数据,从而提高数据集的性能。
4.1特征提取
传统的 MFCC 依赖于固定的滤波器组和 DCT 系数,它们可能无法完全捕获睡眠信号的复杂性。为了解决这个问题,我们引入了一个可学习的 MFCC 层,用可训练的参数替换这些固定组件,从而提供增强的灵活性。Mel 滤波器组是根据 Mel 量表初始化的,但在训练期间进行了优化,而 DCT 矩阵则进行调整以突出与睡眠信号分析最相关的系数。
4.1.1内核启发的特征提取
我们将 MFCC 管道重新解释为一种可学习的内核方法,该方法将原始 IoT 流量信号非线性地映射到针对类可分离性优化的高维频谱空间。这个内核类比由三个可训练的组件组成:
Spectral Windowing (Fixed Kernel Basis) (光谱窗口化(固定内核基础)):输入信号x∈ℝd首先使用固定窗口函数划分为重叠帧,从而创建时间局部的光谱分量。此初始分解用作内核的基础函数。
可学习的 Mel 滤波器库(内核参数化):传统的三角 Mel 滤波器被可训练滤波器取代M∈ℝF×d哪里F是筛选条件的数量。这些滤波器使用 Mel 量表进行初始化,在训练期间进行调整以强调判别性频带:
哪里𝐦表示 Mel 谱向量。
MFCC 管道通过以下方式实现 Mercer 的有效内核条件:
肯定确定性:梅尔滤波器组毫米T形成一个 Gram 矩阵,其特征值通过约束优化保持非负值。
定义:革兰矩阵
让𝐯1,𝐯阿拉伯数字,…,𝐯𝐧是实数为ℝm.Gram 矩阵G定义为这些向量之间所有成对点积的矩阵。具体来说,我-th row 和j-Gram 矩阵的第 -列由点积给出𝐯我⋅𝐯𝐣那是:
其中,任意两个向量的点积𝐯我,𝐯𝐣∈ℝm由下式给出:
哪里v我,k和vj,k表示向量的分量𝐯我和𝐯𝐣分别。
4.1.2自适应 DCT 作为特征分解
离散余弦变换 (DCT) 被重新解释为特征分解步骤。 DCT 层对特征协方差矩阵进行对角化。这通过偏爱对角化特征协方差矩阵的基来近似分解Σy,尽管没有明确实施完全对角化。
我们替换固定的 DCT 矩阵𝐃使用可训练的正交投影𝐏∈ℝD×F执行频谱去相关:
这种自适应 DCT 的功能类似于特征分解,如下所示:
- 对 Mel 能量的协方差矩阵 (𝐏列近似主成分)
- 按解释的方差对系数进行排序(通过学习的权重重要性)
- 允许通过系数选择进行降维
4.2多类分类的交叉熵优化
完整的转换可以看作是一个核映射Φ(x)=𝐏TMx哪里𝐌和𝐏共同优化以最大限度地提高类的可分性。该公式与支持向量机 (SVM) 中的内核技巧一致,使模型能够在高维特征空间中隐式运行,而无需显式计算。
转化为内核的特征c∈ℝD由神经网络进一步处理fθ提取低维表示。

图 3:可学习的 MFCC 方法。
受内核启发的特征提取和深度增强阶段产生判别性表示z∈ℝk.为了将这些映射到类概率,我们采用了交叉熵损失,它直接优化了学习的频谱空间中的可分离性,同时保持与核解释的理论一致性。
4.3通过 Softmax 进行概率映射
为Janomaly 类,最后一层计算 logit𝐡=[h1,…,hJ]T从z:
哪里𝐖∈ℝJ×k和𝐛∈ℝJ是可学习的参数。softmax 函数将这些转换为类概率:
交叉熵作为可分离性目标:交叉熵损失ℒ测量预测概率之间的背离𝐩和 true 标签𝐲:
哪里yj∈{0,1}是 one-hot 编码的 ground truth。
图 4:核变换的可视化
4.4编码器
在这项工作中,我们采用了 ResNet-18 模型,这是一种强大的架构,最近在各种计算机视觉任务中取得了显着的成功,并且越来越多地适用于其他数据模式,例如时间序列分析。
图 2 说明了所提出的方法的基本架构。
5结果与讨论
本节提供有关实验配置、用于实验的数据集、实验结果和消融研究的详细信息。
5.1实验性配置
实验是在具有 6 GB 内存的 GeForce RTX 3060 GPU 上使用 Python 3.10、PyTorch 1.12 和 TensorFlow 2.8.0 进行的。ResNet-18 模型作为实验的基线。该模型训练了 100 个 epoch,学习率为 1-3e,批次大小为 64,并选择了 Adam 优化器作为与交叉熵损失函数相结合的方法。
5.2数据集和预处理
表 1:ResNet-18 的 F1 分数(含 MFCC)和不含 MFCC
数据 |
|
| ||
---|---|---|---|---|
物联网 20 | 99.00 | 77.03 | ||
CiCIOT2023 中国国际交流大会 | 72.82 | 67.65 | ||
NSL-KDD 系列 | 99.71 | 99.45 |
在这项研究中,我们采用了三个广受认可的基准 IoT 网络数据集。IoTID20 数据集[28,29]包含从各种家用设备收集的数据,包括 SKT NGU 和 EZVIZ Wi-Fi 摄像头。该数据集被转换为 CSV 格式,其中包含 86 个特征的 625,783 条记录。
CICIoT2023 数据集[30,31]使用 105 个设备的拓扑结构构建,并模拟 33 种不同类型的攻击。这些攻击分为七类:DDoS、DoS、Mirai、暴力破解、基于 Web 的攻击、欺骗攻击和侦察攻击。
NSL-KDD 数据集[32]是 KDD CUP 1999 数据集的改进版本[33],最初由国防高级研究计划局 (DARPA) 制造。NSL-KDD 数据集解决了 McHugh 发现的 KDD-CUP 1999 数据集的几个缺点,例如 TCP 转储中的数据包丢失、缺乏明确的攻击定义以及包含冗余和不相关的记录。它经常用于评估基于 ML 和 DL 的 IDS 的有效性。此数据集将流量模式分为五种类型:正常、DoS、探测、U2R 和 R2L。
在所有三个数据集中,标签被标准化为两类:正常和攻击。应用标签编码以将这些转换为数字格式。在预处理过程中,将删除包含无限值或 NaN 值的列,以及包含零值 50% 以上的列。添加了时间索引,并使用 MinMaxScaler 对数据进行了归一化。从数据中提取 MFCC 特征,然后使用 PCA 进行降维。Mel 频谱图特征被转换并存储为图像,并在转换后应用 PCA。为了解决数据不平衡问题,采用了采样技术,并将标签进一步转换为数字表示。
图 5:T-SNE 可视化
5.3结果
表 1 显示了一项消融研究,比较了三个物联网安全数据集中 ResNet-18 的 F1-Scores 有和没有 MFCC 特征提取。结果表明,集成 MFCC 功能可显著提高性能,尤其是在复杂的入侵检测场景中。
对于 IoTID20,MFCC 功能的加入将 F1 分数提高了 22.87 个百分点(99.90% 对 77.03%),表明它们在区分复杂网络攻击方面发挥着关键作用。CiCIOT2023 也出现了类似的模式,其中 MFCC 集成将性能从 67.65% 提高到 72.82%,这表明处理嘈杂物联网环境的能力得到了增强。虽然 NSL-KDD 已经实现了高基线性能(无 MFCC 时为 99.45%),但 MFCC 功能的添加进一步将检测准确率提高到 99.71%,证实了它们在不同数据特征中的泛化性。
表 2 将我们增强的 ResNet-18 架构与最先进的方法进行了比较。对于 IoTID20,具有 MFCC 功能的 ResNet-18 获得了最高的 F1 分数 (99.90%),优于 Anomaly Transformer (99.50%)。CiCIOT2023 结果显示,我们具有可学习 MFCC 参数的 ResNet-18 变体实现了卓越的性能 (99.38%),超过了空间注意力增强的 ResNet-18 (68.20%) 和 Swin Transformer (72.82%)。NSL-KDD 使用 ResNet-18 和可学习的 MFCC 展示了完美的分类(100% F1 分数),优于标准 ResNet-18 (99.70%) 和 Swin Transformer (99.71%)。
图 5 展示了我们的 ResNet-18 和可学习的 MFCC 实现的改进的类分离,与基线模型相比,显示了不同的攻击类型集群。这种可视化证实了定量改进,揭示了基于 MFCC 的特征学习如何为 IoT 安全任务创建更具区分性的表示。
表 2:不同方法的比较表
数据 | 型 | F1 分数 |
物联网 20 | 异常转换器 | 99.50 |
ResNet-18 系列 | 99.90 | |
CiCIoT2023 中国国际交流技术展览会 | ResNet-18 系列 | 68.90 |
Swin 变压器 | 72.82 | |
ResNet-18 + 可学习的 MFCC | 99.38 | |
NSL-KDD 系列 | ResNet-18 系列 | 99.70 |
Swin 变压器 | 99.71 | |
ResNet-18 + 可学习的 MFCC | 1.00 |
6结论
本研究通过将听觉启发的信号处理与深度学习相结合,实现了最先进的异常检测(IoTID20 的 F1 分数为 99.90%,NSL-KDD 的完美分类)来推进物联网安全。限制包括计算需求、不断发展的攻击弹性以及特定于协议的异常表示方面的潜在差距。 未来的工作将侧重于轻量级边缘部署、无监督零日攻击检测、多模态分析和量子启发式加密流量优化。该框架为稳健的实时 IoT 威胁检测建立了新的范式。