基于深度卷积神经网络的DGA检测
1. 研究概述
在DGA(域名生成算法)检测领域,为了以最小的架构复杂度实现有效检测,研究者采用了一种仅在卷积层基础上增加少量额外层的网络架构。评估使用的数据集包含51种不同的DGA家族以及来自Alexa语料库和Bambenek数据源的正常域名,数据集中涵盖了两种不同的DGA方案,包括近期出现的基于单词的方案。基于单词的DGA通过拼接一个或多个单词列表中的单词序列生成域名,这种域名看起来不那么随机,检测难度更大。
研究假设一维卷积神经网络(1D - CNN)尽管存在已知局限性,但仍能从不同的DGA生成方案中学习到共同特征,并且评估验证了其检测性能满足现实场景的要求。主要贡献如下:
- 分析了简单1D - CNN学习模型在检测DGA方面的优缺点。
- 在包含51种不同真实恶意软件DGA域名以及来自两个不同来源的正常域名的扩展数据集上对1D - CNN进行了详细评估。
- 与另一种知名的深度学习技术——长短期记忆网络(LSTM)进行了比较。
2. 神经网络架构
本研究使用的神经网络架构是1D - CNN,它主要由三个核心层组成:嵌入层、一维卷积层和全连接密集层。前两层是检测DGA域名问题的关键组件,它们负责学习特征表示,以将数据输入到第三层全连接密集层。完整的神经网络架构还包括处理一维卷积层输出维度的层,以及表示输入域名和输出概率的层。具体架构和使用的激活函数如下表所示:
层类型 | 激活函数 |
---|---|
输入层(I |