系列目录
《Web安全之机器学习入门》笔记:第八章 8.2 逻辑回归hello world
《Web安全之机器学习入门》笔记:第八章 8.3 逻辑回归算法检测Java溢出攻击
《Web安全之机器学习入门》笔记:第八章 8.4 逻辑回归算法识别mnist验证码
目录
本系列是《Web安全之机器学习入门》的笔记集合,包含书中第五章-第十七章的内容。本文这一小节主要内容是讲解第8章使用逻辑回归算法的基本用法,本小节主要内容是用ADFA-LD数据集来作为实验数据集讲解逻辑回归检测JAVA溢出攻击基本用法。
一、逻辑回归
逻辑回归一般指logistic回归。 logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
项目 | 详情 |
---|---|
算法类型 | 有监督,用于分类(二、多分类) |
原理 | 基于线性回归,用逻辑函数转线性结果为概率 |
目标函数 | 常基于极大似然估计,二分类用对数似然损失 |
参数估计 | 梯度下降法、牛顿法等 |
优点 | 计算快,模型简单易解释,对数据要求低 |
缺点 | 难处理非线性数据,易欠拟合,对异常值敏感 |
应用 | 信用评估、医学诊断、垃圾邮件过滤、文本分类 |
二、ADFA-LD数据集
本小节是基于ADFA-LD数据集使用逻辑回归算法检测JAVA溢出攻击。ADFA-LD数据集中记录了系统调用序列,使用系统调用号标识每一个系统调用,这样就将一连串的系统调用转换成一连串的系统调用号了。
ADFA-LD数据集概览如下所示。
属性 | 描述 |
---|---|
全称 | Australian Defence Force Academy - Linux Dataset |
类型 | 主机级入侵检测系统(HIDS)数据集 |
数据内容 | Linux系统调用(system call)序列 |
攻击类型 | 提权攻击、远程代码执行(RCE)、Web攻击等 |
数据格式 | 文本文件(每行记录系统调用号) |
数据量 | 训练集(正常) + 验证集(正常) + 攻击集 |
三、数据集处理
1、白样本
正常样本共有833个,定义加载白样本数据的load_adfa_training_files
函数,遍历指定目录文件,调用load_one_flle
加载每个文件内容存入列表 x,同时生成标签列表 y(全为 0),最后从训练数据目录加载数据到 x1、y1,用于获取正常样本数据及标签。
- 定义函数:创建加载 ADFA 训练文件的函数。
- 初始化列表:创建 x 存储文件内容,y 存储标签。
- 遍历目录:获取目录文件列表,循环处理每个文件。
- 加载文件:调用函数加载文件内容到 x,打印路径。
- 生成标签:为每个文件添加标签 0 到 y。
- 返回数据:返回文件内容列表 x 和标签列表 y。
- 调用函数:从训练数据目录加载数据到 x1 和 y1。
def load_adfa_training_files(rootdir):
x=[]
y=[]
list = os.listdir(rootdir)
for i in range(0, len(list)):
path = os.path.join(rootdir, list[i])
if os.path.isfile(path):
x.append(load_one_flle(path))
print("Load file(%s)" % path)
y.append(0)
return x,y
x1,y1=load_adfa_training_files("../data/ADFA-LD/Training_Data_Master/")
2、黑样本
黑样本共124个样本,先定义dirlist
函数递归获取指定路径下所有文件路径,再定义load_adfa_java_files
函数,筛选出路径含特定前缀的文件,调用load_one_flle
加载内容到 x,标签设为 1,最后从攻击数据目录加载 Java 攻击样本到 x2、y2。具体代码如下所示:
- 递归列文件:
dirlist
函数递归获取路径下所有文件路径。 - 定义前缀:设定 Java 攻击文件的路径前缀。
- 初始化列表:创建 x 存文件内容,y 存标签。
- 筛选文件:用前缀匹配筛选目标攻击文件。
- 加载内容:调用函数加载文件内容到 x,打印路径。
- 设置标签:为每个文件添加标签 1 到 y。
- 加载数据:从攻击目录加载 Java 攻击样本到 x2、y2。
def dirlist(path, allfile):
filelist = os.listdir(path)
for filename in filelist:
filepath = os.path.join(path, filename)
if os.path.isdir(filepath):
dirlist(filepath, allfile)
else:
allfile.append(filepath)
return allfile
file_prefix = r"../data/ADFA-LD/Attack_Data_Master/Java_Meterpreter_"
def load_adfa_java_files(rootdir):
x=[]
y=[]
allfile=dirlist(rootdir,[])
for file in allfile:
if re.match(file_prefix,file):
print("Load file(%s)" % file)
x.append(load_one_flle(file))
y.append(1)
return x,y
x2,y2=load_adfa_java_files("../data/ADFA-LD/Attack_Data_Master/")
3、数据集处理
if __name__ == '__main__':
x1,y1=load_adfa_training_files("../data/ADFA-LD/Training_Data_Master/")
x2,y2=load_adfa_java_files("../data/ADFA-LD/Attack_Data_Master/")
x=x1+x2
y=y1+y2
print(len(x1), len(x2), len(x))
数据集中黑样本124,白样本833,总数据处理数量为957:
833 124 957
4、特征化处理
对数据进行特征处理,配置min_df=1
,这表示当一个词(或系统调用)至少在1个文档(样本)中出现时,就会被保留作为特征。
# 初始化词袋模型向量化器,设置最小词频阈值为1(保留所有出现过的词)
# min_df=1表示只要词在至少1个文档中出现就会被保留
vectorizer = CountVectorizer(min_df=1)
# 对输入文本数据x执行拟合(fit)和转换(transform)操作:
# - 拟合:分析文本数据,构建词汇表(统计所有出现的唯一词)
# - 转换:将原始文本转换为词频矩阵(每行代表一个文档,每列代表一个词,值为词在文档中出现的次数)
x = vectorizer.fit_transform(x)
# 将稀疏矩阵转换为密集数组表示
# 稀疏矩阵只存储非零元素以节省内存,密集数组则填充所有位置(含大量零值)
# 注意:对于大规模数据集,密集数组可能占用极高内存
x = x.toarray()
min_df
设置不同值的对比如下表所示。
参数设置 | 效果 | 适用场景 |
---|---|---|
min_df=1 | 保留所有出现过的调用 | 需要检测罕见攻击模式 |
min_df=2 | 过滤掉只出现1次的调用 | 减少特征维度 |
min_df=0.1 | 过滤掉在<10%样本中出现的调用 | 大型数据集降维 |
四、逻辑回归模型
1、逻辑回归训练
构建多层感知器 (MLP) 和逻辑回归两个分类模型,其中 MLP 设置了两层隐藏层(150 和 50 个神经元)等参数,逻辑回归设置正则化参数。随后用 10 折交叉验证评估逻辑回归在特征数据 x 和标签 y 上的性能,输出平均得分,用于评估模型泛化能力。
mlp = MLPClassifier(hidden_layer_sizes=(150,50), max_iter=10, alpha=1e-4,
solver='sgd', verbose=10, tol=1e-4, random_state=1,
learning_rate_init=.1)
logreg = linear_model.LogisticRegression(C=1e5)
score = model_selection.cross_val_score(logreg, x, y, n_jobs=1, cv=10)
print(np.mean(score))
(1)报警
FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
(2)报警
ConvergenceWarning: Liblinear failed to converge, increase the number of iterations. "the number of iterations.", ConvergenceWarning)
修改后如下所示。
logreg = linear_model.LogisticRegression(C=1e5, solver='liblinear', max_iter=10000)
2、完整代码
本文使用逻辑回归和 MLP 分类器检测 ADFA-LD 数据集的攻击。加载正常训练文件(标 0)和 Java Meterpreter 攻击文件(标 1),合并数据后用 CountVectorizer 提取文本特征,通过 10 折交叉验证评估逻辑回归模型,输出平均准确率,用于区分正常与攻击行为。
- 单文件读取:读取单个文件内容,返回去除换行符的文本
- 正常数据加载:加载训练集正常文件,标签设为 0
- 攻击数据加载:递归遍历目录,加载 Java Meterpreter 攻击文件,标签设为 1
- 数据合并:合并正常与攻击数据的特征和标签
- 特征提取:用 CountVectorizer 将文本转换为特征矩阵
- 模型定义:初始化 MLP 神经网络和逻辑回归模型
- 模型评估:10 折交叉验证逻辑回归,输出平均准确率
# -*- coding:utf-8 -*-
import re
import os
from sklearn.feature_extraction.text import CountVectorizer
from sklearn import model_selection
import numpy as np
from sklearn.neural_network import MLPClassifier
from sklearn import linear_model, datasets
def load_one_flle(filename):
x=[]
with open(filename) as f:
line=f.readline()
line=line.strip('\n')
return line
def load_adfa_training_files(rootdir):
x=[]
y=[]
list = os.listdir(rootdir)
for i in range(0, len(list)):
path = os.path.join(rootdir, list[i])
if os.path.isfile(path):
x.append(load_one_flle(path))
#print("Load file(%s)" % path)
y.append(0)
return x,y
def dirlist(path, allfile):
filelist = os.listdir(path)
for filename in filelist:
filepath = os.path.join(path, filename)
if os.path.isdir(filepath):
dirlist(filepath, allfile)
else:
allfile.append(filepath)
return allfile
file_prefix = r"../data/ADFA-LD/Attack_Data_Master/Java_Meterpreter_"
def load_adfa_java_files(rootdir):
x=[]
y=[]
allfile=dirlist(rootdir,[])
for file in allfile:
if re.match(file_prefix,file):
#print("Load file(%s)" % file)
x.append(load_one_flle(file))
y.append(1)
return x,y
if __name__ == '__main__':
x1,y1=load_adfa_training_files("../data/ADFA-LD/Training_Data_Master/")
x2,y2=load_adfa_java_files("../data/ADFA-LD/Attack_Data_Master/")
x=x1+x2
y=y1+y2
print(len(x1), len(x2), len(x))
vectorizer = CountVectorizer(min_df=1)
x=vectorizer.fit_transform(x)
x=x.toarray()
mlp = MLPClassifier(hidden_layer_sizes=(150,50), max_iter=10, alpha=1e-4,
solver='sgd', verbose=10, tol=1e-4, random_state=1,
learning_rate_init=.1)
logreg = linear_model.LogisticRegression(C=1e5, solver='liblinear', max_iter=10000)
score = model_selection.cross_val_score(logreg, x, y, n_jobs=1, cv=10)
print(np.mean(score))
3、运行结果
运行结果如下所示,逻辑回归模型在 ADFA-LD 数据集的 10 折交叉验证中,准确率介于 77.89%~98.97% 之间,平均准确率约 93.82%。整体表现良好,说明模型能有效区分正常行为与 Java Meterpreter 攻击。第 6 折准确率较低(77.89%),可能受该子集数据分布影响,其余折均在 91% 以上,稳定性较强,适用于基础的攻击检测场景。
[0.93814433 0.98969072 0.93814433 0.95833333 0.93684211 0.77894737
0.91578947 0.96842105 0.97894737 0.97894737]
0.938220745161874