异常检测及算法

本文详细介绍了异常检测的概念,利用高斯分布进行异常检测的算法,以及在实际应用中的场景,如网站用户行为分析、飞机引擎监控和数据中心管理。文章还探讨了异常检测与监督学习的选择,并提供了数据集特征选择和处理的方法,包括对不满足高斯分布特征的转换。此外,文章深入讨论了多变量高斯分布在捕捉特征相关性中的作用,并给出了参数估计和应用步骤。最后,比较了原始高斯模型与多元高斯模型的选择策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

一、定义

(一)图示异常点

(二)公式定义

二、应用

三、异常检测算法(利用高斯分布推导)

(一)高斯分布

(二)推导p(x)

四、开发异常检测的应用

(一)需可评估算法

 (二)数据集的分配 

(三)评定指标

五、异常检测vs监督学习

(一)如何选择

六、如何选择数据集的特征

(一)不满足高斯分布的特征的数据如何处理

(二)如何得到异常检测算法的特征

 1、如何建立新特征(误差分析)

七、多变量高斯分布

(一)背景

(二)改良版高斯分布出世

1、p(x)的参数及公式

 2、多元高斯分布的例子

 八、应用多元高斯分布

(一)参数拟合(参数估计)

(二)应用步骤

(三)特点

(四)原始高斯模型与多元高斯模型如何选择


一、定义

(一)图示异常点

(二)公式定义

数据集落在二维坐标中间的概率较大,越外圈概率越小;所以 设P(Xtest)<ε 时,标记为异常

二、应用

1、网站上异常行为用户

2、工业领域飞机引擎

3、数据中心计算机监控

三、异常检测算法(利用高斯分布推导)

(一)高斯分布

1、符号的含义

μ控制钟型曲线的中心位置

σ控制钟型曲线的宽度

决定x取不同值时的概率,中心值时概率大,因为此时密度函数大

2、高斯分布的例子

 3、参数估计

给定数据集,估算出μ和σ^2的值,如下图的数据集和正态分布图拟合较好

μ取所有数据集的均值,σ^2的值公式如下图所示:

(二)推导p(x)

注:其中μj是特征量j的均值

四、开发异常检测的应用

(一)需可评估算法

 (二)数据集的分配 

(三)评定指标

1、数据具有倾斜度(y=0的数量极少),用真阳性,假阳性,召回率等指标进行评估

2、ε尝试不同的取值,观察F1-score的最大化

五、异常检测vs监督学习

(一)如何选择

1、异常检测(用高斯分布建模):

        ①正常样本较少时

        ②大量的负样本数量时

        ③负样本类型很多时

2、监督学习

正常样本和负样本的数量很多时

六、如何选择数据集的特征

(一)不满足高斯分布的特征的数据如何处理

1、octave中绘制数据直方图的方式是使用hist函数

2、如下图中的数据分布时,进行一次对数转换;

3、其他的数据处理也写在图中

 

(二)如何得到异常检测算法的特征

 1、如何建立新特征(误差分析)

通过拟合的高斯分布检测出异常样本,再分析异常样本的特征,想出一个新特征x2,与剩下正常样本的区别; 从而有下右图的效果,使得更容易找出异常样本

七、多变量高斯分布

(一)背景

左图绿色叉点表示为异常点,因为它并未和大多数样本一样,随着CPU使用增大,内存使用量也增大 ;

右图是根据特征x1和x2拟合的高斯分布,在这两个高斯分布中绿色叉点又并非是显著异常点

因为左图的大概率分布时蓝色椭圆形,右两图的大概率是左图中的粉色圈圈

(二)改良版高斯分布出世

1、p(x)的参数及公式

注:covariance matrix 是协方差矩阵

 2、多元高斯分布的例子

多用于描述两个特征之间的正相关或负相关

①缩小协方差矩阵,峰值鼓包的宽度会减小,高度会增加

 ②减小协方差中第一个特征变量x1的方差,保持x2的方差不变,如图2所示;

增大x1的方差,保持x2的方差不变,改变如图3所示

 ③改变x2方差,保持x1方差同理

 ④改变协方差矩阵非对角线上的元素,得到不同的高斯分布

 ⑤设置为负值,则x1和x2负相关

 ⑥改变μ均值,初始值0,0则图在x1=0,x2=0这个点周围,改变后则移动整个分布的中心

 八、应用多元高斯分布

(一)参数拟合(参数估计)

(二)应用步骤

(三)特点

一般情况下,原始高斯分布轴是是关于轴对称,多元高斯分布的图形的有角度的

特殊情况:多元高斯分布的协方差矩阵非对角线都是0时,多元高斯分布的图形是关于轴对称,即将原始模型中的方差放入对角线中,原始模型和多元高斯模型就会完全相同

(四)原始高斯模型与多元高斯模型如何选择

 注:

1、m是数据集数量,n是特征值数量

2、 原始高斯模型运用更多,即使需要捕捉具有相关性的特征,也是手动设计如图中x3的新特征;but若m较大,而n不是很大(m≥10n)时,多元高斯值得考虑

3、拟合多元高斯分布时,若发现协方差矩阵不可逆,考虑两种情况,一是m<n,或二是存在类似(x3=x1+x2即线性相关)或相同(x1=x2)的冗余 特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值