R中异常值检测

本文通过使用R语言中的complete.case()函数检测数据集中的缺失值,并对完整数据进行箱型图分析,以识别销量数据中的异常值。通过绘制箱形图并计算统计数据,展示了缺失值的比例及异常值的具体数值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

data1=complete.cases(selectdata)  #布尔判断
# true代表1,false代表0
sum(complete.cases(selectdata))  #完整数据200条
sum(!complete.cases(selectdata))  #不完整数据1条
mean(!complete.cases(selectdata))  #缺失比例  1/201
selectdata[!complete.cases(selectdata),]  #布尔条件筛选
sp=boxplot(selectdata$销量,boxwex=0.7)
sp$out
title("销量异常值检测箱形图")
xi=1.1
sd.s=sd(selectdata[complete.cases(selectdata),]$销量)
mn.s=mean(selectdata[complete.cases(selectdata),]$销量)
points(xi,mn.s,col='red',pch=19)
arrows(xi,mn.s-sd.s,xi,mn.s+sd.s,code = 3,col = 'pink',angle = 60,length = .1)
text(rep(c(1.05,0.95),length(sp$out)/2),sp$out,sp$out,col = 'green')

表格数据如下:
在这里插入图片描述
第一步检测数据缺失情况,利用complete.case()函数
第二步筛选完整数据作箱型图,判断异常值
这里用到第二种
在这里插入图片描述
各参数含义:
x数据
range 须从盒子伸出多远
width 箱体宽度
varwidth : 逻辑值,控制箱体的宽度, 只有图中有多个箱体时才发挥作用,默认为FALSE
notch:中位值处切口逻辑值
names:分组标签
border:箱体中线条颜色
pars:比例系数
输出值
在这里插入图片描述
stats:
在这里插入图片描述
conf:切口的上下
out:须两端外的值
在这里插入图片描述
lofactor(data, k)
k用于计算局部离群因子的邻域数
stl()
时间序列的季节分解

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值