箱形图怎么检测异常值?

丑人多作怪 2018-03-07 14:43:15.0
0

在一组数据中怎么通过箱线图检测出异常值?

评论(7
请先登录后再发表评论
Beth 2018-03-07 14:51:31.0 回复
0

数据集中会包含一个或多个数值异常大或异常小的值,这样的极端值称为异常值

丑人多作怪 2018-03-07 14:52:18.0 回复
0
回复Beth:

要怎么判断是异常值呢?有些数据集中存在着特别大或特别小的值,但却不是异常值。

Elsie 2018-03-07 15:28:25.0 回复
0

判断异常值的方法叫做Tukey‘s test方法,用于计算出数据集中最小估计值,和最大估计值。这样超出最小估计值和最大估计值范围的数值就可能是异常值了

Elsie 2018-03-07 15:30:30.0 回复
0

最小估计值和最大估计值的计算公式是这样的。

最小估计值:Q1 - IQR*K 

最大估计值:Q3 + IQR*K 注:IQR是四分位距=Q3-Q1 可以根据不同的数据分析目对k取值。 

k=1.5时,计算出的是中度异常的范围。

K=3时,计算出的是极度异常的范围。

ps:最大估计值就是箱线图的上边界,最小估计值就是箱线图的下边界,超过这两个边界的值就被认定是异常值

丑人多作怪 2018-03-07 15:34:11.0 回复
0
回复Elsie:

晕了,K值是只取1.5或者3吗?

Elsie 2018-03-07 15:36:03.0 回复
0

是的,K值1.5和3是边界

简单一点说把: 

 小于Q1 - 1.5*IQR 或 大于Q3 + 1.5*IQR 的值就是异常值,


至于Q1、Q3和IQR怎么计算的,你应该知道吧

丑人多作怪 2018-03-07 15:37:02.0 回复
0
回复Elsie:

这个倒是知道,这么说我就明白了