在一组数据中怎么通过箱线图检测出异常值?
数据集中会包含一个或多个数值异常大或异常小的值,这样的极端值称为异常值
要怎么判断是异常值呢?有些数据集中存在着特别大或特别小的值,但却不是异常值。
判断异常值的方法叫做Tukey‘s test方法,用于计算出数据集中最小估计值,和最大估计值。这样超出最小估计值和最大估计值范围的数值就可能是异常值了
最小估计值和最大估计值的计算公式是这样的。
最小估计值:Q1 - IQR*K
最大估计值:Q3 + IQR*K 注:IQR是四分位距=Q3-Q1 可以根据不同的数据分析目对k取值。
k=1.5时,计算出的是中度异常的范围。
K=3时,计算出的是极度异常的范围。
ps:最大估计值就是箱线图的上边界,最小估计值就是箱线图的下边界,超过这两个边界的值就被认定是异常值
晕了,K值是只取1.5或者3吗?
是的,K值1.5和3是边界
简单一点说把:
小于Q1 - 1.5*IQR 或 大于Q3 + 1.5*IQR 的值就是异常值,
至于Q1、Q3和IQR怎么计算的,你应该知道吧
这个倒是知道,这么说我就明白了
评论(7)
数据集中会包含一个或多个数值异常大或异常小的值,这样的极端值称为异常值
要怎么判断是异常值呢?有些数据集中存在着特别大或特别小的值,但却不是异常值。
判断异常值的方法叫做Tukey‘s test方法,用于计算出数据集中最小估计值,和最大估计值。这样超出最小估计值和最大估计值范围的数值就可能是异常值了
最小估计值和最大估计值的计算公式是这样的。
最小估计值:Q1 - IQR*K
最大估计值:Q3 + IQR*K 注:IQR是四分位距=Q3-Q1 可以根据不同的数据分析目对k取值。
k=1.5时,计算出的是中度异常的范围。
K=3时,计算出的是极度异常的范围。
ps:最大估计值就是箱线图的上边界,最小估计值就是箱线图的下边界,超过这两个边界的值就被认定是异常值
晕了,K值是只取1.5或者3吗?
是的,K值1.5和3是边界
简单一点说把:
小于Q1 - 1.5*IQR 或 大于Q3 + 1.5*IQR 的值就是异常值,
至于Q1、Q3和IQR怎么计算的,你应该知道吧
这个倒是知道,这么说我就明白了