15

2019

-

08

离群数据

作者:


离群数据

离群数据来源与判断:

1.离群值按产生原因分为两类:

a)第一类离群值是总体固有变异性的极端表现,这类离群值与样本中其余观测值属于同一总体;

b)第二类离群值是由于试验条件和试验方法的偶然偏离所产生的结果,或产生于观测、记录、计算中的失误,这类离群值与样本中其余观测值不属于同一总体。对离群值的判定通常可根据技术上或物理上的理由直接进行,例如当试验者已经知道试验偏离了规定的试验方法,或测试仪器发生问题等。当上述理由不明确时,可用本标准规定的方法。

2、离群值的三种情形:

本标准在下述不同情况下判断样本中的离群值:

a)上侧情形:根据实际情况或以往经验,离群值都为高端值;

b)下侧情形:根据实际情况或以往经验,离群值都为低端值;

c)双侧情形:根据实际情况或以往经验,离群值可为高端值,也可为低端值;

3、检出离群值个数的上限

应规定在样本中检出离群值个数的上限(与样本量相比应较小),当检出离群值个数超过了这个上限时,对此样本应作慎重的研究和处理。

4、单个离群值情形

a) 依实际情况或以往经验选定,选定适宜的离群值检验规则(格拉布斯检验、狄克逊检验等);

b) 确定适当的显著性水平,

c) 根据显著性水平及样本量,确定检验的临界值;d)由观测值计算相应统计量的值,根据所得值与临界值的比较结果作出判断。

5、判定多个离群值的检验规则

在允许检出离群值的个数大于1的情况下,重复使用检验规则进行检验。若没有检出离群值,则整个检验停止;若检出离群值,当检出的离群值总数超过上限时,检验停止,对此样本应慎重处理,否则,采用相同的检出水平和相同的规则,对除去已检出的离群值后余下的观测值继续检验。

离群值处理

1.处理方式

a)保留离群值并用于后续数据处理;

b)在找到实际原因时修正离群值,否则予以保留;

c)剔除离群值,不追加观测值;

d)剔除离群值,并追加新的观测值或用适宜的插补值代替。

离群值处理

1、处理方式

a)保留离群值并用于后续数据处理;

b)在找到实际原因时修正离群值,否则予以保留;

c)剔除离群值,不追加观测值;

d)剔除离群值,并追加新的观测值或用适宜的插补值代替

数据,离群,检验,观测,检出,样本,根据,情形,试验,个数