离群值与缺失值的识别与处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
离群值与缺失值的识别与处理
在数据处理中,出现离群值和缺失值的情况非常常见。
原来咱们在说数据处理的时候也曾经提到过这个情况,这里,一起再聊聊离群值和缺失值的识别与处理。
离群值的识别与处理
离群值(outlier):距离整体数据较远的数据称为离群值。
没有搞明白离群值产生的原因之前,不要简单舍弃,尤其是数据较少的时候。
单变量离群值的识别与处理
1.直方图法:绘制数据直方图,落在图形两端并距离均数的个体值可能就是离群值
2.箱式图法:绘制箱式图,如果个体值距离箱式图底线(25% 线)和顶线(75%线)的距离过大,一般为四分位数间距(箱体高度)的1.5倍至3倍时被视为离群点;而个体值距离箱体底线或顶线距离超过3倍的箱体高度被视为离群值。
3.拉依达准则:如果数据整体服从正太分布,一般在均数加减三个标准差之外的值被称为离群值。
4.Q检验法:当数据整体不服从正太分布的时候,用Q检验。
当数据量大于10的时候,Q检验Q>0.33,则该可疑离群值舍去,否则保留。
多变量离群值的识别与处理
马氏距离(Mahalanobis distance)法是判别多变量离群值的一个常用方法。
马氏距离是多维空间的一种距离测度,该距离的大小的评价可用卡方分布来确定。
对给定的检验水准及自由度,有其确定临界值。
如果某个个体的马氏距离大于该临界值,则在该检验水准下可认为该各位为离群值应剔除,否则保留。
常用检验水准α=0.005或0.001为判断多变量离群值的标准,而马氏距离可以由统计软件计算。
缺失值的识别与处理
缺失值(missing data):统计表中,行表达观察单位,列表达不同的变量。
行列交叉没有记录,就是缺失值。
产生缺失值很常见,比如实验研究中的动物意外死亡,受试对象不依从,调查对象失访或某些问题拒绝回答等。
对于造成的缺失值,进行识别和恰当处理是数据预处理中的关键步骤之一。
缺失值的识别
缺失值的危害程度取决于:缺失的方式(最重要)、确实的数量、缺失的原因。
缺失方式可分为:
完全随机缺失(missing completely at random,MCAR):是指缺失现象随即发生,和自身或其他变量无关。
此类缺失会导致信息缺失,但是如果少于5%,则对统计结果影响不大。
但是完全随机缺失的情况比较少见,需要进行检验。
随机缺失(missing at random,MAR):指有确实值的变量,缺失值的发生与资料中其他无缺失变量的取值有关。
这种数据缺失较为常见,不仅会导致信息损失,更可能导致结论偏差。
比如骨密度调查中,高龄组骨密度缺失,如果直接删除,就会造成密度错误高估。
非随机缺失(missing at non-random,MANR):指数据的缺
失不仅和其他变量有关,也和自身取值有关。
比如家庭收入调查,高收入者不愿意填写收入值,这样的数据无法做出有效调整,只能尽量避免产生这种情况。
缺失值的处理
1 删除存在缺失值的个体或变量
•当缺失值为个体少数,并且是在总体中的一个随机子样本中,可以剔除。
•当缺失值集中在少数变量,并且变量不是分析的主要变量,可以剔除。
•如果缺失值集中在少数个体,或散布在多个变量多个个体,删除就会影响组间均衡,则用其他方式处理。
2 估计缺失值:即利用辅助信息为每个缺失值寻找替代值。
常用的估计方法包括:
•先验法(prior knowledge):适用于样本足够大,缺失数据少,并且研究者在该领域有丰富的经验能够确保对缺失值的估计接近该变量的中位数水平或能代表特定病例的观察值水平时。
•替代均数法(mean substitution):以变量中未缺失观察值的均数估计该变量中存在的缺失值。
当缺乏其他信息的时候,是常用方法。
•回归估计法(regression):以存在的缺失值的变量为应变量,以其他全部或部分变量为自变量,回归计算该值。
适用于有适合的自变量完整数据存在时。
•期望值最大法(expectation maximization ,EM):进行最大似然估计的一种有效方法,分两步。
第一步求出缺失数据的期望值,第二步在假定的缺失值被替代的基础上做出最大似然估计。
适用于大样本资料。
•多重填补法(multiple imputation,MI):根据缺失值的先验分布,估计缺失值,此法计算复杂,需要统计软件实现。
但是该法对缺失方式无特殊要求。
3 建立哑变量
可按照某变量值是否缺失建立哑变量,然后统计分析,保证分析资料的完整性
4 需要注意的问题
4.1 对缺失值的处理首先考察资料缺失方式,明确是否为随机缺失,才能进一步处理。
4.2 对于缺失值的估计方法,可按照方法的适用性进行选择。
4.3 如果对缺失值进行了估计,建议对填补的数据集和删除缺失值的数据集都进行分析,然后比较,如果发现差异较大,应查找原因,考虑哪一个更可信,或同时报道两个结果。