SPSS学习系列09.缺失值处理
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
09. 缺失值处理
空缺值(用“.”表示)和输入错误值,都属于缺失值范畴。
输入错误值需要做“数据检验”来发现:
(1)【分析】——【描述统计】——【描述】和【频率】
(2)【图形】——【旧对话框】——【箱图】
观察极小、极大值、频率、异常值等来判断。例如,性别“男=1,女=2”,若极大值出现3,则是输入错误值;箱线图或3σ原则发现的异常值,则要先改成缺失值。
缺失值的处理方法通常有四种。
一、删除有缺失值的个案
删除有缺失值的个案,或在具体统计分析时的【选项】——【缺失值】框选择某种处理方法:
①按列表排除个案——只要任何一个变量含有缺失值,就要剔除出所有因变量或分组变量中有缺失值的观测记录;
②按对排除个案——同时剔除带缺失值的观测量及与缺失值有成对关系的观测量(对照分析);
③使用均值替换——使用该变量的均值替换缺失值。
二、替换缺失值
SPSS提供了5种简单替换缺失值的方法:
(1)序列均值——该变量的有效观察值的平均数;
(2)临近点的均值——该缺失值前后n个观察值的平均数;
(3)临近点的中位数——该缺失值前后n个观察值的中位数;
(4)线性插值——该缺失值前后观察值建立插值直线确定【同取n=1的(2)】;
(5)点处的线性趋势——以编号为自变量用线性回归法预测值。
现有数据文件:
1.【转换】——【替换缺失值】,打开“替换缺失值”窗口,将变量“统计成绩”选入【新变量】框;
2.【名称和方法】框,设定新变量名称“统计成绩_1”,方法选“序列均值”
3.点【确定】,得到
注意:若某个案的缺失值较多最好删除该个案,而不是替换其缺失值。
三、缺失值分析
SPSS中更高级的处理缺失值的方法是缺失值分析,它能够
(1)缺失值的描述和快速诊断:
用灵活的诊断报告来评估缺失值问题的严重性,用户可以观察到它们在哪些变量中出现,比例是多少,是否与其它变量取值有关,从而得知这些缺失值出现是否会影响分析结论。
(2)得到更精确的统计量:
提供了多种方法用于估计含缺失值数据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计量更加可靠。
(3)用估计值替换缺失值:
使用EM或回归法,用户可以从未缺失数据的分布情况中推算出缺失数据的估计值,从而能有效地使用所有数据进行分析,来提高统计结果的可信度。
【缺失值分析】实例操作,使用SPSS 20自带的实例文件:
telco_missing.sav
1.【分析】——【缺失值分析】,打开“缺失值分析”窗口,将变量“婚姻状况、教育程度、退休、性别”选入【分类变量】,将变量“服务月数、年龄、现在住址居住年数、家庭收入、现职位工作年数、家庭人数”选入【定量变量】
注意:最大类别(最大分类数)默认为25,超过该数目的分类变量将不引入分析。
2. 点【描述】,打开“描述统计”子窗口,用来设置要显示的缺失值描述统计量。
勾选“单变量统计量”,勾选【指示变量统计量】框的“使用有指示变量形成的分组进行的t检验”和“为分类变量和指示变量生成交叉表”,点【继续】
3. 点【模式】,打开“模式”子窗口,用来设置显示输出表格中的缺失数据模式和范围。
勾选“按照缺失值模式分组的表格个案”;
因为“教育程度”、“退休”和“性别”中的缺失模式似乎影响数据,“家庭收入”含有大量缺失值,将这些变量选入【附加信息】;
其它保持默认,点【继续】
4. 回到原窗口,勾选【估计】框中的“EM”和“回归”,其它默认设置。点击【EM】或【回归】按钮可以修改其设置
注意:若要保存替换缺失值之后的数据,需要勾选“保存完成数据”:创建新数据集并命名,或写入新数据文件。
另外,默认使用所有变量进行分析,若要选择部分变量,可点【变量】按钮修改。
点【确定】,得到输出结果:
提供了数据的一般特征,给出了所有分析变量缺失数据的频数、百分比,定量变量的均值、标准差、极值数目。
income(家庭收入)有最多具有缺失值(17.9%),也有最多的极值;而age(年龄)有最少缺失值(5%)。
估计均值摘要
tenure age address income employ reside 所有值35.56 41.75 11.47 71.1462 11.00 2.32
EM 36.12 41.91 11.58 77.3941 11.22 2.29
回归35.77 41.68 11.59 74.3174 10.99 2.32
使用EM法和回归法进行缺失值的估计和替换后,总体数据的均值和标准差的变化情况,其中“所有值”为原始数据特征,另两行分别是采用EM法、回归法得到的统计参数。
单个方差t 检验a
tenure age address income employ reside
address t .4 .3 . 3.5 1.4 1.0 df 202.2 192.5 . 313.6 191.1 199.5 # 存在819 832 850 693 766 824
# 缺失149 143 0 128 138 142 均值(存在)35.68 41.79 11.47 74.0779 11.20 2.34 均值(缺失)34.91 41.49 . 55.2734 9.86 2.21
income t -5.0 -8.3 -3.9 . -5.9 3.6 df 249.5 222.8 191.1 . 203.3 315.2 # 存在793 801 693 821 741 792 # 缺失175 174 157 0 163 174 均值(存在)33.93 40.01 10.67 71.1462 9.91 2.39 均值(缺失)42.97 49.73 14.97 . 15.93 2.02
employ t -1.0 -.4 -.7 .5 . -.3 df 110.5 110.2 97.6 114.9 . 110.9 # 存在877 881 766 741 904 874 # 缺失91 94 84 80 0 92 均值(存在)35.34 41.69 11.37 71.4953 11.00 2.31 均值(缺失)37.70 42.27 12.32 67.9125 . 2.37
marital t .0 1.8 1.2 -.8 .9 -2.2 df 148.1 149.5 138.8 121.2 128.3 134.2 # 存在856 862 748 728 805 857 # 缺失112 113 102 93 99 109 均值(存在)35.56 42.00 11.61 70.3887 11.10 2.28 均值(缺失)35.57 39.85 10.43 77.0753 10.17 2.61
retire t -.6 -.4 -.4 .3 . .2 df 95.4 94.4 84.0 93.2 . 99.0 # 存在888 893 777 751 904 885 # 缺失80 82 73 70 0 81 均值(存在)35.44 41.70 11.42 71.3356 11.00 2.32 均值(缺失)36.89 42.29 11.96 69.1143 . 2.30
对于每个定量变量,由指示变量(存在,缺失)组成成对的组。
a. 不显示少于5% 个缺失值的指示变量。
通过单个方差t 检验有助于标识缺失值模式可能影响定量变量的变量。按照相应变量是否缺失将全部记录分为两组,再对所有定量变量在这两组间进行t检验。判断数据是否完全随机缺失(表示缺失和变量的取值无关)。
例如,似乎年纪较长的响应者更不可能报告收入水平。当income 缺失时,平均age 为49.73,与之相比,当income 未缺失时为40.01。实际上,income 的缺失似乎影响多个定量(刻度)变量的平均值。