第11章 缺失值分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
按钮 § 单击“模式”按钮,弹出图11-2所示的“缺失值分析:模
式”对话框,此对话框是用于设置显示输出表格中的缺 失数据模式和范围。
模块解读
§ 3.“描述”按钮
§ 单击“描述”按钮,弹出图11-3所示的“缺失值分 析:描述统计”对话框,设置要显示的缺失值描 述统计变量。
模块解读
§ 4.“估计”选项框:“EM”按钮 § 单击“EM”按钮,弹出“缺失值分析:EM”对话框,
如图11-4所示。此对话框用于设置EM算法的相 关参数。
§ (3)“回归”按钮
§ 单击“回归”按钮,弹出“缺失 值分析:回归”对话框,如图 11-5所示。此对话框用于设 置回归法的相关参数。可以 选择残差、普通变量、 Student’t变量或无调节。
SPSS中的缺失值处理方法
§ 3.缺失值分析 § ① 缺失值的描述和快速诊断:用灵活的诊断报告来评估缺失值
问题的严重性,用户可以观察到它们在哪些变量中出现,比例 为多少,是否与其他变量取值有关,从而得知这些缺失值出现 是否会影响分析结论。
§ ② 得到更精确的统计量:提供了多种方法用于估计含缺失值数 据的均值、相关矩阵或协方差矩阵,通过这些方法计算出的统计 量将更加可靠。
§ 图11-11所示通过单个方差t 检验有助于标识缺失 值模式可能影响定量变量的变量。按照相应变量是 否缺失将全部记录分为两组,再对所有连续性变量 在这两组间进行t检验。可以看出,年龄信息缺失 者受伤至入院的间隔时间短,指示数据可能并未完 全随机缺失。
§THE END
差,同时给出了各变量的缺失数量和缺失百分
比。提供了数据的一般特征,以住院天数为例 ,均值为18.88天,标准差为11.258,7.4%的个 案缺失住院天数信息,且拥有26个极大值。
§ 图11-9、图11-10所示是使用EM法和回归法进行 缺失值的估计和替换后,总体数据的均值和标准差 的变化情况,其中“所有值”为原始数据特征,另两 行分别是采用EM法、回归法得到的统计参数。
§ 另外,很多统计过程背后的假设都基于完整的个案,而缺失值 可能使所需的理论复杂化,部分分析过程无法完成。
§ 缺失值分析有助于解决由不完整的数据造成的若干问题,尽可 能全面、有效地利用整个数据库。
分类
§ 按照数据缺失形式分 § ①单元缺失:指针对需调查的个案进行调查而
没有得到个案信息。这种缺失在数据分析阶段 常常无能为力。 § ②项目缺失:指在调查内容中某些变量的观测 结果有缺失。
11-1所示的对话框;
§ (2)将“年龄,住院天数,受伤至入院的间隔时间”选入定量 变量框,“性别”选入分类变量框;
§ (3)单击“模式”按钮,弹出如图11-2所示,选中输出选项组 中的“按照缺失值模式分组的表格个案”复选框,从缺失值模 式列表框中选中住院天数和性别两个变量进入附加信息框, 其他采取默认设置。单击“继续”,返回主对话框。
§ ③ 用估计值替换缺失值:使用EM或回归法,用户可以从未缺 失数据的分布情况中推算出缺失数据的估计值,从而能有效地 使用所有数据进行分析,来提高统计结果的可信度。
模块解读
§ 1.进入缺失值分析
§ 单击“分析”|“缺失值分析”命令,弹出缺失值分析对 话框,如图11-1所示。
§ 定量变量:选入待分析的定量变量。将“年龄”,“住 院天数”,“受伤至入院的间隔时间”三个变量纳入定 量变量框中。
§ (4)“变量”按钮
§ 单击“变量”按钮,弹出“缺失值分析:EM的变量和 回归”对话框。如图11-6所示,用于选择指定变 量的方式,默认使用所有定量变量。
实例详解
§ 例11.1:对某种疾病住院患者的部分调查数据,见例111.sav。
§ 1.操作步骤 § (1)选择“分析”|“缺失值分析”命令,如图11-7所示,弹出图
§ 即“转换”选项卡中的“替换缺失值”菜单过程 。此过程将所有的记录看成一个序列,然后采用某种 指标对缺失值进行填充,它实际上专门用于解决时间 序列模型中的缺失值问题。虽然其中的一些填充方法 也可以用于普通数据,但相比之下,如果在非序列数 据中使用该过程可能得不偿失,应当谨慎使用。常用 的填充方式有算术均数,缺失值邻近点的算术均数,
§ (4)单击“描述”按钮,弹出如图11-3所示,选 择单变量统计量复选框及指示变量统计量选项 组中的“使用有指示变量形成的分组进行的t检验” ,为分类变量和指示变量生成交叉表。
§ (5)选中“估计”选项框中的“EM和回归”,其余 采用默认设置。
§ (6)单击“确定”按钮运行,输出结果。
§ 表11-1所示的“单变量统计”表给出了所有分析变 量未缺失数据的频数,定量变量的均值、标准
§ ③ 非随机缺失(Missing Not at Radom,MNAR)指数据的缺 失不仅与其他变量的取值有关,缺失率与缺失数据有关,也和 自身有关。这种缺失大都不是由偶然因素所造成的,常常是不 可忽略的。
SPSS中的缺失值处理方法
§ 1.删除缺失值 § 最常见、最简单的处理缺失数据的方法,使用这
种方法时,如果任何个案在某一变量含有缺失数据的 话,就把相对应的个案从分析中剔除。如果缺失值所 占比例比较小的话,这一方法十分有效。然而,这种 方法却有很大的局限性,它是以减少样本量来换取信 息的完备,会造成资源的大量浪费,丢弃了大量隐藏 在这些对象中的信息。
SPSS中的缺失值处理方法
§ 2.缺失值替代
分类
§ 按照缺失机制与方式分
§ ① 完全随机缺失(Missing Completely at Random,MCAR) 指已评价的结果或即将要进行的评价结果中,研究对象的缺失 率是独立的。即缺失现象完全随机发生,与自身或其他变量的 取值无关。
§ ② 随机缺失(Missing at Random,MAR)指缺失数据的发生 与数据库中其他无缺失变量的取值有关。某一观察值缺失的概 率仅依赖已有的观察结果,不依赖未观察到的结果。MAR是最 常见的缺失机制。
IBM-SPSS
第11章 缺失值分析
背景
§ 在资料收集过程中,由于各种原因可能导致数据收集不全,就 会产生缺失值,且这种情况往往无法避免。
§ 因此,缺失值分析是数据处理工作中常见的问题之一,如果处 理不当,会导致部分分析过程简单地从分析中丢弃这些有缺失 的个案;也可能会使分析结果精度降低,出现偏倚甚至是错误的 结论;
§ 分类变量:选入待分析的分类变量,选入分类 变量后,还可以在下方的最大类别处设置允许 的最大分类数,超过此临界值的分类变量将不 再进入分析,软件默认25。将“性别”纳入分类变 量框。
§ 个案标签:用以选入标签变量用于对结果进行 标识。
§ 使用所有变量:单击此按钮,左侧源变量列表 的所有变量将进行特定的分析列表框,数值型 变量将全部进入定量变量框,字符型等变量全 部进入分类变量列表框。
相关文档
最新文档