第4章 数据预处理和描述性分析(含SPSS)资料

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


(8)单击Options按钮,弹出如图4-4所示的对话 框
图4-4 选择对话框

图4-4中: ①Exclude cases listwise表示分析过程中,剔 除带有缺失值的观测量;

②Exclude cases pairwise表示分析过程中,成 对剔除有缺失值的观测量;

③Report values表示分组变量中的缺失值将被 单独分为一组。输出频数表时也包括缺失组。
评分者信 Analyze→ Scale→ ReliabilityStatistics Spearson相关系数、 度 中Friedman chi-square选项Kendall Kendall等级相关系数、 和谐系数 Spearman等级相关系数 Analyze→ Correlation→ bivariate根 据需要可选择Pearson、Kendall’s tau-b和Spearman选项

(1)平均数替代:平均数替代是以变量中有效 值的平均数替代缺失值的方法。

(2)回归估计替代:回归估计替代是用回归模
型的估计值替代缺失值的方法。

(3)Cold deck替代:Cold deck替代不是利用
获取的数据本身,而是利用外在资源或以往研究结
果作为缺失值的替代值。

(4)个例替代:是通过寻找样本以外、与其类 似的观察案例,以其取值替代缺失值的方法。 (5)多元替代:将几种方法组合,如取几种替 代值的平均值替代缺失,这就是多元替代。
种方法只有当观测的样本数据量足够或数据缺失时, 不会因删除导致参数的有效估计时,才可采用。

(2)配对删除法,是只在需要用缺失或遗漏值
进行分析时,才被删除,其他信息仍然被使用的方
法。

配对删除法相对于表列删除法,观测样本数量不
会因删除而减少过多,同时信息利用较为充分。但
同时也带来以下方面的问题:一是不一致性;二是


2、探索分析提供的考查方法
(1)箱图:是对任何分布的数据的整体描述。其中:
①矩阵框是箱图的主体,上中下三条线分别表示
变量的第75、50、25百分位数。 ②中间的纵向直线称触须线,上截止截线是变量 值本体最大值,下截止截线是变量值本体最小值。 除异常值和极值以外的变量值成为本体值。 ③异常值所使用的标记为“0” 。 ④极值所使用标记为“*”。
图4-3 统计图对话框




①Boxplots单选项组:确定箱式图的绘制方式, 可以是按组别分组绘制(Factor levels together), 也可以不分组一起绘制(Depentends together),或 者不绘制(None)。 ②Descriptive复选项组:可以选择绘制茎叶图 (Stem-and-leaf)和直方图(Histogram)。 ③Normality plots with test选项:绘制正态分布 图并进行变量是否符合正态分布的检验。 ④Spread vs. Level with Levene Test单选项组: 当选择了分组变量时,对所有的散布/层次图来说, 同时输出回归直线斜率以及方差齐性的Levene’s检 验结果。如果选择了Transformed转换选项,将依 据转换后的数据计算。
图4-1 数据探索对话框

(2)从源变量中,选择若干个数值型变量作为因
变量送入Dependent框中。

(3)指定分组变量。在源变量框中选择一个或多
个分组变量进入Factor框中。 (4)选择标识变量。在源变量表中指定一个变量 作为观测量的标识变量,送入Label Cases by框中。 (5)Display栏,确定输出项。其中:Both选项





1、探究分析的作用 (1)考察数据的奇异性。过大或过小的数据均有 可能是异常值、影响点或是错误输入的数据。对于 这样的数据第一要找出,第二要分析原因,第三要 决定是否对这些数据进行处理。 (2)检查数据分布特征。许多分析方法对数据的 分布有一定要求,例如要求样本来自正态分布总体, 从实验或实际测量得到的数据是否符合正态分布的 规律,决定了它们是否可以选用只对正态分布数据 适用的分析方法。 (3)考查方差齐性。另外对若干组数据均值差异 性的分析需要根据其方差是否相等,选择进行检验 的计算公式。


表示输出图形以及描述统计量,Statistics选项表示
只输出描述统计量。Plots选项表示只输出图形。

(6)单击Statistics按钮,打开如图4-2所示的 对话框,选择描述统计量。其中:
图4-2 选择描述性统计量的对话框

①Descriptive复选项,要求输出基本描述统计 量,包括平均数、中位数、众数、5%的调整平均 值、标准误、方差、标准差、最大值、最小值、范 围、等距四分位数、峰度与偏度、峰度与偏度的标 准误。在Confidence intervals for mean框中设置 均值的置信区间。

受试者实施一次测量,但将奇数题和偶数题分开计
分,再计算奇数题和偶数题分数之间的相关系数。


4、内部一致性信度,问卷对每个概念的 测量往往都要用一系列的条目,因而根据这 些条目之间的相关性可以评价信度。

5、评分者信度,是由调查者给被测者打 分或评定等级,则这种测量的可靠性主要取
决于调查者评分的一致性和稳定性。
第四章
数据预处理和描述性分析
本章内容

第一节 异常值和缺失值的处理 第二节 信度与效度分析 第三节 描述性分析
第一节 异常值和缺失值的处理

一、异常值的检验和处理
(一)异常值的检验
一批数据中,有部分数据与其他数据相比明显不 一致的称为异常值,或称离群值。如果数据中混进了 异常值,就会使相应分析误差增大。因此,在利用数 据进行分析之前,有必要对异常数据进行检验并做相 应处理,以便于发现具有普遍性的规律。 SPSS中Explore过程主要用于对资料的性质、分 布特点等完全不清楚时的一种检验,故又称之为探索 性分析,对于异常值的检验具有很好的作用。
②M-estimators复选项,要求输入集中趋势最大 似然比的稳健估计。


③Outliers复选项,要求输出5个最大值与最小值, 在输出窗口中它们被标明为极端值。
④Percentiles复选项,要求输出第5、10、25、 50、75、90以及95百分位数。


(7)展开Plots对话框,见图4-3所示,选择统计图 形及其参数。
定有效。


(二)效度衡量的具体方法
效度表示测量工具能够测出其所要测量的特征 的正确性,通常采用效度系数来衡量。效度系数 一般规定为与测量目标值的方差在总测量值方差 中所占的比例,即效度系数为:

(4)方差齐性检验 在进行均值多组间比较时,要求各组的方差相同,
所以要进行方差齐性检验,例如常用的方差分析就
要求分组样本的数据来自wk.baidu.com差相同的正态总体。另
外,在进行独立样本T检验之前也要事先进行方差
齐性检验。具体内容请见第六章。

3、探索分析过程在SPSS中的实现 (1)建立或打开了数据文件后,按从“Analyze” → “Descriptive Statistics”→“Explore”,进入 Explore对话框。见图4-1所示。

二、效度分析 (一)效度的定义

效度(validity)是指测量工具能够正确测量出
所要测量问题的程度。效度越高表示测量结果越能
显示出所要测量对象的真正特征。

信度与效度的关系为:信度仅考虑测量结果是否 一致,不涉及结果是否正确;效度是针对测量目的, 考察测量的有效程度。测量结果要有效是前提,在 有效的前提下再考虑测量的精确性,因为可信不一
假设检验产生问题;三是导致产生系统性偏差; 四 2
是导致以 统计量为基础的各种指数产生偏差; 五
是必须假定所有缺失都是MCAR类型。


2.替代法
替代法是设法为缺失值寻找合适的替代值,将其
插补到缺失值的位置,而进行计算的方法,它的思
想来源是以最可能的值来插补缺失值比全部删除不 完全样本所产生的信息丢失要少。


(6)形态匹配替代:是在已经采集的数据中,
寻找与缺失值类似的另一例,即相匹配的个例,以
其取值作为替代值的方法。
第二节 信度与效度分析

一、信度分析 (一)信度的定义 信度(reliability)是指测量结果具有一致性或稳 定性的程度,对于同一个人在不同时间,以相同的测 量工具进行测量,如果两次测量结果一致,表明测量 结果具有稳定性、可靠性。一致性越高,信度越高。

(二)缺失值的处理
1、删除法

当采集到的数据量很大时,可以将数据缺失的样
本删除。删除法又分为表列删除法和配对删除法。 (1)表列删除法,是将数据缺失的受访者的所 有资料全部删除的方法,不管受访者缺失数据的数 量,只要一项遗漏,则该受访者全部资料均被删除,

以保证进行运行的所有受访者数据都是完整的。这

二、缺失值的分类和处理 (一)缺失值的分类

缺失值是指现有数据集中某个或某些属性的值是
不完全的。缺失值分为几下几种:

1、从缺失的原因来讲分为机械原因和人为原因。
2、从缺失的分布来讲可以分为完全随机缺失
(MCAR) ,随机缺失(MAR)和系统缺失
(systematic missing) 。


(三)信度度量方法在SPSS软件中的实现
表4-6 信度测量调用过程表
调用过程 分析结果
测量方 法 再测信 度
Analyze→Scale→Reliability 内部相关ICC系数(测量变 Statistics→Intraclass correlation 量为连续变量和等级变 co-efficient选项 量) Analyze→Descriptive statistics →Crosstabs→Kappa选项 Kappa系数(测量变量为分 类变量)
复本信 度
Analyze→Correlation→bivariate根 Spearson相关系数、Kendall 据需要可选择Pearson、 等级相关系数和 Kendall’s tau-b和Spearman选项 Spearman等级相关系数

续表4-6
信度测量调用过程表
分析结果
测量方法 调用过程
折半信度 Analyze→ Scale→ ReliabilityModel中 Spearman-Brown系数、 Split-half选项 Guttman Split-Half系数 内部一致 Analyze→ Scale→ Reliabilitymodel 性信 中Alpha选项 度 Cronbach’s Alpha系数
2 T 2 X
2 E 2 X

RX
2 T 2 X


信度度量的具体方法有:
1、再测信度,采用同一个问卷在同一人群中先
后测量两次,评价两次测量的相关性。

2、复本信度,是在一个测量中采用两个或两个 以上的复本来对同一群研究对象进行测量时所得到 的结果的一致性程度。 3、折半信度,是指只用一个测量工具对同一组



(2)茎叶图:能直观地描述数据的频数分布。茎 叶图自左至右分为三大部分:频数、茎、叶。茎表 示数值的整数部分,叶表示数值的小数部分。每行 的茎和每个叶组成的数字相加再乘以茎宽,即茎叶 所表示实际数据的近似值。

(3)正态性检验:除偏度、峰度统计量外, SPSS还提供以下两种方法进行正态性检验: ①常 用的观测量数据的正态分布检验的方法是Q-Q图, 后面的章节会加以介绍。 ②Lillifors统计量检验法 可以在方差与均值未知的情况下直接使用,它是对 Kolmogorov-Smirnov统计量的修正。


(二)异常值的处理
1、删除法。如果样本充分大,删除异常值后对 整个结论没有影响,这种方法不失为一种简单可行 的方法。但如果样本数量本身有限,删除异常值后, 样本本身的代表性值得怀疑,也就会影响研究结论。

2、替代法,就是用正常数据区间的端点来替代 异常数据。如果某项数据服从正态分布,运用“拉 依达准则(3准则)”来进行异常值的检验;如果某 项指标不符合正态分布,就用 “五数概括法”来进 行异常值的检验。
一致性的程度也是相对的,误差越小,信度越高。信
度主要检测所收集数据的可靠性。

(二)信度的衡量方法
测量中通常有两类误差发生,即系统误差和随机误 差。测量的结果可以表示为:
X T BE


信度可以定义为

这时,信度表示成一种变差的比例,即相关系数的 平方,或如式
信度 1
相关文档
最新文档