用SPSS对计数数据进行统计分析和检验
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第七节计数数据统计分析的SPSS操作
对于计数数据的统计分析,SPSS提供了不同的分析和检验方法,从总体上来说,大致可以分为:用于比率差异的非参数二项检验,用于离散型变量配合度检验的卡方检验、用于连续型变量配合度检验的单样本K-S检验和正态图检验法和用于独立性检验的列联表分析等,这一节我们简单介绍如何通过SPSS操作解决这些常见的计数数据分析的统计问题。
一、二项分布的非参数检验方法
我们常常需要检验一个事件在特定条件下发生的概率是否与已知结论相同,如某地区出生婴儿的性别比例是否与通常男女各半的结论相符,或在一次抽样中,男女两性所占的比例是否与原先设计好的比例相符。
此时即可用二项分布(Binomial)方法进行检验。
下面结合具体数据说明Binomial方法在检验比率差异时的应用。
1.数据
所用数据文件为SPSS目录下之GSS93 subset.sav。
这里我们将该数据文件另寸为“8-6-1.sav”。
该文件中有一变量SEX,是回答者的性别,我们想检验这些回答者的性别是否各占一半。
2.理论分析
从上面数据来看,我们的目的是检验数据中男生和女生所占的比例是否相等,这等价于检验男生所占的比例是否等于0.5,可以用比例检验的方法进行检验。
在SPSS中对应于二项分布的检验(Binomial Test)过程。
3.二项分布检验过程
(1)打开该数据文件后点击菜单Analyze,在下拉菜单中选择Nonparametrics Tests子菜单中的Binomial…,单击可进入二项检验(Binomial Test)的主菜单。
把SEX变量选入到检验变量表列
中,其他选项请保持默认(图8-1)。
图8-1:二项分布检验主对话框
(2)请单击Options…按钮,打开对话框如图8-2所示。
在此我们想同时在结果中输出一些描述
统计量及百分位数,可设置如图所示。
设置完成单击Continue按钮回到主对话框。
图8-2:二项分布Options窗口
(3)在主对话框中点击OK得到程序运行结果。
4.结果及解释
(1)输出数据描述统计量信息
NPar Tests
Descriptive Statistics
N Mean Std.
Deviation
Minimum Maximum Percentiles
25th 50th
(Median)
75th Respondent
's Sex
1500 1.57 .49 1 2 1.00 2.00 2.00
在描述统计表中,程序提供了样本容量、平均数、标准差、极值及三个百分位数。
(2)输出二项分布检验结果
Binomial Test
Category N Observed Prop. Test Prop. Asymp. Sig.
(2-tailed)
Respondent's
Sex Group 1 Male 641 .43 .50
.000
Group 2 Female 859 .57
Total 1500 1.00
a Based on Z Approximation.
在Binomial Test表中,所检验变量的有关信息,如男女两性的数目及比例,最后一项是双侧检验的显著性水平值。
本例数据检验结果表明:男生组的人数641,在总人数中所占的比例为0.43,假设的总体比例为0.5,双侧检验的显著性小于.05,所以我们可以说男女两性回答者比例相同的假设不能成立,从表中可以看出,女性被试远多于男性被试(女生人数859人,所占比例0.57)。
5.非对称二项分布的检验
也可以用该程序来检验样本数据分布是否来自非对称分布的二项总体。
以刚才我们用过的数据为例,假如在调查设计时,调查者想控制被试性别比例(男:女)为4:6,在调查结束后分析数据资料中的性别比例是否与原先所设想的一致。
操作如下:打开Binomial对话框,设置如下图8-3所示(指定检验的概率值为0.40):
图8-3:非对称二项分布比率定义
用户可以自行检验程序运行的结果。
如果用户指定分析的变量中含有三个或更多的变量值,在定义二分值时,需要选择Cut point 项,并在后面的方框中填入一个分界点,该分界点必须小于最大变量值,大于最小变量值。
小于或等于分界点的值形成第一项,大于分界点的值将形成第二项。
此时请注意如果指定检验概率值,它所对应的将是第一项的概率值。
请用户自行检验该程序。
二、配合度的检验
(一)、离散变量配合度检验——单样本 2检验
这种方法可用于离散型变量的配合度检验,分析实际频数与理论频数是否一致。
它要求至少有一个变量,变量值为几个固定值,即一个因素多项分类的情况。
1.数据
采用SPSS文件夹中的CARS.SA V数据为例,具体说明这一方法的应用。
CARS.SA V数据文件中有一变量为origin,变量值为1、2、3三个整数,分别代表三个地区,这三个整数出现的总次数是405。
我们现在欲检验这三个地区所出现的频率是否与预期的270、65、70一致。
将该数据文件另存为“8-6-2.sav”。
2.理论分析
从上面数据来看,我们的主要目的是检验三个地区的实际观测频率与理论假设的270、65、70是否存在差异,属于离散变量配合度检验的问题,应用卡方检验。
3.单样本χ2检验过程和结果
(1)请单击主菜单Analyze / Nonparametric Tests / Chi-S quare…,可进入单样本χ2检验的主对话框。
从左边变量表列中把指定分析的地区变量选入到右边检验变量表中去,在下面Expected values 中选择Values一项,并分别把理论次数填入到小方框中,并点击Add按钮完成设置。
如果我们欲检验的理论次数各组相等,则可以直接选择All categories eaqual项即可。
在Expected range项中保持默认选择项即Get from data。
如果我们只想使用一部分按大小顺序排列的数据来进行分析,就可以选择Use specified range,并指定数据的下限与上限。
本例设置如下图11-1所示:
图11-1
(2)E xact…按钮可以保持默认选项。
Options…按钮允许用户指定输出结果是否包括描述性统计量,以及对缺失值的处理方法。
因与前面所讲述的用法相同,在此不再赘述。
点击Continue返回主对话框。
(3)在主对话框中点击OK,得到输出结果。
4.结果及解释
(1)描述统计量表列出了变量名、样本容量、平均数、标准差、最小值、最大值。
Descriptive Statistics
N Mean Std. Deviation Minimum Maximum
Country of Origin 405 1.57 .80 1 3
(2)实际观测数与理论次数对照表列出了每个变量值的实际频数与理论次数及差值。
Country of Origin
Observed N Expected N Residual
American 253 270.0 -17.0
European 73 65.0 8.0
Japanese 79 70.0 9.0
Total 405
本例中,美国(American)实际观测次数253人,理论期望次数270人,实际观测次数与理论次数的差异为-17;欧洲(European)实际观测次数73人,理论期望次数65人,实际观测次数与理论次数的差异为8;日本(Japanese)实际观测次数79人,理论期望次数70人,实际观测次数与理论次数的差异为9。
(3)χ2检验表列出了χ2值,自由度及显著性水平值。
在这种基于渐近分布的检验方法中,显著性水平小于0.05 即可认为实际次数与理论次数差异显著,否则差异不显著。
Test Statistics a
Country of Origin
Chi-Square 3.212
df 2
Asymp. Sig. .201
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 65.0.
在本例中,对应的卡方统计量的值为3.212(χ2=3.212),对应的自由度为2(df=2),显著性水平值为0.201>0.05,故可认为实际次数与理论次数无差异。
(二).连续型变量的配合度检验——正态分布的检验
有时在执行统计分析前,需要确定样本是否来自一个正态分布的总体。
在此我们介绍一种非参数检验的方法及相应的图形检验法。
1.单样本的K-S检验
(1)数据我们仍以SPSS目录下的数据文件GSS93 subset.sav(或盘中文件8-6-1.sav)为例,我们欲检验educ变量值是否来自正态分布的总体。
(2)变量受教育程度可以看成是一个连续型的变量,要检验其分布是否为正态分布属于配合度检验的问题,可以用单样本的K-S检验。
(3)操作过程
①单击主菜单Analyze/Nonparametrics Test / 1-Sample K-S…,进入主对话框,请设置如下图8-4
所示:
图8-4: 单样本的柯尔莫哥洛夫—斯米诺夫检验主对话框程序所能检验的四种分布:Normal(正态分布)、Uniform(均匀分布)、Poisson(普阿松分布)和Exponedtial(指数分布)。
②单击Exact…可进入选择检验方法的对话框,如下图8-5所示:
图8-5:K—S检验的Exact选项
Asymptotic only 是一种基于渐近分布的显著性水平的检验指标,通常显著性水平小于0.05则认为显著,适于大样本,如果样本过小或分布不好,该指标的适用性会降低。
Monte Carlo 精确显著性水平的无偏估计,适用于样本过大无法使用渐近方法估计显著性水
平的情况,可以不必依赖渐近方法的假设前提。
Exact 精确计算观测结果的概率值,通常小于0.05即被认为显著,表明行变量与列变量之间存在相关。
同时允许用户键入每次检验的最长时间限制,可以键入1到9,999,999,999之间的数字,但只要一次检验超过指定时间的30分钟,就应该使用Monte Carlo方法。
注:只要有可能,程序会提供显著性水平的精确值,而不是Monte Carlo估计值。
③单击Options按钮可以进入对话框。
选择是否输出描述统计量和百分位数,以及以缺失值的处理,由于与以前所用过的程序相差无几,所以在此不赘述。
④在主对话框点击OK得到程序执行结果。
(4)结果及解释
①描述统计量信息
Descriptive Statistics
Minimum Maximum Percentiles
N Mean Std.
Deviation
75th
25th 50th
(Median) Highest Year
1496 13.04 3.07 0 20 12.00 12.00 15.75 of School
Completed
描述统计量表列指定检验变量的标签、样本容量、平均数、标准差、最大值、最小值及三个百分位数。
②单样本的K-S检验结果
One-Sample Kolmogorov-Smirnov Test
Highest Year of School Completed
N 1496 Normal Parameters Mean 13.04
Std. Deviation 3.07 Most Extreme Differences Absolute .163
Positive .134
Negative -.163
Kolmogorov-Smirnov Z 6.317 Asymp. Sig. (2-tailed) .000
a Test distribution is Normal.
b Calculated from data.
上表中输出了指定检验变量的正态参数,包括平均数与标准差,极端差的最大绝对值、正值及负值,K-S Z值,双侧检验的显著性水平。
由于渐近方法所检验的显著性水平小于0.05,所以变量educ的值并非来自一个正态分布的总体。
2.检验正态分布的图形
(1)Q-Q正态检验图
为了更形象地说明这一种结果,我们还将介绍一种图形检验方法。
仍以K-S检验所用数据文件和分析变量为例。
Q-Q正态检验图的操作过程如下:单击主菜单Graphs/Q-Q…,请保持对话框如下图8-6所示的设置(即把欲检验的变量选入到指定变量表列中去,在Test Distribution选项中选择Normal 即正态分布检验,其他设置保持默认):
图8-6:Q-Q图定义窗口
单击完成后输出两个统计图如下所示。
图8-7为正态分布Q-Q检验图,横坐标为实际观测值按从小到大的顺序排列,纵坐标为正态分布下的期望值。
如果实际观测值取自正态分布的总体,那么图中所示的落点应该分布在趋势线的附近,并且应该表现出一定的集中趋势,即平均数附近应该聚集较多的落点,越靠近两个极端落点越少。
现在图中落点的分布尽管呈现出线性状态,但由于没有表现出集中趋势,所以可以判断它并非正态分布或接近正态分布。
E x p e c t e d N o r m a l V a l u e
图8-7:正态分布Q-Q 检验图
D e v i a t i o n f r o m N o r m a l
图8-8为无趋势正态检验图
图8-8为无趋势正态检验图,它以实际观测值为横坐标,以实际观测值与期望值的差为纵坐标。
在符合正态分布的情况下,图中的落点应该分布在中央横线的附近,甚至完全落到这条横线上,而且也应表现出集中在平均数周围的趋势。
现在图中所示的落点分布离散性较大,不符合正态分布标准,所以我们可以说该样本属非正态分布。
从这个图中,我们还可以发现极端值的存在,例如图中离中央线最远的几个落点,都落在下方,表明样本数据中存在极端小的观测值,这时,需要检查数据录入是否有误。
如果变量分布明显地呈现非正态,在进行一些要求正态分布前提下的分析以前,应当考虑对数据进行必要的变换。
(2)P-P 正态检验图
单击主菜单Graphs/P-P…,进入主对话框。
设置与Q-Q 程序相同,它的输出图形也与Q-Q 极相似,唯一不同之处在于图形的横纵坐标都变成了累加百分比,横坐标为实际观测值的累加百分比,纵坐标为假定正态分布下有累加百分比。
是否接近正态分布的判断标准与Q-Q 输出图相同。
三.独立性检验——列联表分析
列联表分析可以为我们提供每类的实际观测值、理论值、所占百分比、及差异检验结果。
1.数据
仍以SPSS文件夹中的数据文件GSS93 subset.sav(或盘中文件“”8-6-1.sav)为例,在此数据中,有两个变量为income4(家庭年收入)与degree(学历)。
这两个变量都是按人为标准划分的定性变量(用户可以双击变量名,并在Labels按钮中看到变量值及其标签说明)。
现在我们想知道这两个变量之间是否存在关联,也就是说学历是否在年收入的不同分类上存在差异,反之亦然。
2.理论分析
如果要研究的两个变量都具有两项或更多的分类值,如体育项目的划分、人种的划分,或只是研究者按一定的标准分为不同的类别,如优、良、中、差,这种定性数据(或计数数据)之间关系(是指一个变量的不同分类在另一变量分类上是否存在差异,或者说两个变量是否相互关联)的研究通常使用列联表分析。
在分析过程中由于主要根据χ2分布进行,所以又常称其为χ2检验。
3.操作过程
(1)单击主菜单Analyze / Descriptive Statistics / Crosstabs…可进入列联表分析的主对话框。
从左边变量表列中把指定分析的两个变量degree与income4分别选到到右边Row与Column框中,如图8-9所示:
图8-9:Crosstabs…主对话窗口
(2)为了检验两个变量是否关联,我们需要对其进行检验。
这一步可以通过Statistics按钮进行。
单击该按扭可进入其设置对话框。
一般我们都需要输出χ2值及其检验结果,同时,在
Nominal组中,我们还发现可以选择列联相关系数C,即Contingency coefficient,这是检验R×C 表品质相关常用的一个指标。
完成设置如下图8-10所示:
图8-10:Crosstabs…统计量输出选择窗口
(3)SPSS在列联表时,允许用户自己控制表中的输出内容。
该项设置可以单击主菜单中Cells 按钮来进行。
打开它的对话框如图8-11所示,可以看到共有三组可选项,下面具体说明:·Counts 次数
Observed 实际观测频数
Expected 理论次数
·Percentages 百分比
Row 横行次数百分比
Column 纵列次数百分比
Total 总共
·Resduals残差
Unstandardized 残差,实际次数与理论次数之差。
Standardized 标准化残差,残差除以其标准误,又称Pearson残差,其均值为0,准差为1。
Adj. Standardized 调整标准化残差
图8-11:Crosstabs…单元格输出选择窗口
点击Continue,返回主对话框。
(4)在主对话框中点击OK,得到程序运行结果。
4.结果及解释
(1)文件中观测量的概括描述列出了有效观测量、缺失值及全部观测量的个数和百分比。
Case Processing Summary
Cases
Valid Missing Total
N Percent N Percent N Percent INCOME4 Total Family Income
* DEGREE RS Highest Degree
1496 99.7% 4 .3% 1500 100.0%
上表显示,总的观测为1500个,有效样本1496个,占99。
7%,缺失值4个,占0。
3%。
(2)R C表表中列出了两个变量每项分类,由用户指定输出的内容,如实际次数与理论次数。
INCOME4 Total Family Income * DEGREE RS Highest Degree Crosstabulation
DEGREE RS Highest Degree Total
0 Less than HS 1 High
school
2 Junior
college
3
Bachelor
4
Graduate
INCOME4
Total
Family
Income
1.00
24,999 or
less
Count 196 315 25 39 9 584
Expected
Count
108.9 304.5 35.1 91.3 44.1 584.0
2.00
25,000 to
39,999
Count 28 175 21 58 18 300
Expected
Count
55.9 156.4 18.0 46.9 22.7 300.0
3.00
40,000 to
59,999
Count 16 121 23 52 18 230
Expected
Count
42.9 119.9 13.8 36.0 17.4 230.0
4.00
60,000 or
more
Count 39 169 21 85 68 382
Expected
Count
71.2 199.2 23.0 59.8 28.9 382.0
Total Count 279 780 90 234 113 1496
Expected
Count
279.0 780.0 90.0 234.0 113.0 1496.0
(3)χ2检验表列出了三种χ2值及其显著性水平,若显著性水平小于临界值如0.05 ,则表明两变量互相关联,但不反映两变量的关联强度及方向。
在表的下方还附有单元格的理论次数小于5的个数及百分比,以及单元格的最小理论次数。
已有研究者建议当最小理论次数小于1或超过20%的单元格的理论次数小于5的时候不应选择该项,也有研究者建议所有单元格的理论次数都应大于或等于5。
为了达到这样的要求,在条件不具备的时候应该考虑对分类项目进行合并处理。
Chi-Square Tests
Value df Asymp. Sig. (2-sided)
Pearson Chi-Square 264.299 12 .000
Likelihood Ratio 266.638 12 .000
Linear-by-Linear Association 194.175 1 .000
N of Valid Cases 1496
a 0 cells (.0%) have expected count less than 5. The minimum expected count is 13.84.
本例中数据检验结果表明:3个统计量的值检验结果都达到了显著水平,说明检验的两个变量之间存在显著的关联。
(4)两变量的相关系数表列出了名义变量间的品质相关系数及显著性水平。
Symmetric Measures
Value Approx. Sig.
Nominal by Nominal Contingency Coefficient .387 .000
N of Valid Cases 1496
a Not assuming the null hypothesis.
b Using the asymptoti
c standar
d error assuming th
e null hypothesis.
在此C=0.387,虽然相关不是很高,但检验结果表明足以达到相关的显著性水平。