spss教程-常用的数据描述统计:频数分布表等--统计学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二节常用的数据描述统计
本节拟讲述如何通过SPSS菜单或命令获得常用的统计量、频数分布表等。
1.数据
这部分所用数据为第一章例1中学生成绩的数据,这里我们加入描述学生性别的变量“sex”和班级的变量“class”,前几个数据显示如下(图2-2),将数据保存到名为“2-6-1.sav”的文件中。
图2-2:数据输入格式示例
1.Frequencies语句
(1)操作
打开数据文件“2-6-1.sav”,单击主菜单Analyze /Descriptive Statistics / F requencies…,出现频数分布表对话框如图2-3所示。
图2-3:Frequencies定义窗口
把score变量从左边变量表列中选到右边,并请注意选中下方的Display frequency table复选框(要求显示频数分布表)。
如果您只要求得到一个频数分布表,那么就可以点OK按钮了。
如果您想同时获得一
些统计量,及统计图表,还需要进一步设置。
①Statistics选项
单击Statistics按钮,打开对话框,请按图2-4自行设置。
有关说明如下:
(ⅰ)在定义百分位值(percentile value)的矩形框中,选择想要输出的各种分位数,SPSS提供的选项有:●Quartiles四分位数,即显示25%、50%、75%的百分位数。
●Cut points equal 把数据平均分为几份。
如本例中要求平均分为3份。
●Percentile显示用户指定的百分位数,可重复多次操作。
本例中要求15%、50%、85%的百分位数。
(ⅱ) 在定义输出集中趋势(Central Tendency)的矩形框中,选择想要输出的集中统计量,常用的选项有:●Mean 算术平均数
●Median 中数
●Mode 众数
●Sum 算术和
(ⅲ)在定义输出离散统计量(Dispersion)的矩形框中,选择想要输出的离散统计量,常用的选项有:●Std. Deviation 标准差
●Variance 方差
●Range 全距
●Minimum 最小值
●Maximum 最大值
●S.E. mean 平均数的标准误
(ⅳ)描述数据分布(Distribution)的统计量
●Skewness 偏度,非对称分布指数。
●Kurtosis 峰度,CASE围绕中心点的扩展程度。
另外,频数过程(Frequence)除了能够提供上面常用的统计量外,还可以对分组数据计算百分位数和中数(Values are group midpoints),即对于已经分组的数据,并且数据中的原始数据表示的是组中数的数据计算百分位数的值和中位数。
图2-4:次数分布统计量定义窗口图2-5:次数分布图形定义窗口
在本例中,我们选择输出:四分位点的值,平均分为3等分的分位点的值和15%,50%,85%的分位点的值;对于集中趋势的度量,选择输出算术平均数、中数、众数和总和,对于离散程度的度量选择输出标准差和方差。
②Charts选项
为了获得统计图表,单击主对话框中的Charts铵钮,打开它的对话框,如图2-5所示。
用户可以在图形类型(Chart Type)选择框中定义输出的图形类型,频数(Frequence)过程可以提供的输出选项有:
●None 不显示图表
●Bar charts 条形图
●Pie charts 圆形图
●Histograms 直方图
另外,对于图形中纵坐标值的表示,可以有两种方式:
●Frequencies 纵座标为变量值的频数
●Percentages 纵座标为变量值的百分比
在本例中,由于学生成绩可以看成是连续性的数据,所以这里选择输出直方图,并拟合正态曲线。
点击Continue返回主对话框。
③Format选项
单击Format…,打开Format对话框,如图2-6所示。
在该对话框,可以选择数据输出显示的顺序(Order by),Frequencies提供的选项有:
●Ascending values 在输出频数分布表时按变量值升序排列
●Descending values 在输出频数分布表时按变量值降序排列
●Ascending counts 输出频数分布表时按变量值频数的升序排列
●Descending counts 输出频数表时按变量值频数的降序排列
图2-6:定义输出显示格式对话框
在Format中我们一律使用默认选项。
点击Continue返回主对话框,在主对话框中点击OK,可以得到次数分布的输出结果。
(2)结果及解释
①学生成绩变量的Frequences输出描述统计结果:
输出说明:
●N 后面的Valid和Missing分别用来描述有效值样本容量和缺失值的样本个数,在本例所用数据中,
有100个有效数字,缺失值的个数为0。
●Mean、Median、Mode 和Sum分别用来描述算术平均数、中数、众数和数据的总和,本例所用数据
的算术平均数为79.680,中数为79.75,众数为80,数据总和为7968.0。
●Std. Deviation和Variance分别用来描述数据的标准差和方差,这里数据的标准差为7.026,方差为
49.371。
●Percentiles后给出不同的百分位数对应的值,如15后面的数字72.075表示,15%的分位点的值为
72.075,即小于72.075分的人数占总人数的15%。
(表中有两个无穷循环小数,是我们自定义的三等
分的百分位数)
②学生成绩的频数分布表:
SCORE
Frequency Percent Valid Percent Cumulative Percent
Valid 62.0 1 1.0 1.0 1.0
65.0 1 1.0 1.0 2.0
66.0 1 1.0 1.0 3.0
67.0 1 1.0 1.0 4.0
68.0 1 1.0 1.0 5.0
68.5 1 1.0 1.0 6.0
69.0 1 1.0 1.0 7.0
70.0 1 1.0 1.0 8.0
70.5 1 1.0 1.0 9.0
71.5 1 1.0 1.0 13.0
72.0 2 2.0 2.0 15.0
72.5 1 1.0 1.0 16.0
73.0 2 2.0 2.0 18.0
73.5 2 2.0 2.0 20.0
74.0 2 2.0 2.0 22.0
74.5 2 2.0 2.0 24.0
75.0 3 3.0 3.0 27.0
75.5 2 2.0 2.0 29.0
76.0 3 3.0 3.0 32.0
76.5 2 2.0 2.0 34.0
77.0 2 2.0 2.0 36.0
77.5 2 2.0 2.0 38.0
78.0 3 3.0 3.0 41.0
78.5 2 2.0 2.0 43.0
79.0 4 4.0 4.0 47.0
79.5 3 3.0 3.0 50.0
80.0 5 5.0 5.0 55.0
80.5 3 3.0 3.0 58.0
81.0 3 3.0 3.0 61.0
81.5 2 2.0 2.0 63.0
82.0 3 3.0 3.0 66.0
82.5 2 2.0 2.0 68.0
83.0 4 4.0 4.0 72.0
83.5 2 2.0 2.0 74.0
84.0 3 3.0 3.0 77.0
84.5 1 1.0 1.0 78.0
85.0 1 1.0 1.0 79.0
85.5 1 1.0 1.0 80.0
86.0 3 3.0 3.0 83.0
86.5 1 1.0 1.0 84.0
87.0 2 2.0 2.0 86.0
87.5 1 1.0 1.0 87.0
88.0 1 1.0 1.0 88.0
88.5 1 1.0 1.0 89.0
89.0 2 2.0 2.0 91.0
89.5 1 1.0 1.0 92.0
90.0 1 1.0 1.0 93.0 90.5 1 1.0 1.0 94.0
92.5 1 1.0 1.0 96.0
93.0 1 1.0 1.0 97.0
94.0 1 1.0 1.0 98.0
96.0 1 1.0 1.0 99.0
98.0 1 1.0 1.0 100.0
Total 100 100.0 100.0
在输出的频数分布表中,第一列给出数据中出现的不同数值;第二列给出该数值对应的频数(Frequency);第三列给出对应数据在总数据中所占的百分比(Percent);第四列给出有效百分比(Valid percent)即去除缺失值后的百分比,由于在此例中不含有缺失值所以该列数据与第三列相同;最后一列给出累加百分比(Cumulative percent)。
如数据70,对应的频数为1,表示在这组数据中70出现了1次,所占比例和有效百分比都是1%,累计百分比8%表示小于等于70的人数占总人数的8%。
2.Descriptives
仍以上面所用数据为例,简单说明另外一种常用的输出描述统计量的过程—Descriptive。
打开数据文件“2-6-1.sav”,
(1)操作
单击主菜单Analyze /Descriptive Statistics / Descriptives…,打开主对话框如图2-7所示:
图2-7:Descriptives定义窗口
将左边变量表列中的class、sex和scores变量选到右边的变量表列(Variable(s))中。
注意选中下方Save standardized values as variables复选框,即要求把该变量值的标准分存为一变量,并在数据窗口中显示(请注意在执行完操作后自行查看结果,新生成的变量名称分别为zclass、zsex和zscore)。
图2-8:Descriptives的options窗口
①options选项
单击options…按钮,打开描述统计过程的选择输出对话框(Descriptives:Options),设置如图2-8所示:请注意,这里所给出的一些统计量,与在Frequencies 中所给的相差无几。
所以,当我们需要用到这些描述统计量的时候,可以不受一种特殊方法的限制。
在此不再对这些统计量作过多说明,如有不解之处,请参阅Frequencies部分。
在图2-8的下方,提供了有关输出显示顺序(Display Order)的定义框:
●Variable list 变量表列中变量的排列顺序为数据窗口中的顺序
●Alphabetic 按字母顺序
●Ascending means 按平均数的升序排列
●Descending means 按平均数的降序排列
定义完成后,点击Continue,返回主对话框,点击OK,可以得到的输出结果。
(2)结果及解释
Descriptive Statistics
Variance
N Range Minimum Maximum Sum Mean Std.
Deviation
Statistic Statistic Statistic Statistic Statistic Statistic Std. Error Statistic Statistic
CLASS 100 2.00 1.00 3.00 205.00 2.0500 8.087E-02 .8087 .654
SEX 100 1 0 1 48 .48 5.02E-02 .50 .252
SCORE 100 36.0 62.0 98.0 7968.0 79.680 .703 7.026 49.371
Valid N
100
(listwise)
结果解释:上表分别给出三个变量(class,sex和score)的样本容量、全距、最小值、最大值、和、均值、标准误、标准差和方差。
如对于学生分数(score)对应一行的输出结果显示:该组数据所含样本容量为100(N=100),最高分与最低分的差为36,即全距为36(Range=36)、最低分数为62分,即最小值为62(Minimum =62);最高分数为98分,即最大值为98(Maximum=98);100个学生分数总和为7968(Sum=7968);平均分79.68分(Mean=79.68),标准误为0.703(Std. Error=0.703)、标准差为7.026(Std. Deviation=7.026)和方差为49.371(Variance=49.371)。
再返回数据编辑(Data Editor)窗口,数据中多了三列数据分别命名为zclass,zsex和zscore,对应于三个变量的标准分数。
3.求分组平均数(Means命令)
有时我们常常需要求不同组的平均数和标准差,如对于上面所描述的资料,研究者往往预了解三个班级每个班学生的平均学习成绩等信息。
SPSS提供了用于描述分组数据描述统计量的过程----Means,下面仍用上面的数据介绍这一过程的具体应用。
(1)操作
打开数据文件“2-6-1.sav”,单击主菜单Analyze / Compare Means / Means…,打开Means对话框,将score选入右边的Dependent list对话框,将class选入右边的Independent list对话框。
如下图2-9所示:
图2-9 :Means语句主对话框图2-10 :Means的Options窗口
我们的目的在于计算不同班级学生的平均成绩和标准差。
①Options选项
在主对话框单击Options按钮,打开选择(Options)输出对话框如图2-10所示:
左面是统计量表列,包含一些常用的统计量,我们在Frequencies 与Descriptives中做过说明,在此从略。
右边三项:
●Mean 平均数
●Number of cases 样本容量
●Standard deviation 标准差
是默认的统计量,如果需要计算其他的统计量,可以将左侧统计量选入右侧。
这里我们采用默认的选项。
点击Continue返回主对话框,然后点击OK,得到最后的统计结果。
(2)结果及解释
①所用CASE 的情况
包括有效值与缺失值的实际数目及所占百分比。
Case Processing Summary
Cases
Included Excluded Total
N Percent N Percent N Percent
SCORE * CLASS 100 100.0% 0 .0% 100 100.0%
上面输出结果表明,在分析的100个数据中,有效数据100个,排除在分析之外的数据个数为零,说明在分析的这一组数据中不含有缺失数据。
②结果报告表:各班的平均数、标准差、每个班级的人数
CLASS Mean N Std. Deviation
1.00 79.733 30 6.579
2.00 80.557 35 7.288
3.00 78.757 35 7.215
Total 79.680 100 7.026
上述结果表明1班学生人数为30人,这次考试成绩的平均分数为79.733分,标准差为6.579分;2班学生人数为35人,这次考试成绩的平均分数为80.557分,标准差为7.288分;3班学生人数为35人,这次考试成绩的平均分数为79.757分,标准差为7.215分;三个班总学生人数为100人,总平均分数为79.680分,标准差为7.026分。