第4章 描述性统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2、应用举例
在数据编辑器中打开数据文件“Employee.sav”,若
在Frequencies对话框中的“variab1e(s)”列表框中输 入受教育年数“educ”变量名,单击“Statistics”按钮, 打开对话框,在Percentile Values方框中选择 “Quartiles”,选择其他对话框中的全部选项,如集中 趋势(Central Tendency)、离散趋势(Dispersion) 和分布状态(Distribution)等。设置完毕后(如图 4.2),单击“Continue”按钮后,回到Frequencies对 话框,再单击“0K”按钮,生成表4.1。该表为受教育 年数变量(educ)数据的频数分析表和变量数据统计 量描述表。应该注意的是,有些变量属于定类尺度, 仅表示代码,没有实际意义,如工作性质(Jobcat)、 性别(Gender)、民族(Minority)等,可以求频数及其分 布,但是不能求具体统计量;而有些连续的数值可以 求具体的统计量,但在不分组的情况下很难求频数。
7)Plots按钮可输出箱形图、直方图或茎叶图等图形,
打开P1ots对话框(图4.9),各选项的意义如下: ①Boxplots箱形图单,在Explore对话框中的 “Dependent”列表框输入多个变量名(因变量)后,在 该方框中进行适当选择,确定箱形图的生成方式。Factor levels together(缺省)选项,为每个因变量分别创建一 个箱形图,根据分组变量的不同水平创建箱形单元,适合 于要求比较高的分析。Dependents together选项,将为 所有因变量创建一个箱形图,并根据分组变量的不同水平, 为每个分组变量不同水平创建箱形单元,用不同的颜色区 分因变量对应的箱形单元,适合于比较直观的分析。 None选项,表示不输出箱形图。
Tendency选框:显示样本集中趋势的统计量,计算 并显示样本均值Mean,中位值Median,众数Mode,与累加和 Sum。 Values are group midpoints选框:当数据已经分组,数据取 值为组中值。选择此项,可计算百分位数和数据的中位数。 Dispersion选框:计算并显示数据的离散趋势。 Distribution选框:设置描述数据样本分布的统计量。如显示 样本偏度Skewness和偏度标准误差,样本数据峰度Kurtosis和 峰度标准误差。 5)Charts按钮是图形选择的对话框,选项意义如下 Chart Type将确定图形输出的类型。若不生成和显示图形, 可选None(缺省选项);若需生成和显示条形图(横坐标非等 距),可选Bar chart(s);若需生成和显示饼图,可选Pie chart(s);若需生成和显示直方图(横坐标为等距)可选 Histogram(s)。若选择Histogram(s)后,With normal curve核 选框为可用,选择此项,在生成和输出直方图时添加正态分布 曲线。
4.2 数据描述过程(Descriptives)
数据描述过程是数据分析中最常用、最基础的一部分,对于初学者而言,
无论是选择项目还是图表解读都是必须要求掌握的。 1、对话框说明 在Analyze菜单中单击“Descriptive Statistics”选项,打开Descrip tives对话框(图4.5),可见如下选择项: 1)从左边的源变量中选择合适变量,单击箭头键按钮到“Variable (s)” 列表框。可对列表框中所有被选中变量数据的分布特征进行描述。 2)Save standardized values as variables选框,是将被选中变量的数据 进行标准化处理,变量名为原变量名前面添加字母Z。新生成的变量和数据 保存到当前数据文件内,并显示在数据编辑器的最后。 3)若单击Options按钮则打开对话框(图4.6),各选项的意义如下: Mean选项、Sum选项、Dispersion方框内的选项,和Distribution方框内 选择意义参见前面Statistics对话框的内容,不再重复。 4)Display Order选项,用来设置描述表格中数据的显示顺序。Variable List单选钮为缺省选项,是按照数据文件中变量排列的先后顺序显示表格中 的描述统计量;Alphabetic单选项,按照变量名的字母a,b,c,……顺序显示 描述统计量;Ascending means项,是按照数据均值的升序显示描述统计 量;Descending means项,则按照数据均值的降序显示描述统计量。
4.3 数据探察过程(Explore)
假如我们对所调查数据的大小及其分布情况一无所知,那么常常用探察的手段做 数据的初步分析和了解。同时,数据探察也是数据深入挖掘、深入分析的前提。 1、对话框说明 单击主菜单“Explore”选项,打开对话框(图4.7),各选项意义如下: 1)左边变量名列表,列出了当前数据文件中的所有变量名。 2)Dependent List列表框中,输入因变量的变量名。 3)Factor List列表框中,输入分组变量的变量名。 4)Label Cases by窗口中,输入每个变量名相应的标识或标签。 5)Display单选框中的选项是确定显示的具体内容。选择Both单选项(缺省项), 输出统计表格和图形;Statistics选项仅输出统计表格;Plots选项仅输出图形。 6)Statistics按钮(图4.7),各选项的意义如下:Descriptives选框,将生成相 应输出表,表中显示样本数据的描述统计量,包括平均值、中位数、5%调整平 均数、标准误、方差、标准差、最大值,最小值、极差、四分位数、峰度、偏度 及峰度和偏度的标准误差。缺省时选择此项。在后面的“Confidence interval for” 窗口中输入数值,确定平均值的置信区间,缺省值为95%。 M-estimators选项,将计算并输出反映集中趋势的最大似然化的稳健估计量。 Outliers选项将输出5个最大和5个最小值,作为异常嫌疑值。 Percenti1es选项,计算并显示指定的百分位数以及Turkey的四分数,指定的百 分位数包括5%、10%、25%、50%、75%、90%和95%等。
基本数学模型
样本数据通过调查或观察,采集到样本以后,常用一 些统计量描述这些数据的分布状态,并通过这种认识, 对数据的总体特征进行总结和归纳。数据的分布状态 常通过数据的集中趋势和离中趋势进行描写。 描述集中趋势的统计量 (1)算术平均值样本数据的总和除以数据个数得算 术平均值。算术平均值是描述样本数据中心趋势最常 用的统计量,因为它具有计算简便、稳定的优点。在 分组情况下,假定n组数据,数值(或平均数)分别 为X1、X2......Xn,相应各组样本分别为f1、 f2、……fn个,其算术平均为:
第4章 描述性统计
4.1频数分析过程(Frequencies) 4.2 数据描述过程(Descripives) 4.3 数据探察过程(Explore) 4.4 列联表分析过程(Crosstabs) 4.5 复选题的统计和分析 4.6 报告分析
本章提要
前文介绍了SPSS窗口的基本操作技巧,从本章起 将介绍如何应用该软件来实现各种统计分析过程, 将对各种统计分析方法的基本原理,过程调用方法, 选择项的含义,项目的操作方法及注意事项等多方 面进行介绍,并用大量数据和丰富的个例来说明统 计方法的调用和分析结果。首先,回顾该统计方法 的基本原理;其次,介绍通过系统默认值的使用得 到最基本的统计数据,这对初学者的学习是有帮助 的;再次,通过个例尽可能尽多地说明相关对话框 的调用和选择方法。 SPSS分析过程在主菜单的Analyze中,通过调用各 种分析过程,得到对数据的数值分析结果。本章将 介绍统计分析中最常用描述性分析。
X
Leabharlann Baidu
X
i 1 n
n
i
* fi
i
f
i 1
X 1 * f 1 X 2 * f 2 ...... Xn * fn f 1 f 2 ...... fn
4.1 频数分析过程
Frequencies过程通过单变量的频数分析(FREQUENCIES)来达到整 理数据的目的,利用该过程,得到一系列描述数据分布状况的统计量。 1、对话框介绍 单击“Frequencies”选项则可打开对话框,该对话框各选项意义如下: 1)图4.1对话框左侧的源变量名列表框中,给出了当前数据文件中所有 变量的变量名。 2)Variab1e(s)列表框:从该框中选择某变量后,单击对话框中间的箭 头按钮,将变量名移到该列表框中。选定变量名后,将对选定变量的 数据进行频数分析。 3)Display frequency table选项框:默认为显示频数分布表,否则只显 示直方图,不显示频数表。 4)若单击图4.1右上方Statistics按钮,则打开统计量选择对话框(图 4.2),该对话框中各选项的意义如下。 Percentile Values复选框,可计算并显示如下内容:四分位数(Quar tiles)、等间隔 n分位数(Cut Points for:窗口中输入数值为n)、和 不等间隔Percentile(s)分位数。Percentile(s)选框后面的窗口中依次输 入数值p,单击“Add”按钮,显示在列表框中,利用“Change”和 “Remove”按钮,可以对列表进行修改。
2、应用举例
在Descriptives对话框中的“Variable(s)”列表
框中输入变量名“jobcat”,选择Descriptives: Options对话框中的所有选框如图4.6,在 Descriptives对话框中单击“OK”按钮,生成 表4.2。其说明该单位474职工,职工平均工 资(Mean)3.44万美元、工资极差(Range) 11.9万、工资标准误(Std. Error)784美元、 标准差(Std. Deviation)1.7万、偏度 (Skew)和峰度(Kurtosis)分别为2.1和 5.4等。
②选择Descriptive方框的复选项,将生成茎叶图 stem-and-leaf(缺省项)和直方图Histogram。 ③Normality p1ots with tests选项,可生成正态概率 图和无趋势曲线离散正态概率图。 ④Spread vs.Level with Levene Test选项,必须 先在Explore对话框中输入分组变量。选择方框内的 选项,将决定是否创建输出分布——水平图,并进 行方差齐次检验和数据转换(Transformed Power)。若选择Untransformed选项,则可以输出 方差齐性的Levene's检验。其假设为H0:σ1²=σ2² ,两 总体方差相等;H1:σ1²≠σ2² ,两总体方差不等。
Central
6)图4.1中的Format按钮:可激活图4.4的频数分析表,其 输出格式选项的意义如下: Order by选项设置表中数据的排列、输出顺序。若按照变量 值的大小作升序排列(缺省选项),选Ascending values单 选钮;若按照变量值的大小作降序排列,则选Descending values单选钮;若按变量值出现的频数作升序排列、输出, 则选Ascending counts单选钮;若按照变量值出现的频数作 降序排列、输出,则选Descending counts。一般选择默认 项。 Multip1e Variables选项是多个变量的表格显示格式。若选择 Compare variables(缺省选项),将对应于各变量的统计 量显示在一张单独的表中。若选择Organize output by varlable单选项,将对应于各变量的统计量分别列表显示。 Suppress tables with more than n categories选框是限定频 数表输出的范围,若选择此项,在后面的窗口中输入数值n, 即输出数据的组数n不得大于窗口中输入的数值。缺省时该 数值为10。