第四章 SPSS基本统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(3)压缩频数分布表(Suppress tables with more than n categories): 如果变量 取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS 默认, 如果变量取值的个数或取值区间的个数大于 10,则不输出相应的频数分布表。应用中可以 修改该值。 4.1.4 频数分析的应用举例 利用居民储蓄调查数据进行频数分析,有以下两个分析目标:
的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution) 的基本统计量等。
设置频数表输出的格式
3、频数分布表格式(Format)的定义 (1)调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序
可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values), 按频数的升序输出( Ascending counts),按频数的降序输出( Descending counts)。
(2)multiple variables 单选框组:如果选择了两个以上变量作频数表,则 compare variables 可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较; organize output by variables 则将结果在不同的频数表过程输出结果中显示,每一个变 量一张表。
S .E.of .Mean
(x X )2
M
[ x E ( x )]2
M
n
其中:
为总体标准差,n 为样本单位数
2、刻画离散程度的描述统计量
离散程度是指一组数据远离其“中心值”的程度。
如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中
心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,
在上面窗口中,用户可以指定分析多变量时结果输出的次序(Display Order)。其中, Variable list 表示按变量在数据窗口中从左到右的次序输出;Alphabetic 表示按字母顺序 输出;Ascending Means 表示按均值升序输出;Descending Means 表示按均值降序输出。
n
( xi
i 1
x)4 / 4 3
当数据分布与标准正态分布的陡峭程度相同时,峰度值等于 0;峰度大于 0 表示数据的 分布比标准正态分布更陡峭,为尖峰分布;峰度小于 0 表示数据的分布比标准正态分布平缓, 为平峰分布。 4.2.2 计算基本描述统计量的操作 (1)选择菜单 Analyze-Descriptive Statistics-Descriptives,出现如下窗口:
1、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个 变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量 不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变 量分布情况的研究通常要利用交叉分组下的频数分析来完成。 幻灯片 37
x
1 n
n i 1
xi
分析:
(2)中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价 社会的老龄化程度时,可用中位数。
(3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种 型号鞋的生产计划时应该运用众数。
(4)均值标准误差(Standard Error of Mean):描述样本均值与总体均值之间的平均 差异程度的统计量。 其计算公式为:
总偏差不相等,偏度值大于 0 或小于 0。偏度值大于 0 表示正偏差值大,称为正偏或右偏; 偏度值小于 0 表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏 斜程度越大。 (2)峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:
Kurtosis
1 n
第四章 SPSS 基本统计分析 ——描述性统计分析 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条 件。SPSS 的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在 Descriptive Statistics 菜单中,包括: Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析 4.1 频数分析 4.1.1 频数分析的目的和基本任务 1、目的 基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数 据的分布特征是非常有用的。 2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效样本数 =总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值 为 100。 (2)频数分析的第二个任务是绘制统计图 条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布变化的图形, 适用于定序和定类变量的分析。 饼图(Pie Chart):用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利 于研究事物内在结构组成等问题。 直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型 变量的分析。 注:变量的计量尺度: a 定类 (Category Scale):只能计次 b 定序 (Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 d 定比 (Ratio Scale):计次、排序、加减、乘除 4.1.2 频数分析的基本操作 (1)选择菜单 Analyze—Descriptive Statistics—Frequencies。 (2)将若干频数分析变量选择到 Variable(s)框中。 (3)单击 Chart 按钮选择绘制统计图形,在 Chart Values 框中选择条形图中纵坐标(或 饼图中扇形面积)的含义,其中 Frequencies 表示频数;Percentages 表示百分比。
(2)将需计算的数值型变量选择到 Variable(s)框中。 (3)单击 Option 按钮指定计算哪些基本描述统计量,出现如下窗口:
当 Variables 框中有多个变量时,此框确定其输出顺序: 按 Variables 框中的排列顺序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
zi
xi x
通过标准化可以得到一系列新变量值,通常称为标准化值或 z 分数。计算标准化值可以 通过对话框中的复选框 save standardized values as variables 来实现,并将结果保存在 一个新变量中。该变量的命名规则为字母 z+原变量名的前七个字符。
接下来可对新变量进行排序并浏览其标准化值的取值情况,可以发现 z 分数值得绝对数 大于 3 的储户是存在的。对其分组为三组:za5<-3, -3<za5<3, za5>3 并进行频数分析可 以发现存款金额存在一定的不均衡现象。 4.3 交叉分组下的频数分析 4.3.1 目的和基本任务
目标一:分析储户的户口和职业的基本情况。 目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 1、分析思路: (1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态 的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。 (2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位 数,并通过四分位数比较两者分布上的差异。 2、分析过程: (1)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于 500 元,500 -2000 元,2000-3500 元,3500-5000 元,5000 元以上。分组后进行频数分析并绘制带正 态曲线的直方图。 (2)利用 SPSS 的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照 户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的 存(取)款金额的四分位数。 4.2 计算基本描述统计量 4.2.1 基本描述统计量 常见的基本描述统计量有三大类: 刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量 1、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。 (1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的 指标。如某企业职工的平均月收入。其计算公式为:
2
1 n
n
( xi x) 2
i 1
(3)标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程
度的统计量。其计算公式为:
s
1
n
n
( xi x)2
i 1
标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。 3、刻画分布形态的描述统计量
Βιβλιοθήκη Baidu
4.1.3 SPSS 频数分析的扩展功能 1、计算分位数(Percentile Values)
分位数是变量在不同分位点上的取值。分位点在 0-100 之间。一般使用较多的是四分 位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是 25%, 50%,75%。于是四分位数便分别是 25%,50%,75%点所对应的变量值。此外,还有八 分位数、十六分位数等。
数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。
常见的刻画离散程度的描述统计量如下:
(1)全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之
间的绝对离差。
(2)方差(Variance):也是表示变量取值离散程度的统计量,是各变量值与算数平均
数离差平方的算术平均数。其计算公式为:
SPSS 提供了计算任意分位数的功能,用户可以指定将数据等分为 n 份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。
2、计算其他基本描述统计量 SPSS 频数分析还能够计算其他基本统计量,其中包括描述集中趋势(Central Tendency)
2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列联表; (2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。 4.3.2 交叉列联表的主要内容
至此,SPSS 便自动计算所选变量的基本描述统计量并显示到输出窗口中。 4.2.3 计算基本描述统计量的应用举例 1. 利用居民储蓄调查数据,对一次存款金额变量计算基本描述统计量。有以下分析目
标:计算存款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较 分析:首先按照户口对数据进行拆分(Split file),然后计算存(取)款金额的基本 描述统计量。 2. 分析储户一次存款的数量是否存在不均衡现象。 分析:假设储户一次存款金额服从正态分布,跟据 3 原则,异常值通常为 3 个标准差 范围之外的值,可通过对数据的标准化处理来判断。标准化的数学定义为:
数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种:
(1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:
Skewness
1 n
n
( xi
i 1
x)3 / 3
当分布为对称分布时,正负总偏差相等,偏度值等于 0;当分布为不对称分布时,正负
的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution) 的基本统计量等。
设置频数表输出的格式
3、频数分布表格式(Format)的定义 (1)调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序
可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values), 按频数的升序输出( Ascending counts),按频数的降序输出( Descending counts)。
(2)multiple variables 单选框组:如果选择了两个以上变量作频数表,则 compare variables 可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较; organize output by variables 则将结果在不同的频数表过程输出结果中显示,每一个变 量一张表。
S .E.of .Mean
(x X )2
M
[ x E ( x )]2
M
n
其中:
为总体标准差,n 为样本单位数
2、刻画离散程度的描述统计量
离散程度是指一组数据远离其“中心值”的程度。
如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中
心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,
在上面窗口中,用户可以指定分析多变量时结果输出的次序(Display Order)。其中, Variable list 表示按变量在数据窗口中从左到右的次序输出;Alphabetic 表示按字母顺序 输出;Ascending Means 表示按均值升序输出;Descending Means 表示按均值降序输出。
n
( xi
i 1
x)4 / 4 3
当数据分布与标准正态分布的陡峭程度相同时,峰度值等于 0;峰度大于 0 表示数据的 分布比标准正态分布更陡峭,为尖峰分布;峰度小于 0 表示数据的分布比标准正态分布平缓, 为平峰分布。 4.2.2 计算基本描述统计量的操作 (1)选择菜单 Analyze-Descriptive Statistics-Descriptives,出现如下窗口:
1、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个 变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量 不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变 量分布情况的研究通常要利用交叉分组下的频数分析来完成。 幻灯片 37
x
1 n
n i 1
xi
分析:
(2)中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价 社会的老龄化程度时,可用中位数。
(3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种 型号鞋的生产计划时应该运用众数。
(4)均值标准误差(Standard Error of Mean):描述样本均值与总体均值之间的平均 差异程度的统计量。 其计算公式为:
总偏差不相等,偏度值大于 0 或小于 0。偏度值大于 0 表示正偏差值大,称为正偏或右偏; 偏度值小于 0 表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏 斜程度越大。 (2)峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为:
Kurtosis
1 n
第四章 SPSS 基本统计分析 ——描述性统计分析 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条 件。SPSS 的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在 Descriptive Statistics 菜单中,包括: Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析 4.1 频数分析 4.1.1 频数分析的目的和基本任务 1、目的 基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数 据的分布特征是非常有用的。 2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效样本数 =总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值 为 100。 (2)频数分析的第二个任务是绘制统计图 条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布变化的图形, 适用于定序和定类变量的分析。 饼图(Pie Chart):用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利 于研究事物内在结构组成等问题。 直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型 变量的分析。 注:变量的计量尺度: a 定类 (Category Scale):只能计次 b 定序 (Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 d 定比 (Ratio Scale):计次、排序、加减、乘除 4.1.2 频数分析的基本操作 (1)选择菜单 Analyze—Descriptive Statistics—Frequencies。 (2)将若干频数分析变量选择到 Variable(s)框中。 (3)单击 Chart 按钮选择绘制统计图形,在 Chart Values 框中选择条形图中纵坐标(或 饼图中扇形面积)的含义,其中 Frequencies 表示频数;Percentages 表示百分比。
(2)将需计算的数值型变量选择到 Variable(s)框中。 (3)单击 Option 按钮指定计算哪些基本描述统计量,出现如下窗口:
当 Variables 框中有多个变量时,此框确定其输出顺序: 按 Variables 框中的排列顺序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
zi
xi x
通过标准化可以得到一系列新变量值,通常称为标准化值或 z 分数。计算标准化值可以 通过对话框中的复选框 save standardized values as variables 来实现,并将结果保存在 一个新变量中。该变量的命名规则为字母 z+原变量名的前七个字符。
接下来可对新变量进行排序并浏览其标准化值的取值情况,可以发现 z 分数值得绝对数 大于 3 的储户是存在的。对其分组为三组:za5<-3, -3<za5<3, za5>3 并进行频数分析可 以发现存款金额存在一定的不均衡现象。 4.3 交叉分组下的频数分析 4.3.1 目的和基本任务
目标一:分析储户的户口和职业的基本情况。 目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 目标二:分析储户一次存款金额的分布,并对城镇储户和农村储户进行比较。 1、分析思路: (1)由于存(取)款金额数据为定距型变量,直接采用频数分析不利于对其分布形态 的把握,因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表。 (2)进行数据拆分,并分别计算城镇储户和农村储户的一次存(取)款金额的四分位 数,并通过四分位数比较两者分布上的差异。 2、分析过程: (1)数据分组,将存(取)款金额重新分成五组,五组区间分布为,少于 500 元,500 -2000 元,2000-3500 元,3500-5000 元,5000 元以上。分组后进行频数分析并绘制带正 态曲线的直方图。 (2)利用 SPSS 的频数分析计算所有样本的存(取)款金额的四分位数;然后,按照 户口类型对数据进行拆分(Split file)并重新计算分位数,分别得到城镇户口和农村户口的 存(取)款金额的四分位数。 4.2 计算基本描述统计量 4.2.1 基本描述统计量 常见的基本描述统计量有三大类: 刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量 1、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。 (1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的 指标。如某企业职工的平均月收入。其计算公式为:
2
1 n
n
( xi x) 2
i 1
(3)标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程
度的统计量。其计算公式为:
s
1
n
n
( xi x)2
i 1
标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。 3、刻画分布形态的描述统计量
Βιβλιοθήκη Baidu
4.1.3 SPSS 频数分析的扩展功能 1、计算分位数(Percentile Values)
分位数是变量在不同分位点上的取值。分位点在 0-100 之间。一般使用较多的是四分 位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是 25%, 50%,75%。于是四分位数便分别是 25%,50%,75%点所对应的变量值。此外,还有八 分位数、十六分位数等。
数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。
常见的刻画离散程度的描述统计量如下:
(1)全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之
间的绝对离差。
(2)方差(Variance):也是表示变量取值离散程度的统计量,是各变量值与算数平均
数离差平方的算术平均数。其计算公式为:
SPSS 提供了计算任意分位数的功能,用户可以指定将数据等分为 n 份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。
2、计算其他基本描述统计量 SPSS 频数分析还能够计算其他基本统计量,其中包括描述集中趋势(Central Tendency)
2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列联表; (2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。 4.3.2 交叉列联表的主要内容
至此,SPSS 便自动计算所选变量的基本描述统计量并显示到输出窗口中。 4.2.3 计算基本描述统计量的应用举例 1. 利用居民储蓄调查数据,对一次存款金额变量计算基本描述统计量。有以下分析目
标:计算存款金额的基本描述统计量,并分别对城镇储户和农村储户进行比较 分析:首先按照户口对数据进行拆分(Split file),然后计算存(取)款金额的基本 描述统计量。 2. 分析储户一次存款的数量是否存在不均衡现象。 分析:假设储户一次存款金额服从正态分布,跟据 3 原则,异常值通常为 3 个标准差 范围之外的值,可通过对数据的标准化处理来判断。标准化的数学定义为:
数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种:
(1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:
Skewness
1 n
n
( xi
i 1
x)3 / 3
当分布为对称分布时,正负总偏差相等,偏度值等于 0;当分布为不对称分布时,正负