第五章 SPSS单变量描述统计分析(副)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1、计算分位数(Percentile Values) 、计算分位数( ) 分位数是变量在不同分位点上的取值。分位点在 - 分位数是变量在不同分位点上的取值。分位点在0- 100之间。一般使用较多的是四分位点(Quartiles) 之间。 之间 一般使用较多的是四分位点( ) 即将所有数据按升序排序后平均等分成四份, ,即将所有数据按升序排序后平均等分成四份,各分位点 依次是25%, %,75%。于是四分位数便分别是25 %,50%, %。于是四分位数便分别是 依次是 %, %, %。于是四分位数便分别是 %,50%, %,75%点所对应的变量值。此外, %, %, %点所对应的变量值。此外,还有八分位 十六分位数等。 数、十六分位数等。 SPSS提供了计算任意分位数的功能,用户可以指定 提供了计算任意分位数的功能, 提供了计算任意分位数的功能 将数据等分为n份 将数据等分为 份(Cut points for n equal groups )。还可以直接指定分位点 还可以直接指定分位点( )。还可以直接指定分位点(Percentile)。 )。
1 x = n
n
∑
i =1
xi
):即一组数据按升序 (2)中位数(Median):即一组数据按升序 )中位数( ): 排序后,处于中间位置上的数据值。 排序后,处于中间位置上的数据值。如评价社 会的老龄化程度时,可用中位数。 会的老龄化程度时,可用中位数。 ):即一组数据中出现次数 (3)众数(Mode):即一组数据中出现次数 )众数( ): 最多的数据值。 最多的数据值。如生产鞋的厂商在制定各种型 号鞋的生产计划时应该运用众数。 号鞋的生产计划时应该运用众数。
2、刻画离散程度的描述统计量 、 离散程度是指一组数据远离其 中心值” 指一组数据远离其“ 离散程度是指一组数据远离其“中心值” 的程度。 的程度。 如果数据都紧密地集中在“中心值” 如果数据都紧密地集中在“中心值”的周 数据的离散程度较小,说明这个“ 围,数据的离散程度较小,说明这个“中心值 对数据的代表性好;相反, ”对数据的代表性好;相反,如果数据仅是比 较松散地分布在“中心值”的周围, 较松散地分布在“中心值”的周围,数据的离 散程度较大,则此“中心值” 散程度较大,则此“中心值”说明数据特征是 不具有代表性的。 不具有代表性的。
2、计算其他基本描述统计量 、 SPSS频数分析还能够计算其他基本统计 频数分析还能够计算其他基本统计 其中包括描述集中趋势( 量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度 )的基本统计量、 (Dispersion)的基本统计量、描述分布形 )的基本统计量、 态(Distribution)的基本统计量等。 )的基本统计量等。
σ
2
1 = n
n
∑ (x
i =1
i
− x)
2
(3)标准差(Standard Deviation:Std )标准差( : Dev):表示变量取值距离均值的平均离散程 ):表示变量取值距离均值的平均离散程 ): 度的统计量。其计算公式为: 度的统计量。其计算公式为:
s=
1 n
n
∑ (x
i =1
i
− x)
• 5.1.2 频数分析的基本操作
(1)选择菜单 )选择菜单Analyze—Descriptive Statistics—Frequencies。 。 (2)将若干频数分析变量选择到 )将若干频数分析变量选择到Variable(s)框 框 中。 按钮选择绘制统计图形, (3)单击 )单击Chart按钮选择绘制统计图形,在 按钮选择绘制统计图形 Chart Values框中选择条形图中纵坐标(或饼 框中选择条形图中纵坐标( 框中选择条形图中纵坐标 图中扇形面积)的含义,其中Frequencies表示 表示 图中扇形面积)的含义,其中 频数; 表示百分比。 频数;Percentages表示百分比。 表示百分比
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出 25、50、75百分位数 定 百分位数,可输 入0—100 的整数
集 中 趋 势 栏
分
输出
• 5.1.3 SPSS频数分析的扩展功能 频数分析的扩展功能
2
标准差值越大, 标准差值越大,说明变量值之间的差异越 距均值这个“中心值”的离散趋势越大。 大,距均值这个“中心值”的离散趋势越大。
3、刻画分布形态的描述统计量 、 数据的分布形态主要指数据分布是否对称 数据的分布形态主要指数据分布是否对称 偏斜程度如何,分布陡峭程度等 ,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: 刻画分布形态的统计量主要有两种: ):描述变量取值 (1)偏度(Skewness):描述变量取值分 )偏度( ):描述变量取值分 布形态对称性的统计量 其计算公式为: 的统计量。 布形态对称性的统计量。其计算公式为:
第五章
SPSS基本统计分析 基本统计分析 ——描述性统计分析 描述性统计分析
SPSS的主要分析工具 的主要分析工具——Analyze菜单 的主要分析工具 菜单
• 报告--Rports • 描述性统计分析-- 描述性统计分析-- --Descriptive Statistics菜单 菜单 • 表格--Tables • 均数间的比较-- 均数间的比较-- --Compare Means菜单 菜单 • 一般线性模型 一般线性模型――General Linear Model菜单 菜单 • 相关分析 相关分析――Correlate菜单 菜单 • 多元线性回归与曲线拟合 多元线性回归与曲线拟合―― Regression菜单 菜单 • 对数线性模型 对数线性模型——Loglinear菜单 菜单 • 聚类分析与判别分析 聚类分析与判别分析——Classify菜单 菜单 • 因子分析与对应分析 因子分析与对应分析——Data Reduction菜单 菜单 • 信度分析与多维尺度分析 信度分析与多维尺度分析——Scale菜单 菜单 • 非参数检验――Nonparametric Tests菜单 • 时间序列分析--Time series
5.1 频数分析
• 5.1.1 频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分 、目的:基本统计分析往往从频数分析开始。 析能够了解变量取值的状况, 析能够了解变量取值的状况,对把握数据的分布特征是非 常有用的。 常有用的。 2、基本任务 、 编制频数分布表。 (1)频数分析的第一个基本任务是编制频数分布表。 )频数分析的第一个基本任务是编制频数分布表 频数(Frequency):即变量值落在某个区间(或某 频数( ) 个类别)中的次数 百分比( 百分比(Percent):即各频数占总样本数的百分比 ) 有效百分比( 有效百分比(Valid Percent):即各频数占有效样本 ) 数的百分比,这里有效样本数=总样本-缺失样本数 有效样本数= 有效样本数 总样本- 累计百分比( 累计百分比(Cumulative Percent):即各百分比 ) 逐级累加起来的结果。最终取值为100。
5.2 计算基本描述统计量
• 5.2.1 基本描述统计量
常见的基本描述统计量有三大类: 常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
1、刻画集中趋势的描述统计量 、 集中趋势是指一组数据向某一中心值靠拢 集中趋势是指一组数据向某一中心值靠拢 的倾向。 的倾向。 ):即算术平均数 (1)均值(Mean):即算术平均数,是反映 )均值( ):即算术平均数, 某变量所有取值的集中趋势或平均水平的指标 如某企业职工的平均月收入。 。如某企业职工的平均月收入。其计算公式为 :
(3)压缩频数分布表(Suppress tables )压缩频数分布表( with more than n categories) ) 如果变量取值的个数或取值区间的个数太 频数分布表将很庞大,此时可以压缩它。 多,频数分布表将很庞大,此时可以压缩它。 SPSS默认,如果变量取值的个数或取值区间 默认, 默认 的个数大于10, 的个数大于10,则不输出相应的频数分布表 应用中可以修改该值。 。应用中可以修改该值。
(4)均值标准误差(Standard Error of Mean): )均值标准误差( ): 描述样本均值与总体均值之间的平均差异程度的统计量 其计算公式为: 。其计算公式为:
S . E .o f . M ea n = =
∑ (x − X )
M =
2
[ x − E ( x )] 2 ∑ M
σ
n
其中: 为总体标准差, 为样本单位数 其中: σ 为总体标准差,n为样本单位数
单选框组: (2)multiple variables单选框组: ) 单选框组 如果选择了两个以上变量作频数表, 如果选择了两个以上变量作频数表,则 compare variables可以将所有变量的结 可以将所有变量的结 果在同一个频数表过程输出结果中显示, 果在同一个频数表过程输出结果中显示,便于 互相比较; 互相比较;organize output by variables则将结果在不同的频数表过程输出 variables则将结果在不同的频数表过程输出 结果中显示,每一个变量一张表。 结果中显示,每一个变量一张表。
描述性统计分析是统计分析的第一步, 描述性统计分析是统计分析的第一步,做好这第一步是 下面进行正确统计推断的先决条件。 下面进行正确统计推断的先决条件。SPSS的许多模块均可 的许多模块均可 完成描述性分析, 完成描述性分析,但专门为该目的而设计的几个模块则集中 菜单中, 在Descriptive Statistics菜单中,包括: 菜单中 包括: Frequencies:频数分析过程,特色是产生频数表(主 要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述 (主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索 性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析
(2)频数分析的第二个ຫໍສະໝຸດ Baidu务是绘制统计图 )频数分析的第二个任务是绘制统计图
条形图( 条形图(Bar Chart):用宽度相同的条形的高度 ) 或长短来表示频数分布变化的图形,适用于定序和 定类变量的分析。 饼图( 饼图(Pie Chart):用圆形及圆内扇形的面积来 ) 表示频数百分比变化的图形,以利于研究事物内在 结构组成等问题。 直方图( 直方图(Histograms):用矩形的面积来表示频 ) 数分布变化的图形,适用于定距型变量的分析。
设置频数表输出的格式 选择频数表中排 列顺序 按变量升序排 列,此为默认 按变量降序排 列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
控制频数表输出的分 类数量。默认为10 Format 对话框
3、频数分布表格式(Format)的定义 、频数分布表格式( ) (1)调整频数分布表中数据的输出顺序( )调整频数分布表中数据的输出顺序( Order by):频数分布表中的内容的输出顺序 ):频数分布表中的内容的输出顺序 ): 可以按变量值的升序输出( 可以按变量值的升序输出(Ascending values),按变量值的降序输出( ),按变量值的降序输出 ),按变量值的降序输出( Descending values),按频数的升序输出 ),按频数的升序输出 ), ),按频数的降序输 ( Ascending counts),按频数的降序输 ), )。 出( Descending counts)。
常见的刻画离散程度的描述统计量如下: 常见的刻画离散程度的描述统计量如下: ):也称极差 (1)全距(Range):也称极差,是数据的最 )全距( ):也称极差, 大值( 大值(Maximum)与最小值(Minimum )与最小值( 之间的绝对离差。 )之间的绝对离差。 ):也是表示变量取值 (2)方差(Variance):也是表示变量取值 )方差( ): 离散程度的统计量, 离散程度的统计量,是各变量值与算数平均数 离差平方的算术平均数。其计算公式为: 离差平方的算术平均数。其计算公式为:
1 x = n
n
∑
i =1
xi
):即一组数据按升序 (2)中位数(Median):即一组数据按升序 )中位数( ): 排序后,处于中间位置上的数据值。 排序后,处于中间位置上的数据值。如评价社 会的老龄化程度时,可用中位数。 会的老龄化程度时,可用中位数。 ):即一组数据中出现次数 (3)众数(Mode):即一组数据中出现次数 )众数( ): 最多的数据值。 最多的数据值。如生产鞋的厂商在制定各种型 号鞋的生产计划时应该运用众数。 号鞋的生产计划时应该运用众数。
2、刻画离散程度的描述统计量 、 离散程度是指一组数据远离其 中心值” 指一组数据远离其“ 离散程度是指一组数据远离其“中心值” 的程度。 的程度。 如果数据都紧密地集中在“中心值” 如果数据都紧密地集中在“中心值”的周 数据的离散程度较小,说明这个“ 围,数据的离散程度较小,说明这个“中心值 对数据的代表性好;相反, ”对数据的代表性好;相反,如果数据仅是比 较松散地分布在“中心值”的周围, 较松散地分布在“中心值”的周围,数据的离 散程度较大,则此“中心值” 散程度较大,则此“中心值”说明数据特征是 不具有代表性的。 不具有代表性的。
2、计算其他基本描述统计量 、 SPSS频数分析还能够计算其他基本统计 频数分析还能够计算其他基本统计 其中包括描述集中趋势( 量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度 )的基本统计量、 (Dispersion)的基本统计量、描述分布形 )的基本统计量、 态(Distribution)的基本统计量等。 )的基本统计量等。
σ
2
1 = n
n
∑ (x
i =1
i
− x)
2
(3)标准差(Standard Deviation:Std )标准差( : Dev):表示变量取值距离均值的平均离散程 ):表示变量取值距离均值的平均离散程 ): 度的统计量。其计算公式为: 度的统计量。其计算公式为:
s=
1 n
n
∑ (x
i =1
i
− x)
• 5.1.2 频数分析的基本操作
(1)选择菜单 )选择菜单Analyze—Descriptive Statistics—Frequencies。 。 (2)将若干频数分析变量选择到 )将若干频数分析变量选择到Variable(s)框 框 中。 按钮选择绘制统计图形, (3)单击 )单击Chart按钮选择绘制统计图形,在 按钮选择绘制统计图形 Chart Values框中选择条形图中纵坐标(或饼 框中选择条形图中纵坐标( 框中选择条形图中纵坐标 图中扇形面积)的含义,其中Frequencies表示 表示 图中扇形面积)的含义,其中 频数; 表示百分比。 频数;Percentages表示百分比。 表示百分比
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出 25、50、75百分位数 定 百分位数,可输 入0—100 的整数
集 中 趋 势 栏
分
输出
• 5.1.3 SPSS频数分析的扩展功能 频数分析的扩展功能
2
标准差值越大, 标准差值越大,说明变量值之间的差异越 距均值这个“中心值”的离散趋势越大。 大,距均值这个“中心值”的离散趋势越大。
3、刻画分布形态的描述统计量 、 数据的分布形态主要指数据分布是否对称 数据的分布形态主要指数据分布是否对称 偏斜程度如何,分布陡峭程度等 ,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: 刻画分布形态的统计量主要有两种: ):描述变量取值 (1)偏度(Skewness):描述变量取值分 )偏度( ):描述变量取值分 布形态对称性的统计量 其计算公式为: 的统计量。 布形态对称性的统计量。其计算公式为:
第五章
SPSS基本统计分析 基本统计分析 ——描述性统计分析 描述性统计分析
SPSS的主要分析工具 的主要分析工具——Analyze菜单 的主要分析工具 菜单
• 报告--Rports • 描述性统计分析-- 描述性统计分析-- --Descriptive Statistics菜单 菜单 • 表格--Tables • 均数间的比较-- 均数间的比较-- --Compare Means菜单 菜单 • 一般线性模型 一般线性模型――General Linear Model菜单 菜单 • 相关分析 相关分析――Correlate菜单 菜单 • 多元线性回归与曲线拟合 多元线性回归与曲线拟合―― Regression菜单 菜单 • 对数线性模型 对数线性模型——Loglinear菜单 菜单 • 聚类分析与判别分析 聚类分析与判别分析——Classify菜单 菜单 • 因子分析与对应分析 因子分析与对应分析——Data Reduction菜单 菜单 • 信度分析与多维尺度分析 信度分析与多维尺度分析——Scale菜单 菜单 • 非参数检验――Nonparametric Tests菜单 • 时间序列分析--Time series
5.1 频数分析
• 5.1.1 频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分 、目的:基本统计分析往往从频数分析开始。 析能够了解变量取值的状况, 析能够了解变量取值的状况,对把握数据的分布特征是非 常有用的。 常有用的。 2、基本任务 、 编制频数分布表。 (1)频数分析的第一个基本任务是编制频数分布表。 )频数分析的第一个基本任务是编制频数分布表 频数(Frequency):即变量值落在某个区间(或某 频数( ) 个类别)中的次数 百分比( 百分比(Percent):即各频数占总样本数的百分比 ) 有效百分比( 有效百分比(Valid Percent):即各频数占有效样本 ) 数的百分比,这里有效样本数=总样本-缺失样本数 有效样本数= 有效样本数 总样本- 累计百分比( 累计百分比(Cumulative Percent):即各百分比 ) 逐级累加起来的结果。最终取值为100。
5.2 计算基本描述统计量
• 5.2.1 基本描述统计量
常见的基本描述统计量有三大类: 常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
1、刻画集中趋势的描述统计量 、 集中趋势是指一组数据向某一中心值靠拢 集中趋势是指一组数据向某一中心值靠拢 的倾向。 的倾向。 ):即算术平均数 (1)均值(Mean):即算术平均数,是反映 )均值( ):即算术平均数, 某变量所有取值的集中趋势或平均水平的指标 如某企业职工的平均月收入。 。如某企业职工的平均月收入。其计算公式为 :
(3)压缩频数分布表(Suppress tables )压缩频数分布表( with more than n categories) ) 如果变量取值的个数或取值区间的个数太 频数分布表将很庞大,此时可以压缩它。 多,频数分布表将很庞大,此时可以压缩它。 SPSS默认,如果变量取值的个数或取值区间 默认, 默认 的个数大于10, 的个数大于10,则不输出相应的频数分布表 应用中可以修改该值。 。应用中可以修改该值。
(4)均值标准误差(Standard Error of Mean): )均值标准误差( ): 描述样本均值与总体均值之间的平均差异程度的统计量 其计算公式为: 。其计算公式为:
S . E .o f . M ea n = =
∑ (x − X )
M =
2
[ x − E ( x )] 2 ∑ M
σ
n
其中: 为总体标准差, 为样本单位数 其中: σ 为总体标准差,n为样本单位数
单选框组: (2)multiple variables单选框组: ) 单选框组 如果选择了两个以上变量作频数表, 如果选择了两个以上变量作频数表,则 compare variables可以将所有变量的结 可以将所有变量的结 果在同一个频数表过程输出结果中显示, 果在同一个频数表过程输出结果中显示,便于 互相比较; 互相比较;organize output by variables则将结果在不同的频数表过程输出 variables则将结果在不同的频数表过程输出 结果中显示,每一个变量一张表。 结果中显示,每一个变量一张表。
描述性统计分析是统计分析的第一步, 描述性统计分析是统计分析的第一步,做好这第一步是 下面进行正确统计推断的先决条件。 下面进行正确统计推断的先决条件。SPSS的许多模块均可 的许多模块均可 完成描述性分析, 完成描述性分析,但专门为该目的而设计的几个模块则集中 菜单中, 在Descriptive Statistics菜单中,包括: 菜单中 包括: Frequencies:频数分析过程,特色是产生频数表(主 要针对分类变量) Descriptives:数据描述过程,进行一般性的统计描述 (主要针对数值型变量) Explore:数据探察过程,用于对数据概况不清时的探索 性分析 Crosstabs:多维频数分布交叉表分析(列联表分析) Ratio statistics:比率分析
(2)频数分析的第二个ຫໍສະໝຸດ Baidu务是绘制统计图 )频数分析的第二个任务是绘制统计图
条形图( 条形图(Bar Chart):用宽度相同的条形的高度 ) 或长短来表示频数分布变化的图形,适用于定序和 定类变量的分析。 饼图( 饼图(Pie Chart):用圆形及圆内扇形的面积来 ) 表示频数百分比变化的图形,以利于研究事物内在 结构组成等问题。 直方图( 直方图(Histograms):用矩形的面积来表示频 ) 数分布变化的图形,适用于定距型变量的分析。
设置频数表输出的格式 选择频数表中排 列顺序 按变量升序排 列,此为默认 按变量降序排 列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
控制频数表输出的分 类数量。默认为10 Format 对话框
3、频数分布表格式(Format)的定义 、频数分布表格式( ) (1)调整频数分布表中数据的输出顺序( )调整频数分布表中数据的输出顺序( Order by):频数分布表中的内容的输出顺序 ):频数分布表中的内容的输出顺序 ): 可以按变量值的升序输出( 可以按变量值的升序输出(Ascending values),按变量值的降序输出( ),按变量值的降序输出 ),按变量值的降序输出( Descending values),按频数的升序输出 ),按频数的升序输出 ), ),按频数的降序输 ( Ascending counts),按频数的降序输 ), )。 出( Descending counts)。
常见的刻画离散程度的描述统计量如下: 常见的刻画离散程度的描述统计量如下: ):也称极差 (1)全距(Range):也称极差,是数据的最 )全距( ):也称极差, 大值( 大值(Maximum)与最小值(Minimum )与最小值( 之间的绝对离差。 )之间的绝对离差。 ):也是表示变量取值 (2)方差(Variance):也是表示变量取值 )方差( ): 离散程度的统计量, 离散程度的统计量,是各变量值与算数平均数 离差平方的算术平均数。其计算公式为: 离差平方的算术平均数。其计算公式为: