SPSS统计分析第3章 描述性统计分析(新 )
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
与前面介绍的两种分析方法相比,探索性分析更加强大 ,它是一种在对资料的性质、分布特点等完全不清楚的情况 下,对变量进行更深入研究的描述性统计方法。在进行统计 分析前,通常需要寻求和确定适合所研究的问题的统计方法 , SPSS提供的探索性分析是解决此类问题的有效办法。
探索性分析提供了很多关于数据的概括分析和图表直观描 述的方法,不仅对个案数据有效,而且还可以针对分组个案 。在输出常用描述性统计量的基础之上,探索性分析增加了 有关数据详细分布特征的文字与图形表述,如茎叶图、箱图 等,显得更加详细、完整,还可以以方差齐性为目的的变量 交换提供线索,有助于用户制定更进一步分析的方案。
3.2 频率分析 3.2.2 SPSS实例分析
【例3-1】以下是调查问卷中针对被调查人设置的两个问题: 1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人 民币为单位)单选 500-1000……..1 1000-1999……2 2000-2999……3 3000-3999……4 4000-4999……5 5000-5999……6 6000-6999……7 7000-7999……8 8000-8999……9 9000-9999……10 10000及以上…11
的统计量;峰度系数等于0,表明数据分布的陡峭程度与正 态分布相同。峰度系数大于0时为尖峰分布,表明数据分布 的陡峭程度比正态分布大,峰度系数小于0时为平峰分布, 表明数据分布的陡峭程度比正态分布小。
3.1 基本描述性统计量的定义及计算 3.1.3 描述总体分布形态的统计量
来自于正态总体的偏度及峰度均近似为0,可以利用偏 度和峰度的值是否接近0作为检验是否是正态分布的重要依 据。
3.2 频率分析
第1步 数据组织:根据表3.1生成SPSS 表4.1 数据文件,建2个变量:“收入”、“教 家庭月收入 受教育程度 育”, 度量标准均为序号。 3 5 第2步 频率分析设置: 1 5 选择菜单:“分析→ 描述统计 → 频率”, 2 5 打开“频率(F)”对话框,将“教育”和 1 5 “收入”加入到“变量”列表框中。 1 5 打开“统计量”对话框,选中“百分位数” … … “众数”,并在“百分位数”中添加30.0、 6 4 60.0、90.0; 10 5 打开“图表”对话框,选中“直方图”及后 4 5 面的复选框
3.2 频率分析
统计量表
第3步 主要结果及分析:
统计量 教育 收入 836 0 3 3.00 4.00 7.00
N
众数 百分位数
有效 缺失 30 60 90
835 1 5 4.00 5.00 5.00
表中分别显示两个分析变量“教 育”及“收入”的有效个案数、 缺失值个数、及两个分析变量的 “众数”及对应于30%、60%及 90%的百分位数 。
3.3 描述性分析 3.3.2 实例分析
【例3-2】图3-38是5岁儿童体重、身高、胸围的部分SPSS 数据,试对儿童身高作描述性统计分析。(数据文件: data3-2.sav) 第1步 打开数据文件data3-2.sav;
第2步 描述性分析设置: 选择菜单“分析→ 描述统计 →描述” ,打开“描述性”主 对话框,将要分析的变量“身高”加入“变量”列表框中。 打开“描述:选项”对话框,选中“均值”、“标准差”、 “最小值”、“最大值”、“峰度”、“偏度”及显示顺序 的“变量列表”等选项。
ຫໍສະໝຸດ Baidu.4 探索性分析 3.4.2 实例分析
【例3-3】下表是某班3门课程对应成绩的统计数据,试对其 作探索性分析并做是否服从正态分布的检验。
科目 成绩 科目 成绩 1 83 2 75 1 74 2 56 1 73 2 19 1 30 3 85 1 60 3 91 1 95 3 11 2 73 3 55 2 11 3 32 2 16 3 56
表中显示“成绩”按 “科目”分组后各分组 的描述性统计量,左表 中只显示的是”语文 “分组的均值、均值的 95%置信区间的上下限、 中值、方差、标准差、 极大/小值、偏度、峰 度等 。
3.4 探索性分析
M均值估计量
科目 成绩 语文 数学 英语 a. 加权常量为 1.339。 b. 加权常量为 4.685。 c. 加权常量为 1.700、3.400 和 8.500 d. 加权常量为 1.340*pi。 M-估计器 Huber 的 M-估 Tukey 的双权重 Hampel 的 M-估 b 计器a 计器c Andrews 波d 72.54 75.78 72.88 76.05 41.42 41.13 41.67 41.13 56.68 55.60 55.00 55.60
变量“教育”的频率分布表
教育 频率 有效 1 2 3 4 5 6 合计 缺失 系统 合计 8 39 114 165 456 53 835 1 836 百分比 1.0 4.7 13.6 19.7 54.5 6.3 99.9 .1 100.0 有效百分 累积百分 比 比 1.0 1.0 4.7 5.6 13.7 19.3 19.8 39.0 54.6 93.7 6.3 100.0 100.0
3.3 描述性分析
第3步 运行结果及分析: 描述性分析结果表
描述统计量 N 极小值 极大值 均值 标准差 偏度 峰度 统计 标准 统计 标准 量 误 量 误 统计量 统计量 统计量 统计量 统计量 96 99.3 125.0 109.891 5.9633 .350 .246 -.446 .488 96
合计 N 百分比 6 100.0% 6 100.0% 6 100.0%
科目 成绩 语文 数学 英语
表中显示“成绩”按 “科目”分组后各组的 有效个案数、个案缺失 数及缺失比例等 。
3.4 探索性分析
描述性统计量表
描述 科目 成 绩 语 文 均值 均值的 95% 置信区间 下限 上限 5% 修整均值 中值 方差 标准差 极小值 极大值 范围 四分位距 偏度 峰度 统计量 69.17 45.63 92.70 69.91 73.50 502.967 22.427 30 95 65 34 -1.085 1.617 .845 1.741 标准误 9.156
第三章
描述性统计分析
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.1 基本描述性统计量简介
3.1.1 描述集中趋势的统计量
1.均值(Mean) 2.众数(Mode) 3.中位数(Median) 4.总和(Sum)
表中显示了变量“教育”在各个 取值上出现的次数(频率)、其 频率占所有个案中的百分比、有 效百分比及累积百分比。
3.2 频数分析
变量“收入”的频率分布表
收入 频率 有效 0 1 2 3 4 5 6 7 8 9 10 11 合计 2 87 152 157 137 88 85 52 27 9 8 32 836 有效百分 累积百分 比 比 百分比 .2 .2 .2 10.4 18.2 18.8 16.4 10.5 10.2 6.2 3.2 1.1 1.0 3.8 100.0 10.4 18.2 18.8 16.4 10.5 10.2 6.2 3.2 1.1 1.0 3.8 100.0 10.6 28.8 47.6 64.0 74.5 84.7 90.9 94.1 95.2 96.2 100.0
表中提供了四种估计方法,每种估计方法的加权量在 表下方给出,对于有异常值或极端值的数据,M均值估 计有很好的稳定性,用M估计值代替均值或中位数, 结果更准确 。根据样本值的权重不同,可以得到不同 的估计量
2、 您的教育程度:(指您受过的最高或正在接受的教育程度)单选 没有受过正式教育/小学……….1 初中……………………..………2 高中/中专/技校… ……… ……..3 大专/大学非本科/高职高专……4 大学本科……………………….5 研究生及以上…………………..6 从问卷中收集到的数据如表4.1所示 , 试对收集到的数据进行频数分析
第1步 数据组织:定义2个变量,分别为:“科目”、“成 绩”,“科目”的度量标准为“名义”,“成绩”的度量标 准为“度量”。 第2步 探索分析设置: 选择菜单“分析→ 描述统计 → 探索”,打开“探索” 对 话框,,将“成绩”字段移入“因变量列表”,“科目”移 入“因子列表”。
3.4 探索性分析
身高 有效的 N (列表状态)
表中分析变量“身高”的个案数、所有个案中 的极大值、极小值、均值、标准差及偏度和峰 度
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.4 探索性分析 3.4.1 基本概念及统计原理
打开“统计量”对话框,选中“描述性”及“M-估计量” 选项; 打开“探索:图”对话框,选中“按因子水平分组”、“ 茎叶图”、“带检验的正态图”等选项。 打开“探索:选项”,选中“按列表排除个案”选项。
第3步 运行结果及分析: “成绩”按科目分组的案例处理摘要表
案例处理摘要 案例 有效 缺失 N 百分比 N 百分比 6 100.0% 0 .0% 6 100.0% 0 .0% 6 100.0% 0 .0%
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.2 频率分析
3.2.1 基本概念及统计原理
频率就是一个变量在各个变量值上取值的个案数,分析 时不考虑其实际取值。基本统计分析往往从频率分析开始。 通过频率分析能够了解变量取值的状况,对把握数据的分布 特征是非常有用的。 例如,调查消费者拥有数码产品的数量,首先分析受访 者的总人数、家庭收入情况、受教育程度、性别等,获取样 本是否具有总体代表性、抽样是否存在系统偏差等信息。这 些可以通过频率分析来实现,经过频率分析可以得到如下结 果: (1)频率分布表:该表中包含频率、各频率占总样本数的 百分比、有效百分比、累计百分比。 (2)统计图:用统计图形展示变量的取值状况,频率分析 中提供的统计图形可以是条形图、饼图或者直方图。
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.3 描述性分析 3.3.1 基本概念及统计原理
描述性分析主要用于输出变量的各类描述性统计量 的值,通过上一节的学习可知,频率分析同样可以做到, 都是以计算数值型单变量的统计量为主。描述性统计分析 没有图形功能,也不能生成频率表,但描述性分析可以将 原始数据标准化为Z分数,并以变量形式存入数据文件中, 以便后续分析时应用。
表中显示了变量“收入”在各个 取值上出现的次数(频率)、其 频率占所有个案中的百分比、有 效百分比及累积百分比。
3.2 频数分析
变量“教育”的直方图 表中显示了变量“教育”的直方 图,从图上可以看出受访者教育 程度同正态分布相比左偏,不具 备明显的正态分布。
变量“收入”的直方图 表中显示了变量“收入”的直方 图,从图上可以看出受访者家庭 收入同正态分布相比右偏,不具 备明显的正态分布。
5.百分位数(Percentile Value)
3.1 基本描述性统计量的定义及计算 3.1.2 描述离散程度的统计量
1.样本方差(Variance)
2.样本标准差(Std. deviation)
3.极差(Range)
4.均值标准误差(Standard Error of Mean)
3.1 基本描述性统计量的定义及计算 3.1.3 描述总体分布形态的统计量
1. 偏度(Skewness):是描述取值分布形态对称性
的统计量;偏度系数大于0,表示其数据分布形态有一条长 尾拖在右边,称为右偏或正偏,偏度系数小于0,表示其数据 分布形态有一条长尾拖在左边,称为左偏或负偏。偏度系数 的绝对值越大,与正态分布相比越偏斜。
2. 峰度(Kurtosis):是描述变量取值分布形态陡缓
探索性分析提供了很多关于数据的概括分析和图表直观描 述的方法,不仅对个案数据有效,而且还可以针对分组个案 。在输出常用描述性统计量的基础之上,探索性分析增加了 有关数据详细分布特征的文字与图形表述,如茎叶图、箱图 等,显得更加详细、完整,还可以以方差齐性为目的的变量 交换提供线索,有助于用户制定更进一步分析的方案。
3.2 频率分析 3.2.2 SPSS实例分析
【例3-1】以下是调查问卷中针对被调查人设置的两个问题: 1、您的家庭月收入大约是:(请包括所有工资、奖金、津贴等在内,以人 民币为单位)单选 500-1000……..1 1000-1999……2 2000-2999……3 3000-3999……4 4000-4999……5 5000-5999……6 6000-6999……7 7000-7999……8 8000-8999……9 9000-9999……10 10000及以上…11
的统计量;峰度系数等于0,表明数据分布的陡峭程度与正 态分布相同。峰度系数大于0时为尖峰分布,表明数据分布 的陡峭程度比正态分布大,峰度系数小于0时为平峰分布, 表明数据分布的陡峭程度比正态分布小。
3.1 基本描述性统计量的定义及计算 3.1.3 描述总体分布形态的统计量
来自于正态总体的偏度及峰度均近似为0,可以利用偏 度和峰度的值是否接近0作为检验是否是正态分布的重要依 据。
3.2 频率分析
第1步 数据组织:根据表3.1生成SPSS 表4.1 数据文件,建2个变量:“收入”、“教 家庭月收入 受教育程度 育”, 度量标准均为序号。 3 5 第2步 频率分析设置: 1 5 选择菜单:“分析→ 描述统计 → 频率”, 2 5 打开“频率(F)”对话框,将“教育”和 1 5 “收入”加入到“变量”列表框中。 1 5 打开“统计量”对话框,选中“百分位数” … … “众数”,并在“百分位数”中添加30.0、 6 4 60.0、90.0; 10 5 打开“图表”对话框,选中“直方图”及后 4 5 面的复选框
3.2 频率分析
统计量表
第3步 主要结果及分析:
统计量 教育 收入 836 0 3 3.00 4.00 7.00
N
众数 百分位数
有效 缺失 30 60 90
835 1 5 4.00 5.00 5.00
表中分别显示两个分析变量“教 育”及“收入”的有效个案数、 缺失值个数、及两个分析变量的 “众数”及对应于30%、60%及 90%的百分位数 。
3.3 描述性分析 3.3.2 实例分析
【例3-2】图3-38是5岁儿童体重、身高、胸围的部分SPSS 数据,试对儿童身高作描述性统计分析。(数据文件: data3-2.sav) 第1步 打开数据文件data3-2.sav;
第2步 描述性分析设置: 选择菜单“分析→ 描述统计 →描述” ,打开“描述性”主 对话框,将要分析的变量“身高”加入“变量”列表框中。 打开“描述:选项”对话框,选中“均值”、“标准差”、 “最小值”、“最大值”、“峰度”、“偏度”及显示顺序 的“变量列表”等选项。
ຫໍສະໝຸດ Baidu.4 探索性分析 3.4.2 实例分析
【例3-3】下表是某班3门课程对应成绩的统计数据,试对其 作探索性分析并做是否服从正态分布的检验。
科目 成绩 科目 成绩 1 83 2 75 1 74 2 56 1 73 2 19 1 30 3 85 1 60 3 91 1 95 3 11 2 73 3 55 2 11 3 32 2 16 3 56
表中显示“成绩”按 “科目”分组后各分组 的描述性统计量,左表 中只显示的是”语文 “分组的均值、均值的 95%置信区间的上下限、 中值、方差、标准差、 极大/小值、偏度、峰 度等 。
3.4 探索性分析
M均值估计量
科目 成绩 语文 数学 英语 a. 加权常量为 1.339。 b. 加权常量为 4.685。 c. 加权常量为 1.700、3.400 和 8.500 d. 加权常量为 1.340*pi。 M-估计器 Huber 的 M-估 Tukey 的双权重 Hampel 的 M-估 b 计器a 计器c Andrews 波d 72.54 75.78 72.88 76.05 41.42 41.13 41.67 41.13 56.68 55.60 55.00 55.60
变量“教育”的频率分布表
教育 频率 有效 1 2 3 4 5 6 合计 缺失 系统 合计 8 39 114 165 456 53 835 1 836 百分比 1.0 4.7 13.6 19.7 54.5 6.3 99.9 .1 100.0 有效百分 累积百分 比 比 1.0 1.0 4.7 5.6 13.7 19.3 19.8 39.0 54.6 93.7 6.3 100.0 100.0
3.3 描述性分析
第3步 运行结果及分析: 描述性分析结果表
描述统计量 N 极小值 极大值 均值 标准差 偏度 峰度 统计 标准 统计 标准 量 误 量 误 统计量 统计量 统计量 统计量 统计量 96 99.3 125.0 109.891 5.9633 .350 .246 -.446 .488 96
合计 N 百分比 6 100.0% 6 100.0% 6 100.0%
科目 成绩 语文 数学 英语
表中显示“成绩”按 “科目”分组后各组的 有效个案数、个案缺失 数及缺失比例等 。
3.4 探索性分析
描述性统计量表
描述 科目 成 绩 语 文 均值 均值的 95% 置信区间 下限 上限 5% 修整均值 中值 方差 标准差 极小值 极大值 范围 四分位距 偏度 峰度 统计量 69.17 45.63 92.70 69.91 73.50 502.967 22.427 30 95 65 34 -1.085 1.617 .845 1.741 标准误 9.156
第三章
描述性统计分析
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.1 基本描述性统计量简介
3.1.1 描述集中趋势的统计量
1.均值(Mean) 2.众数(Mode) 3.中位数(Median) 4.总和(Sum)
表中显示了变量“教育”在各个 取值上出现的次数(频率)、其 频率占所有个案中的百分比、有 效百分比及累积百分比。
3.2 频数分析
变量“收入”的频率分布表
收入 频率 有效 0 1 2 3 4 5 6 7 8 9 10 11 合计 2 87 152 157 137 88 85 52 27 9 8 32 836 有效百分 累积百分 比 比 百分比 .2 .2 .2 10.4 18.2 18.8 16.4 10.5 10.2 6.2 3.2 1.1 1.0 3.8 100.0 10.4 18.2 18.8 16.4 10.5 10.2 6.2 3.2 1.1 1.0 3.8 100.0 10.6 28.8 47.6 64.0 74.5 84.7 90.9 94.1 95.2 96.2 100.0
表中提供了四种估计方法,每种估计方法的加权量在 表下方给出,对于有异常值或极端值的数据,M均值估 计有很好的稳定性,用M估计值代替均值或中位数, 结果更准确 。根据样本值的权重不同,可以得到不同 的估计量
2、 您的教育程度:(指您受过的最高或正在接受的教育程度)单选 没有受过正式教育/小学……….1 初中……………………..………2 高中/中专/技校… ……… ……..3 大专/大学非本科/高职高专……4 大学本科……………………….5 研究生及以上…………………..6 从问卷中收集到的数据如表4.1所示 , 试对收集到的数据进行频数分析
第1步 数据组织:定义2个变量,分别为:“科目”、“成 绩”,“科目”的度量标准为“名义”,“成绩”的度量标 准为“度量”。 第2步 探索分析设置: 选择菜单“分析→ 描述统计 → 探索”,打开“探索” 对 话框,,将“成绩”字段移入“因变量列表”,“科目”移 入“因子列表”。
3.4 探索性分析
身高 有效的 N (列表状态)
表中分析变量“身高”的个案数、所有个案中 的极大值、极小值、均值、标准差及偏度和峰 度
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.4 探索性分析 3.4.1 基本概念及统计原理
打开“统计量”对话框,选中“描述性”及“M-估计量” 选项; 打开“探索:图”对话框,选中“按因子水平分组”、“ 茎叶图”、“带检验的正态图”等选项。 打开“探索:选项”,选中“按列表排除个案”选项。
第3步 运行结果及分析: “成绩”按科目分组的案例处理摘要表
案例处理摘要 案例 有效 缺失 N 百分比 N 百分比 6 100.0% 0 .0% 6 100.0% 0 .0% 6 100.0% 0 .0%
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.2 频率分析
3.2.1 基本概念及统计原理
频率就是一个变量在各个变量值上取值的个案数,分析 时不考虑其实际取值。基本统计分析往往从频率分析开始。 通过频率分析能够了解变量取值的状况,对把握数据的分布 特征是非常有用的。 例如,调查消费者拥有数码产品的数量,首先分析受访 者的总人数、家庭收入情况、受教育程度、性别等,获取样 本是否具有总体代表性、抽样是否存在系统偏差等信息。这 些可以通过频率分析来实现,经过频率分析可以得到如下结 果: (1)频率分布表:该表中包含频率、各频率占总样本数的 百分比、有效百分比、累计百分比。 (2)统计图:用统计图形展示变量的取值状况,频率分析 中提供的统计图形可以是条形图、饼图或者直方图。
主要内容
3.1 基本描述性统计量的定义及计算 3.2 频数分析 3.3 描述性分析 3.4 探索性分析 3.5 交叉列联表分析 3.6 多选项分析
3.3 描述性分析 3.3.1 基本概念及统计原理
描述性分析主要用于输出变量的各类描述性统计量 的值,通过上一节的学习可知,频率分析同样可以做到, 都是以计算数值型单变量的统计量为主。描述性统计分析 没有图形功能,也不能生成频率表,但描述性分析可以将 原始数据标准化为Z分数,并以变量形式存入数据文件中, 以便后续分析时应用。
表中显示了变量“收入”在各个 取值上出现的次数(频率)、其 频率占所有个案中的百分比、有 效百分比及累积百分比。
3.2 频数分析
变量“教育”的直方图 表中显示了变量“教育”的直方 图,从图上可以看出受访者教育 程度同正态分布相比左偏,不具 备明显的正态分布。
变量“收入”的直方图 表中显示了变量“收入”的直方 图,从图上可以看出受访者家庭 收入同正态分布相比右偏,不具 备明显的正态分布。
5.百分位数(Percentile Value)
3.1 基本描述性统计量的定义及计算 3.1.2 描述离散程度的统计量
1.样本方差(Variance)
2.样本标准差(Std. deviation)
3.极差(Range)
4.均值标准误差(Standard Error of Mean)
3.1 基本描述性统计量的定义及计算 3.1.3 描述总体分布形态的统计量
1. 偏度(Skewness):是描述取值分布形态对称性
的统计量;偏度系数大于0,表示其数据分布形态有一条长 尾拖在右边,称为右偏或正偏,偏度系数小于0,表示其数据 分布形态有一条长尾拖在左边,称为左偏或负偏。偏度系数 的绝对值越大,与正态分布相比越偏斜。
2. 峰度(Kurtosis):是描述变量取值分布形态陡缓