第四章SPSS的基本统计分析
第四章 SPSS基本统计分析共60页文档
操作步骤:
打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入 Variable栏中。
选中Save standardized values as variables复选框,要求计算变量的z值,并 保存结果到当前数据集中。
单击Options按钮,选中Mean、 Std.Deviation、Minimum、Maximum 、 Variance 项。
统计量
选择一个或多个 变量右移入 Variable(s)框。
统计图 频数输出的顺序
输出统计量对话框
Chart 对话框
按变量值的升序输出 按频数的升序输出
统计表中变量的各 项分析结果在一张 表并列显示
按各个变量组织输 出,输出结果将按 照每个变量一张表 的形式显示
控制频数表输出范围 类型的最大数目为
• 统计结果表明:本市户口家庭的人均住房面 积的均值是21.7平方米,低于外地户口家庭 26.7。无论是本市户口还是外地户口,人均住 房面积的分布均呈一定的右偏分布(两个偏 度统计量分别为2.18和1.43),且本市户口的 偏度更大些;同时,本市户口和外地户口家 庭人均住房面积均呈尖峰分布(两个峰度统 计量分别为8.3和2.1)。由此可见,本市户口 和外地户口中的大部分家庭的人均住房面积 都低于各自的平均水平,此时,仅用均值刻 画住房状况是不准确的。
(二)基本描述统计量
• 常见的基本描述统计量可以分为三大类: 1、集中趋势的描述统计量(均值、中位 值、众值); 2、离散程度的描述统计量(标准差、方 差、极差); 3、分布形态的描述统计量(偏度系数、 峰度系数)。
(三)应用举例
• 利用住房状况调查问卷数据, 对人均住房面积计算基本描 述统计量,并分别对本市户 口和外地户口家庭进行比较。 (首先进行数据拆分)
第4章-SPSS基本统计分析课件
– 通过频数分析,了解变量取值的状况,把握分布特 征。
– 通过频数分析,能够在一定程度上反映出样本是否 具有总体代表性,抽样是否存在系统偏差等,并以 此证明以后相关问题分析的代表性和可信性。
第4章-SPSS基本统计分析
目标一:计算存(取)款金额的基本描述统计量,并对 城镇储户和农村储户进行比较 (数据拆分)
目标二:分析储户一次存(取)款的数量是否存在不均 衡现象。
第4章-SPSS基本统计分析
目标二
基本描述统计
分析储户一次存(取)款的数量是否存在不均衡现象,
可以从分析金额是否有大量异常值入手。
实现方法:
数据标准化处理: zi (xi x)/S
第4章-SPSS基本统计分析
异常值的检测
99.73% 95.45% 68.27%
3 2
2 3 第4章-SPSS基本统计分析
2021/1/24
28
基本描述统计量
l 其他统计量
– 均值标准误差(S.E means)
l 中心极限定理认为:样本均值~N(u,2/n) l 反映样本均值与总体真值间的平均离散程度 l 样本数越大,样本均值的离散程度越小,对真
中 趋 势 栏
可反复操作键入多个百分
位数;
按Remove:删除已键入
的数值
离散趋
分布形态栏
按Change:重新输入新 数
势栏 输出统计量对话框 第4章-SPSS基本统计分析
频数分析
l 频数分析中的其他分析
– 分位数的应用
l 从一个侧面刻画了变量的取值分布状况
– 例:( QL=50,QU=75)
第四章SPSS基本统计分析
菜单分析
描述统计
频率
SPSS
SPSS
SPSS
SPSS
SPSS
SPSS频数分析的扩展功能
• 计算分位数 • 计算其他描述统计量 • 频数分析表格式的定义
计算集中趋势
SPSS
计算 分位 数
计算离 散程度
SPSS
频数分布格式定义
频数分析应用举例 SPSS (以居民储蓄调查数据.sav为例)
根据样本数据,产生二维或多维交叉列联表
在交叉列联表的基础上,对两两变量间是否 存在一定的相关性进行分析
目的
分析多变量不同取值下的分布,掌握多变量的联合 分布特征,进而分析变量之间的相互影响和关系
交叉列联表的主要内容
SPSS
行 变 量
列变 量
二维 交叉 列联 表 行 边 缘 分 布
列边 缘分 布
SPSS
SPSS
SPSS
SPSS
对存款金额按照户口进行拆分
SPSS
按户 口拆 分好 的数 据
SPSS
对拆分好的数据进行频数分析
SPSS
SPSS
SPSS
练习
• 现有SY-3(公司职员统计表).sav,要求对 其中的变量年龄和受教育年限进行频数分 析,结果输出中要求有四分位数、均值、 标准差、方差、最大值、最小值、数据分 布的偏度和峰度情况,输出条形图,图表 值按照频率输出,格式则按照系统默认的 方式进行,要显示频率表格。
分析
多重 响应
定义变 量集
SPSS
SPSS
分析 SPSS
多重响应
频率
SPSS
SPSS
储户的存款目的 SPSS
《统计分析与SPSS的应用(第五版)》课后练习答案解析(第4章)
WORD 格式整理《统计分析与SPSS的应用(第五版)》(薛薇)课后练习答案第 4 章 SPSS基本统计分析1、利用第2章第7题数据采用SPSS频数分析,分析被调查者的常住地、职业和年龄分布特征,并绘制条形图。
分析——描述统计——频率,选择“常住地”,“职业”和“年龄”到变量中,然后,图表——条形图——图表值(频率)——继续,勾选显示频率表格,点击确定。
Statistics户口所在职业年龄地Valid282282282NMissing000户口所在地Frequency Percent Valid CumulativePercent Percent中心城市20070.970.970.9 Valid 边远郊区8229.129.1100.0Total282100.0100.0职业Frequency Percent Valid CumulativePercent Percent 国家机关248.58.58.5商业服务业5419.119.127.7文教卫生18 6.4 6.434.0公交建筑业15 5.3 5.339.4Valid 经营性公司18 6.4 6.445.7学校15 5.3 5.351.1一般农户3512.412.463.5种粮棉专业4 1.4 1.464.9户WORD 格式整理种果菜专业10 3.5 3.568.4户工商运专业3412.112.180.5户退役人员17 6.0 6.086.5金融机构3512.412.498.9现役军人3 1.1 1.1100.0Total282100.0100.0年龄Frequency Percent Valid CumulativePercent Percent20 岁以下4 1.4 1.4 1.420~35 岁14651.851.853.2 Valid 35~50 岁9132.332.385.550 岁以上4114.514.5100.0Total282100.0100.0分析:本次调查的有效样本为282 份。
第4章 SPSS基本统计分析
▪ 4.1 频数分析 4.1.1 频数分析的目的和基本任务 4.1.2 频数分析的基本操作 4.1.3 SPSS频数分析的扩展功能 4.1.4 频数分析的应用举例
▪ 4.1.1 频数分析的目的和基本任务 ▪ 目的 ▪ 粗略把握变量值的分布状况。 ▪ 例:研究被调查者的特征(如:性别、年龄、收入) ▪ 研究被调查者对某个问题的总体看法(如:教学方式、
12
10
2
4
0.4
B
14
10
4
16
1.6
C
9
10
-1
1
0.1
D
5
10
-5Βιβλιοθήκη 252.5E10
10
0
0
0.0
∑ χ2 (fofe)2 4.6
fe
▪ 自由度:df=k-1 ▪ 在0.05的显著性水平下,查表自由度为4时的
卡方临界值为:9.488
▪ 在spss中的操作
卡方检验原理 例二
▪ 我们假设有一位社会研究者有兴趣调查高级中学学 生对于大学学历的重要性的态度。她询问了一个60 名高级中学学生的样本,接受大学教育是否变得更 加重要、更不重要或者没有变化。
户 城镇户口 口
农村户口
买东西 113
59
存钱 合计
87
200
23
82
合计
172
110
282
2
n
Cramer's V
▪ Cramer's V是基于卡 方统计量的关联性测 量。
2
V nmin(R1)(C1)
选择行、列数最小一个
收 300元以下 入 300~800 水 平 800~1500
第4章 SPSS基本统计分析
集 中 趋 势 栏
离散趋势
分布形态栏
输出统计量对话框
案例:分析人均住房面积的分布情况,并对本 市户口和外地户口家庭进行比较
展示所有样本的四分位数:在变量【variable(s)】中
选择“人均面积”,在【statistics】中选择四分位数 【quartiles】即可。
按“户口状况”对数据进行拆分,然后分类比较人均住
⑷按【format】,可以调整频数分布表中数据的输出顺 序,这里选择频数的降序【descending counts】。 累计
变 量值
频 数
百分 比
此外,在SPSS输出窗口中用鼠标双击待编辑的图形,会 出出现【chart editor】图形编辑窗口。例如在 【elements】选择【show data lables】,可以在图中显示 频数数据。
SPSS提供了计算任意分位数的功能,用户可以指定将 数据等分为n份(Cut points for n equal groups)。 还可以直接指定分位点(Percentile)。
四分位差(也称内距或四分位距)
它是上四分位数(QU,即位于75%)与下四分位数(
QL,即位于25%)。计算公式为:Qd =QU-QL 四分位差反映了中间50%数据的离散程度,其数值越 小,说明中间的数据越集中;其数值越大,说明中间 的数据越分散。
结果一:人均住房面积频数分布表
结果二:分组后人均住房面积直方图
扩展二
计算分位数
分位数是变量在不同分位点上的取值。分位点在0- 100之间。
一般使用较多的是四分位点(Quartiles),即将所有数 据按升序排序后平均等分成四份,各分位点依次是25 %,50%,75%。于是四分位数便分别是25%,50% ,75%点所对应的变量值。此外,还有八分位数、十 六分位数等。
第4章 SPSS基本统计分析(课后练习参考)
第4章 SPSS基本统计分析(课后练习参考)1、利用习题二第6题数据,采用SPSS数据筛选功能将数据分成两份文件。
其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。
第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。
第二份文件:选取数据数据——选择个案——随机个案样本——输入70。
2、利用习题二第6题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。
排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。
3、利用习题二第4题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。
计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。
4、利用习题二第4题的完整数据,计算每个学生课程的平均分以及标准差。
同时,计算男生和女生各科成绩的平均分。
方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。
分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。
先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。
方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。
数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用习题二第6题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。
根据存款金额排序,观察其最大值与最小值,算出组数和组距。
SPSS统计分析第四章均值比较与T检验
N 258 216
Mean $41441.8 $26031.9
Std. Dev iation $19,499.214 $7,558.021
Std. Error Mean $1213.97
$514.258
左第一栏为分析变量标签和分类变量标签 N观测量数目 Mean均值 Std. Deviation标准差 Std. Error Mean标准误
三、配对样本T检验
配对样本T检验(Paired Sample T test)用 于检验两个相关的样本是否来自具有相同均 值的总体。这种相关的或配对的样本常常来 自这样的实验结果,在实验中被观测对象在 实验前后均被观测。两个变量可以是before after,配对分析的测度也不是必须来自同一 个观测对象。一对可以两者组合而成。
练习题
已知某水样中含CaCO3的真值为20.7mg/L, 现用某方法重复测定该水样11次CaCO3的含 量(mg/L)为:20.99,20.41,20.10, 20.00,20.91,22.60,20.99,20.41, 20.00,23.00,22.00。问该方法测得的均值 是否偏高?
2、Independent Sample T test(独立样本T检验)
例题一
现有银行雇员工资为例,检验男女雇员现工 资是否有显著差异。一个是要比较salary变量 的均值,另一个是gender变量作为分水平变 量。 (data09--03) 。
分析变量的简单描述性统计量
Gender Current Salary Male
F emale
Group Statistics
如果你试图比较的变量明显不是正态分布的,则应该 考虑使用一种非参数检验过程(Nonparametric test)。 如果想比较的变量是分类变量,应该使用Crosstabs 功能。
第4章 SPSS基本统计分析讲解
学习目标及内容:
掌握SPSS 频数分析的基本方法及其操作 明确基本描述统计量的含义,并掌握其操作
掌握交叉列联分析的基本方法,了解卡方检验的基本 思想,并熟练操作
掌握对多选项问题的不同拆分方法和应用场合,并能 用于数据分析
25%、50%、75%的百分 位数;
将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数
自定义百分位数,可输 入0—统计量对话框
案例:分析人均住房面积的分布情况,并对本 市户口和外地户口家庭进行比较
?展示所有样本的四分位数:在变量【variable(s)】 中选择“人均面积”,在【statistics】中选择四分位 数【quartiles】即可。
?SPSS 提供了计算任意分位数的功能,用户可以指定将 数据等分为n份(Cut points for n equal groups )。
?还可以直接指定分位点(Percentile )。
四分位差(也称内距或四分位距)
?它是上四分位数(QU,即位于75% )与下四分位数 (QL,即位于25% )。计算公式为:Qd =QU-QL
操作:运用前面介绍的分组操作按“人均面积”将住房 分成1、2、3、4组,并赋给变量值,如1为人均住房 “小于10平方米”…
?【transform 】→【recode into different variables 】
?然后选择频数分析【analyze 】→【descriptive statistics 】→ 【frequercies 】,采用“分组后的 人均面积”作为计算频数的变量。在【charts 】中使 用直方图histograms ,带正态曲线with normal curve;
第4章 SPSS基本统计分析
练习3
• 完成上例
提纲
1
频数分析
2
计算基本描述统计量
复合分组下的频数分析 多选项分析
3
4
5
比率分析
多选项分析
实现思路 1)按多选项二分法或多选项分类法将多选项问题 分解成若干的问题,并设置若干个SPSS变量 2)采用多选项频数分析或多选项交叉分组下的频
• 选择若干个频数分析的变量
• 选择绘制统计图形
4、频数分析的扩展功能
计算分位数 • 分位数:是变量在不同百分位点上的取值。分位 点在0~100之间。 • 分位数差是一种描述数据离散程度的方式。分位 数差越大,表示数据在相应分位上的离散程度越 大
4、频数分析的扩展功能
频数分布表格式的定义 • 调整频数分布表中数据的输出顺序
– 按变量值的升序或降序输出 – 按频数值的升序或降序输出
• 压缩频数分布表
– SPSS默认如果变量取值的个数或取值区间的个数大于10,则 不输出相应的频数分布表
5、频数分析应用举例
分析月住房开销的分布,并对不同居住类型进行比较 • 1)“月住房开销”为定距型变量→先分组,再编 制频数分布表
• 2)计算月住房开销的四分位数→按照“居住类型” 将数据拆分,并重新计算四分位数→进行比较
• 累计百分比:即各百分比逐级累加起来的结果,
最终取值为100%。
2、频数分析中常用统计图
• 条形图:适用于定序和定类变量的分析。条形图
的纵坐标可以是频数,也可以是百分比。
• 饼图:饼图中圆内的扇形面积可以表示频数,也可
以表示百分比。
• 直方图:适用于定距型变量的分析。
3、频数分析的基本操作
第 章 SPSS 基本统计量的描述
存 (取 )款 金 额
直方图
二、计算基本描述统计量
目的:精确把握变量的总体分布状况。 基本操作: ✓ 描述统计-频率过程:统计 ✓ 描述统计- 描述过程 ✓ 描述统计- 探索过程 ✓ 均值比较-均值 过程(分组显示) 用途:计算变量的集中趋势、离散趋势、偏度、
峰度等指标,绘制统计图。
几个过程的基本描述统计量比较
农村户口
户口
城镇户口
饼图
Frequency
100
0 0.0
Std. Dev = 10945.57 Mean = 4738.1 10000.0 20000.0 30000.0 40000.0 50000.0 60000.0 70000.0 80000.0 90000.0N10=000208.02.00
McNemar:配对计数资料的卡方检验。零假设
为两变量的阳性率无差别源自2(bc 1)2
bc
Kappa一致性检验:系数取值-1~1。测量同 一观测对象在两变量(两变量服从二项分布) 上取值的一致性程度。其绝对值越接近1,说明 一致性程度越高。一般来说:
✓ 系数>=0.7,一致性程度较高;
✓ 0.4~0.7,一致性程度一般;
卡方检验操作:统计量选项
【单元格】:用于定义列联表单元格中需 要计算的指标:
计数:是否输出实际观察数和理论数;
百分比:是否输出行百分数、列百分数以及合 计百分数;
残差:选择残差的显示方式;
【格式】:用于选择行变量是升序还是降 序排列。
结果:城乡储户的收入水平没有明显差异。
Pearson卡方值的影响因素
C
2 2 n
A11A22A12A21
R1R2C1C2
2
第四章 SPSS基本统计
多选项问题
多选项问题不能直接处理 思路
• 将一个问题定义成几个变量,用 这几个变量来描述该问题的几个 可能被选择的答案。 • 分别做频数分析或交叉分组下的 频数分析
Free photoshow template from 24
四、多选项问题分析的两大步骤
总练习
用练习数据.sav做以下分析: • a33,a37,a41是反向题请将他们重新赋值。 • 因子1包括a56,a80,a87,a88,a89这些 题目,请计算因子1(这些题目的和的平均)。 • 因子2包括a33,a37,a41,a62,a75,请 计算题因子2。 • 请分析被试的性别、教龄和职称的基本情 况。
32
Hale Waihona Puke 18二、计算基本描述统计量
基本描述统计量
• 刻画集中趋势的描述统计量
(均数、中位数、众数、均值标准误)
• 刻画离散程度的描述统计量
标准差:是表示变量取值距离均值的平均离散 程度的统计量。 方差:样本标准差2 全距:数据的最大值与最小值之间的绝对差
• 刻画分布形态的描述统计量 (偏度—对称性、峰度—陡缓程度)
• Crosstabs过程用于对计数资料 和有序分类资料进行统计描述 和简单的统计推断。在分析时 可以产生二维至n维列联表,并 计算相应的百分数指标。
Free photoshow template from
10
列联表分析的两大基本任务
• 根据收集到的样本数据,产生二 维或者多维的交叉列联表。 • 在交叉列联表的基础之上,对两 两变量间是否存在一定的相关 性进行分析。
Free photoshow template from 19
标准分数
• 标准分数又称Z分数,是以标准差为单 位来表示一个数据在团体中所处相对位 置的量数。 • 如果一个数小于平均数,其Z分数为负 数,如果一个数大于平均数,其Z分数 为正数,若Z分数的绝对值越大,它离 平均数也就越远,所以Z分数表示了一 个数在它所在的数组中的位置。
4 SPSS基本统计分析
8
9
10
11
12
Statistics 家 庭 收 入 N Mean Median Mode Std. Deviation Variance Skewness Std. Error of Skewness Kurtosis Std. Error of Kurtosis Range Minimum Maximum Sum Percentiles Valid Missing
众数 中位数均值
左偏分布
对称分布
右偏分布
21
2.刻画离散程度的描述统计量Dispersion
离散程度:一组数据远离其中心值的程度, 即所有数据相对于中心值的疏密程度;越密,离 散程度越小,中心值的代表性越强。 目的:结合中心值,给出数据更全面、完整的描 述 常用统计量:
样本标准差Standard Deviation(Std Dev):表示变量 取值距均值的平均离散程度;值越大,差异越大 样本方差Variance:意义同上;值越大,差异越大 全距Range:极差,数据最大值与最小值间的绝对差; 全距大笔全距小的数据分散
25 50 75
13
次级数据资料分析—扩展分析
1、对资料进行分组 Transform Recode Into Different Variable 2、对已分组的资料进行频数分析 (1)、对频数进行加权 Data Weight Cases (2)、求分组数据的频数分析表和描述统计量 Analyze →Descriptive Statistics → Frequencies
Percent 16.8 43.4 15.6 4.7 9.5 9.9 100.0
Valid Percent 16.8 43.4 15.6 4.7 9.5 9.9 100.0
SPSS第四章-基本统计分析
Continue Cancel
Help
Suppress tables with more than 18 categories
.
格式的参数说明即操作
调整频数分布表中数据输出顺序(order by)
按值的升序或者降序输出; 按频数的升序或者降序输出;
压缩频数分布表
如果变量取值太多或者区间太多,就需要压缩 分布表;
.
Charts…
Format…
4.1.2 频数分析的基本操作(续)
Chart Type None
Bar Chart Pie Chart Histograms
With normal curve
Continue Cancel
Help
Chart Values Frequencies
Percentages
第4章 SPSS基本统计分析
制作人:夏怡凡
.
主要内容:
引言介绍基本统计分析的重要性和主要内容; 频数分析介绍如何对数据的频数分布进行把握; 计算基本描述统计量进一步描述更为精确的数据
分布特征; 列联表分析描述多个变量之间是否存在相关关系; 多选项分析对应处理问卷种多选的问题; 比率分析描述两变量间比率的变化(新增功能)。
表现集中趋势的统计
量主要有
1n
均值:数学定义 中位数:
x n i1 xi
众数:
.
4.2 .1.2 刻画离散程度的描述统计量
条形图(Bar Chart):用条形的高度和长短表示频 数分布的图形,适用定序和定类变量的分析;
饼图(Pie Chart):用圆形和圆内扇形面积表示频 数百分比,圆内扇形既可以表示频数也可以表示百 分比;
直方图(Histograms):用矩形面积表示频数分布 变化,试用与定距变量的分析,可以附加正态曲线
第4章:SPSS的统计分析
把“地区标 志”作为分 组变量,对 不同的组进 行比较
ADD 平均绝 对离差
COD离散 系数 Mean centered COV 均值的变异系数
COV变异系数
Median centered COV中位数变异系 数
分析analyze描述统计descriptivestatistics频数frequencies点击图表chart选择统计图点击格式format调整频数分布表中数据的输出顺序点击格式format调整分布表中数据的输出顺序统计结果输出结果输出窗口413频数分析的扩展功能spss编制频数分布表和绘制统计图是频数分析的基本任务除此之外在频率窗口中通点击统计量statistics按钮还可以计算其他的统量
数据拆分
表明该数据是进行拆分了的
计算描述统计
分析结果(结果输出窗口) 分析结果(结果输出窗口)
4.3 交叉分组下的频数分析
4.3.1 交叉分组下的频数分析的目的和基本任务 通过频数分析能够掌握单个变量的数据分布情况。在实际 分析中,不仅要了解单变量的特征,还要分析多个变量不同取 值下的分布,掌握多变量的联合分布特征,进而分析变量间的 相互影响和关系。对多变量的联合分布特征的分析,常采用交 叉分组下的频数分析来完成。 交叉分组下的频数分析又称列联表分析,它包括两大基本 任务:第一,根据收集到的样本数据编制交叉列联表;第二, 在交叉列联表的基础上,对两两变量间是否存在一定的相关性 进行分析。
1.多选项二分法 1.多选项二分法 多选项二分法就是将多选项问题中的每个答案设为一个 SPSS变量,每个变量只有0或1两个取值,分别表示选择该答案 和不选择该答案。例如:多选项二分法. 2. 多选项分类法 多选项分类法中,首先估计多选项问题最多可能出现的 答案个数;然后,为每个答案设置一个SPSS变量,变脸取值为 多选项问题中的可选答案。例如:多选项分类法. 在选择多选项问题分解时,对于所选答案具有一定顺序的多 选项问题可采用多选项分类法分解,而没有顺序的问题可采用 二分法分解。
spss基本统计分析
依次连接各点, 依次连接各点, 即可得分布折线图。 即可得分布折线图。
0.70
? 0.60
0.50
0.40
0.30
0.40
0.60
0.80
1.00
1.20
1.40
1.60
n
f P-P图和 图和Q-Q图 图和 图
直方图和茎叶图是评估数据分布的常用图形, 直方图和茎叶图是评估数据分布的常用图形 P-P 图和Q-Q图是直观表示数据分布是否正态。 图是直观表示数据分布是否正态。 图和 图是直观表示数据分布是否正态 P-P图是根据变量的累积概率对应于所指定的理论 图是根据变量的累积概率对应于所指定的理论 分布累积概率绘制的散点图;Q-Q图是根据变量数据 图是根据变量数据 分布累积概率绘制的散点图 分布的分位数与所指定分布分位数之间的曲线来进行 检验。 检验。
b 园图(饼图) 园图(饼图)
用于表示计数资料、 用于表示计数资料、质量性状资料或半定量 等级)资料的构成比。 (等级)资料的构成比。 所谓构成比,就是各类别、 所谓构成比,就是各类别、等级的观测值个数 (次数 与观测值总个数 样本含量 的百分比。 次数)与观测值总个数 样本含量)的百分比 次数 与观测值总个数(样本含量 的百分比。 把园图的全面积看成100%,按各类别、等级的 ,按各类别、 把园图的全面积看成 构成比将园面积分成若干分, 构成比将园面积分成若干分, 以扇形面积的大小表 分别表示各类别、等级的比例。 分别表示各类别、等级的比例。
第四章 基本统计分析
SPSS统计分析功能概述 一、SPSS统计分析功能概述
1、SPSS数值 、 数值 分析过程 2、SPSS图形 、 图形 分析过程
1、SPSS数值分析过程 SPSS数值分析过程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基本统计分析的图形工具
• 以制作条形图为例
绘制简单条图(单式条图) 绘制复式条图
绘制堆积条图(分段条图) 定义统计图中数据的表达类型:
同一变量若干条记录的分组汇总 条图反映了不同变量的汇总 条图反映了个体观察值
基本统计分析的图形工具
• 以制作条形图为例
• 第一种模式下的三种图形:ount
基本统计分析的图形工具
• 以制作条形图为例
• 第二种模式下的三种图形:用于若干变量的统计量的比较
62 60 58 56 54 52 50 48 46
收入情况
未来收入情况
50
40
30
20
10 0
中心城市
户口所在地
边远郊区
100 80 60 40 20
0 中心城市
户口所在地
• 小于0表示在平均水平下,大于0反之.
• 正态分布的数据标准化后呈标准正态分布(68.2%,95.4%,99.7%)
• save standardized values as variables选项
• 将变量作标准化后,结果存入名为“Z+原变量名”的新变量中.
– 数据标准化处理应用举例
• 你能以较简便的方法快速找到取款数目出众的储户吗?
计算描述统计量
• 描述陡峭程度的统计量
– 峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。
• 峭度为0表示与标准正态分布峭度相同。 • 大于0表示比标准正态分布陡,尖峰。 • 小于0表示比标准正态分布缓;平峰。
计算描述统计量
• 其他统计量 •
– 标准误差(standard error S.E):抽样分布中的标准差,反映样本误差。
频数分析
• 应用举例 储户的职业分析 特点:定类数据 频数分布表输出按频数升降序输出
储户收入水平分析 特点:定序数据 除使用频数、百分比、总数外,还可以充分使用累计百分比
频数分析
• 频数分析中的其他分析 • 计算分位数:适用于定距数据
– 数据按升序排序后,找到若干个分位点上的变量值 – quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU) – cut points for n equal groups:n等份 – percentile:自定义百分位点
• 基本方法
– 计算基本描述统计量
计算描述统计量
• 描述集中趋势的统计量
– 均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。 • 适用于定距数据。 • 特点:利用了全部数据,易受极端值的影响。
• 描述离散程度的统计量
– 标准差(standard deviation--Std Dev):表示某变量的所有变量值离散程度的 统计量。 • SPSS中计算的是样本标准差。
• 采用的方法
– 计算频分布表:包括计算频数、百分比、累计百分比 – 绘制统计图形:条形图、饼图
频数分析
• 基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形
C HI
MATH
基本统计分析的图形工具
• 直方图和P-P图
10
Expected Cum Prob
– 方差(variance):标准差的平方。 • SPSS中计算的是样本方差。
– 极差 (range):最大值(maximum)—最小值(minimum)
计算描述统计量
• 描述对称程度的统计量
– 偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计量.
• 偏度为0表示对称; • 大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值; • 小于0表示负偏差大(左偏)
220
200
180
160
140
120
100
80
60
户口所在地
中心城市
边远郊区
140 120 100 80 60 40 20
0 中心城市
户口所在地
300
200
100
边远郊区
0 中心城市
收入水平
户口所在地
1000元以下 1000~3000元 3000~5000元 1500元以上
边远郊区
收入水平
1500元以上 3000~5000元 1000~3000元 1000元以下
(2)选择将参加计算的数值型变量名到variables框。
• 分析比较不同户口所在地储户取款情况
• 比较集中趋势 • 比较离散趋势 • 比较偏斜程度 • 比较陡峭程度
• 实现方式:数据拆分
计算描述统计量
• 其他功能
– 数据标准化处理
• 新变量的均值为0,标准差为1;
zi (xi x) / SD
• 分位数的应用
• 在排除极端值影响的条件下,通过计算分位数差,比较两 组样本数据的离散程度
– 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较 • 分位数、中位数、众数的应用举例
不同户口所在地的储户取款金额比较 利用分位数(不显示频数分析表)
计算描述统计量
• 目的
– 精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对 称程度、陡峭程度。
•
– 均值标准误差(means of S.E)
• 中心极限定理认为:样本均值~N(u,2/n) • 反映样本均值与总体真值间的平均离散程度 • 样本数越大,样本均值的离散程度越小,对真值的估计越
准确
计算描述统计量
• 基本操作步骤 (1)菜单选项:analyze->descriptive statistics->descripive
收入情况 未来收入情况
边远郊区
未来收入情况 收入情况
N <2 N <2
N <2
基本统计分析的图形工具
• 箱线图
• (箱线图中以四分位差的1.5倍为标准剔除值)
100 90 80 70 60 50 40 30 20
N=
SEX
30
female
30
male
120
100
80
60
40
20
N=
60
60
MA TH
第四章 SPSS的基本统计分析
基本统计分析
• 频数分析 • 计算基本描述统计量(分布特征测度) • 图形分析工具 • 列联分析
频数分析
• 目的
粗略把握变量值的分布状况。
例:研究被调查者的特征(如:性别、年龄、收入) 研究被调查者对某个问题的总体看法(如:教学方式、选修课程) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)