第四章 SPSS基本统计分析
第4章-SPSS基本统计分析

2016/12/25
21
基本描述统计量
描述离散程度的统计量
离散程度:指一组数据远离“中心值”的程度。 即考查所有数据相对于“中心值”分布的疏密程度。 如果数据都紧密地集中在“中心值”的周围,数 据的离散程度较小,则说明“中心值”对数据的 代表性就好; 如果数据比较松散地分布在“中心值”的周围, 数据的离散程度较大,则 “中心值”说明数据特 征是不具有代表性的。
案例
利用“大学生职业生涯规划数据”进行 以下分析:
1. 计算专业和职业认知得分的基本描述统计
量,并比较男女生的得分差异; 2. 分析是否存在专业和职业认知得分的异常 值。
应用举例
基本描述统计
以“居民储蓄调查数据”为例,对一次存(取)款金 额。有两个分析目标: 目标一:计算存(取)款金额的基本描述统计量,并对 城镇储户和农村储户进行比较 (数据拆分)
SK 0
左(负)偏态
x
M M
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 e 169o170 171 172 173 174 175
基本描述统计量
描述陡峭程度的统计量
– 峰度(kurtosis): 描述某变量取值分布形态陡缓程
龄
合 计
频数分析表
频数分析的任务: 编制频数分布表
用宽度相同的条形的高度或长短来表示频数分布变化的图 如果有缺省值,那 – 各组的名称 形。使用于定序和定类变量的分析 么有效百分比能更 – 频数(Frequency) 加准确地反映取值 用圆形及圆内扇形的面积来表示频数百分比变化的图形。 – 百分比(Percent) 分布状况
第四章 SPSS基本统计分析共60页文档

操作步骤:
打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入 Variable栏中。
选中Save standardized values as variables复选框,要求计算变量的z值,并 保存结果到当前数据集中。
单击Options按钮,选中Mean、 Std.Deviation、Minimum、Maximum 、 Variance 项。
统计量
选择一个或多个 变量右移入 Variable(s)框。
统计图 频数输出的顺序
输出统计量对话框
Chart 对话框
按变量值的升序输出 按频数的升序输出
统计表中变量的各 项分析结果在一张 表并列显示
按各个变量组织输 出,输出结果将按 照每个变量一张表 的形式显示
控制频数表输出范围 类型的最大数目为
• 统计结果表明:本市户口家庭的人均住房面 积的均值是21.7平方米,低于外地户口家庭 26.7。无论是本市户口还是外地户口,人均住 房面积的分布均呈一定的右偏分布(两个偏 度统计量分别为2.18和1.43),且本市户口的 偏度更大些;同时,本市户口和外地户口家 庭人均住房面积均呈尖峰分布(两个峰度统 计量分别为8.3和2.1)。由此可见,本市户口 和外地户口中的大部分家庭的人均住房面积 都低于各自的平均水平,此时,仅用均值刻 画住房状况是不准确的。
(二)基本描述统计量
• 常见的基本描述统计量可以分为三大类: 1、集中趋势的描述统计量(均值、中位 值、众值); 2、离散程度的描述统计量(标准差、方 差、极差); 3、分布形态的描述统计量(偏度系数、 峰度系数)。
(三)应用举例
• 利用住房状况调查问卷数据, 对人均住房面积计算基本描 述统计量,并分别对本市户 口和外地户口家庭进行比较。 (首先进行数据拆分)
4-1.SPSS基本统计分析

口”的两类调查对象在居室面积(变量a7)
上的分布差异。
具体要求—— 上述各题,均要求随机选择规定数量的 个案来进行分析。(数量的确定:用 自己学号的最后两位数乘以10,再加 上1600,所得数字为各人要分析的个 案数量。)
第二节
描述性统计分析
一、概述
SPSS的描述性统计分析过程的功能与 频数分析过程类似,但没有图形功能。
集 中 值
离散值
分布参数栏
其中,选项“values are group midpoints”,如果数据已经分组,就 按分组的数据计算中位数和百分位数。
在“Chart(图形)”对话框中,其 中“Histogram(s)(直方图)”下方的 “With normai curve(绘制正态分布曲 线)”,表示在显示的直方图中添加正 态曲线图,用于推断数据是否近似服从 正态分布。
SPSS输出的频数分布表包括的内容:
⑴频数(Frequency)
⑵百分比(Percent)
⑶有效百分比(Valid Percent)
⑷累计百分比(Cumulative Percent)
三、操作演示与例题分析1
数据:“2000某市房产抽查”数据
变量:a6房屋结构
结果呈现的内容:
⑴ 频数分布表;
⑵ 基本图形;
注意—— 不同层次变量能够适用的集中值和离散 值是不一样的。在Statistics对话框中,要 根据不同的变量选择不同的统计值。 定类变量:众值、异众比率。 定序变量:中位数、四分互差;众值、 异众比率。
定距变量:均值、极差和方差;众值、 异众比率;中位数、四分互差。
Format(格式)对话框
选择频数表中排 列顺序 用于设置频数表输出的格式 多变量框中可设定多变量 表格输出的格式
第四章SPSS基本统计分析

菜单分析
描述统计
频率
SPSS
SPSS
SPSS
SPSS
SPSS
SPSS频数分析的扩展功能
• 计算分位数 • 计算其他描述统计量 • 频数分析表格式的定义
计算集中趋势
SPSS
计算 分位 数
计算离 散程度
SPSS
频数分布格式定义
频数分析应用举例 SPSS (以居民储蓄调查数据.sav为例)
根据样本数据,产生二维或多维交叉列联表
在交叉列联表的基础上,对两两变量间是否 存在一定的相关性进行分析
目的
分析多变量不同取值下的分布,掌握多变量的联合 分布特征,进而分析变量之间的相互影响和关系
交叉列联表的主要内容
SPSS
行 变 量
列变 量
二维 交叉 列联 表 行 边 缘 分 布
列边 缘分 布
SPSS
SPSS
SPSS
SPSS
对存款金额按照户口进行拆分
SPSS
按户 口拆 分好 的数 据
SPSS
对拆分好的数据进行频数分析
SPSS
SPSS
SPSS
练习
• 现有SY-3(公司职员统计表).sav,要求对 其中的变量年龄和受教育年限进行频数分 析,结果输出中要求有四分位数、均值、 标准差、方差、最大值、最小值、数据分 布的偏度和峰度情况,输出条形图,图表 值按照频率输出,格式则按照系统默认的 方式进行,要显示频率表格。
分析
多重 响应
定义变 量集
SPSS
SPSS
分析 SPSS
多重响应
频率
SPSS
SPSS
储户的存款目的 SPSS
第4章 SPSS基本统计分析

▪ 4.1 频数分析 4.1.1 频数分析的目的和基本任务 4.1.2 频数分析的基本操作 4.1.3 SPSS频数分析的扩展功能 4.1.4 频数分析的应用举例
▪ 4.1.1 频数分析的目的和基本任务 ▪ 目的 ▪ 粗略把握变量值的分布状况。 ▪ 例:研究被调查者的特征(如:性别、年龄、收入) ▪ 研究被调查者对某个问题的总体看法(如:教学方式、
12
10
2
4
0.4
B
14
10
4
16
1.6
C
9
10
-1
1
0.1
D
5
10
-5Βιβλιοθήκη 252.5E10
10
0
0
0.0
∑ χ2 (fofe)2 4.6
fe
▪ 自由度:df=k-1 ▪ 在0.05的显著性水平下,查表自由度为4时的
卡方临界值为:9.488
▪ 在spss中的操作
卡方检验原理 例二
▪ 我们假设有一位社会研究者有兴趣调查高级中学学 生对于大学学历的重要性的态度。她询问了一个60 名高级中学学生的样本,接受大学教育是否变得更 加重要、更不重要或者没有变化。
户 城镇户口 口
农村户口
买东西 113
59
存钱 合计
87
200
23
82
合计
172
110
282
2
n
Cramer's V
▪ Cramer's V是基于卡 方统计量的关联性测 量。
2
V nmin(R1)(C1)
选择行、列数最小一个
收 300元以下 入 300~800 水 平 800~1500
第四章_SPSS基本统计分析

S .E.of .Mean
(x X )
M
2
[ x E ( x )]2 M
n
其中: 为总体标准差,n为样本单位数
2.刻画离散程度的描述统计量
离散程度是指一组数据远离其“中心值”的程度
。 (1)如果数据都紧密地集中在“中心值”的周围,数据 的离散程度较小,说明这个“中心值”对数据的代表 性好。 (2)如果数据仅是比较松散地分布在“中心值”的周围 ,数据的离散程度较大,则此“中心值”说明数据特 征是不具有代表性的。
• 4.2.2 计算基本描述统计量的操作
(1)选择菜单Analyze-Descriptive Statistics-Descriptives,出现如下窗口:
(2)将需计算的数值型变量选择到Variable(s)框中。 (3)单击Option按钮指定计算哪些基本描述统计量,出现 如下窗口:
基本统计量 分布
基本描述统计量的应用举例
(1)利用住房状况调查数据,对人均住房面积计算 基本统计量,并分别对本市户口和外地户口进行家 庭比较。 (2)利用住房状况调查数据,分析人均住房面积是 否存在不均衡现象。
基本描述统计量的应用举例
分析: (1)不均衡现象可以通过分析是否存在大量异常值—根据 3 准则,处于3倍标准差之外的值一般为异常值。 (2)可通过对数据的标准化处理来判断。标准化的数学定义 为:
2.计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计量,其中包括: (1)描述集中趋势(Central Tendency)的基本统计量 (2)描述离散程度(Dispersion)的基本统计量 (3)描述分布形态(Distribution)的基本统计量
第4章 SPSS基本统计分析(课后练习参考)

第4章 SPSS基本统计分析(课后练习参考)1、利用习题二第6题数据,采用SPSS数据筛选功能将数据分成两份文件。
其中,第一份数据文件存储常住地是“沿海或中心繁华城市”且本次存款金额在1000至5000之间的调查数据;第二份数据文件是按照简单随机抽样所选取的70%的样本数据。
第一份文件:选取数据数据——选择个案——如果条件满足——存款>=1000&存款<5000&常住地=沿海或中心繁华城市。
第二份文件:选取数据数据——选择个案——随机个案样本——输入70。
2、利用习题二第6题数据,将其按常住地(升序)、收入水平(升序)、存款金额(降序)进行多重排序。
排序数据——排序个案——把常住地、收入水平、存款金额作为排序依据分别设置排列顺序。
3、利用习题二第4题的完整数据,对每个学生计算得优课程数和得良课程数,并按得优课程数的降序排序。
计算转换——对个案内的值计数输入目标变量及目标标签,把所有课程选取到数字变量,定义值——设分数的区间,之后再排序。
4、利用习题二第4题的完整数据,计算每个学生课程的平均分以及标准差。
同时,计算男生和女生各科成绩的平均分。
方法一:利用描述性统计,数据——转置学号放在名称变量,全部课程放在变量框中,确定后,完成转置。
分析——描述统计——描述,将所有学生变量全选到变量框中,点击选项——勾选均值、标准差。
先拆分数据——拆分文件按性别拆分,分析——描述统计——描述,全部课程放在变量框中,选项——均值。
方法二:利用变量计算,转换——计算变量分别输入目标变量名称及标签——均值用函数mean完成平均分的计算,标准差用函数SD完成标准差的计算。
数据——分类汇总——性别作为分组变量、全部课程作为变量摘要、(创建只包含汇总变量的新数据集并命名)——确定5、利用习题二第6题数据,大致浏览存款金额的数据分布状况,并选择恰当的组限和组距进行组距分组。
根据存款金额排序,观察其最大值与最小值,算出组数和组距。
第四章 SPSS基本统计分析

例如:在问卷数据分析中,通常应首先对本次调 查的被调查者的状况,如被访者的总人数、年龄特点、 职业特点、性别特征等进行分析和总结。通过这些分 析,能够在一定程度上反映样本是否具有总体代表性, 抽样是否存在系统偏差等,并以此证明以后相关问题 分析的代表性和可信性。这些可以通过频数分析来实 现。
11
3、频数分布表格式(Format)的定义
(1)调整频数分布表中数据的输出顺序 (Order by)
频数分布表中的内容的输出顺序可 以按变量值的升序输出(Ascending values),按变量值的降序输出 (Descending values),按频数的升序输 出( Ascending counts),按频数的降 序输出( Descending counts)。
三根据五种饮料购买频可口可乐新骑士可口可乐雪碧雪碧可口可乐新骑士可口可乐雪碧雪碧杏杏仁仁露新骑士可口可乐可口可乐雪碧可口可乐新骑士可口可乐可口可乐雪碧可口可乐醒目雪碧雪碧可口可乐可口可乐雪碧雪碧雪碧可口可乐可口可乐雪碧新新骑骑士雪碧雪碧杏仁露可口可乐可口可乐雪碧雪碧杏仁露可口可乐可口可乐杏杏仁仁露可口可乐新骑士雪碧可口可乐杏仁露可口可乐新骑士雪碧可口可乐杏仁露可口可乐三根据五种饮料购买频数数据集绘制条形图和饼图
x)3
/
s3
2019年8月11日星期日
25
当分布为对称分布时,正负总偏差
相等,偏度值等于0;当分布为不对称分 布时,正负总偏差不相等,偏度值大于0 或小于0。偏度值大于0表示正偏差值大, 为正偏或称右偏;偏度值小于0表示负偏 差值大,为负偏或称左偏。偏度绝对值
第 章 SPSS 基本统计量的描述

存 (取 )款 金 额
直方图
二、计算基本描述统计量
目的:精确把握变量的总体分布状况。 基本操作: ✓ 描述统计-频率过程:统计 ✓ 描述统计- 描述过程 ✓ 描述统计- 探索过程 ✓ 均值比较-均值 过程(分组显示) 用途:计算变量的集中趋势、离散趋势、偏度、
峰度等指标,绘制统计图。
几个过程的基本描述统计量比较
农村户口
户口
城镇户口
饼图
Frequency
100
0 0.0
Std. Dev = 10945.57 Mean = 4738.1 10000.0 20000.0 30000.0 40000.0 50000.0 60000.0 70000.0 80000.0 90000.0N10=000208.02.00
McNemar:配对计数资料的卡方检验。零假设
为两变量的阳性率无差别源自2(bc 1)2
bc
Kappa一致性检验:系数取值-1~1。测量同 一观测对象在两变量(两变量服从二项分布) 上取值的一致性程度。其绝对值越接近1,说明 一致性程度越高。一般来说:
✓ 系数>=0.7,一致性程度较高;
✓ 0.4~0.7,一致性程度一般;
卡方检验操作:统计量选项
【单元格】:用于定义列联表单元格中需 要计算的指标:
计数:是否输出实际观察数和理论数;
百分比:是否输出行百分数、列百分数以及合 计百分数;
残差:选择残差的显示方式;
【格式】:用于选择行变量是升序还是降 序排列。
结果:城乡储户的收入水平没有明显差异。
Pearson卡方值的影响因素
C
2 2 n
A11A22A12A21
R1R2C1C2
2
第四章SPSS基本统计分析

婴儿体重的描述统计量
Des cripti ve St atist ics N 婴儿体重 Valid N (listwise) 20 20 Minimum 2272.00 Maximum Mean 4654.00 3233.4500 Std. Deviation 653.2335
这时打开原数据集,可看到多了一列zt,这是t 的z 分数,如下图所示:
Explore 主对话框
Statistics对话框
Explore 栏中Plots对话框
Explore 栏中Options对话框
确定缺失值的处置: •因变量或分组变量中带有 缺失值的观测量都将在分析 过程中被剔除。 •在分析过程中根据分组变 量产生的组中带缺失值的观 测量都将被剔除。
•分组变量的缺失值被单独 分为一组,输出频数时将标 出缺失Huber's Tukey's Hampel's a b d SEX M-Estimator Biweight M-Estimatorc Andrews' Wave HIGHT 1 133.0168 133.1928 133.1157 133.1930 2 135.4183 136.2104 135.1852 136.2327 a. The weighting constant is 1.339. b. The weighting constant is 4.685. c. The weighting constants are 1.700, 3.400, and 8.500 d. The weighting constant is 1.340*pi.
打开Statistics对话框,选中Descriptives 、Mestimation、 Outliers复选项,单击Continue返回; 打开Plot对话框,选择Boxplots栏中的Factor levels together项,选择Descriptives栏内的 Stem-and-leaf 复选项,选择Spread vs level with levene Test栏中的 Power estimation项,单击 Continue 返回。单击OK
第四章 SPSS基本统计

多选项问题
多选项问题不能直接处理 思路
• 将一个问题定义成几个变量,用 这几个变量来描述该问题的几个 可能被选择的答案。 • 分别做频数分析或交叉分组下的 频数分析
Free photoshow template from 24
四、多选项问题分析的两大步骤
总练习
用练习数据.sav做以下分析: • a33,a37,a41是反向题请将他们重新赋值。 • 因子1包括a56,a80,a87,a88,a89这些 题目,请计算因子1(这些题目的和的平均)。 • 因子2包括a33,a37,a41,a62,a75,请 计算题因子2。 • 请分析被试的性别、教龄和职称的基本情 况。
32
Hale Waihona Puke 18二、计算基本描述统计量
基本描述统计量
• 刻画集中趋势的描述统计量
(均数、中位数、众数、均值标准误)
• 刻画离散程度的描述统计量
标准差:是表示变量取值距离均值的平均离散 程度的统计量。 方差:样本标准差2 全距:数据的最大值与最小值之间的绝对差
• 刻画分布形态的描述统计量 (偏度—对称性、峰度—陡缓程度)
• Crosstabs过程用于对计数资料 和有序分类资料进行统计描述 和简单的统计推断。在分析时 可以产生二维至n维列联表,并 计算相应的百分数指标。
Free photoshow template from
10
列联表分析的两大基本任务
• 根据收集到的样本数据,产生二 维或者多维的交叉列联表。 • 在交叉列联表的基础之上,对两 两变量间是否存在一定的相关 性进行分析。
Free photoshow template from 19
标准分数
• 标准分数又称Z分数,是以标准差为单 位来表示一个数据在团体中所处相对位 置的量数。 • 如果一个数小于平均数,其Z分数为负 数,如果一个数大于平均数,其Z分数 为正数,若Z分数的绝对值越大,它离 平均数也就越远,所以Z分数表示了一 个数在它所在的数组中的位置。
SPSS第四章-基本统计分析

Continue Cancel
Help
Suppress tables with more than 18 categories
.
格式的参数说明即操作
调整频数分布表中数据输出顺序(order by)
按值的升序或者降序输出; 按频数的升序或者降序输出;
压缩频数分布表
如果变量取值太多或者区间太多,就需要压缩 分布表;
.
Charts…
Format…
4.1.2 频数分析的基本操作(续)
Chart Type None
Bar Chart Pie Chart Histograms
With normal curve
Continue Cancel
Help
Chart Values Frequencies
Percentages
第4章 SPSS基本统计分析
制作人:夏怡凡
.
主要内容:
引言介绍基本统计分析的重要性和主要内容; 频数分析介绍如何对数据的频数分布进行把握; 计算基本描述统计量进一步描述更为精确的数据
分布特征; 列联表分析描述多个变量之间是否存在相关关系; 多选项分析对应处理问卷种多选的问题; 比率分析描述两变量间比率的变化(新增功能)。
表现集中趋势的统计
量主要有
1n
均值:数学定义 中位数:
x n i1 xi
众数:
.
4.2 .1.2 刻画离散程度的描述统计量
条形图(Bar Chart):用条形的高度和长短表示频 数分布的图形,适用定序和定类变量的分析;
饼图(Pie Chart):用圆形和圆内扇形面积表示频 数百分比,圆内扇形既可以表示频数也可以表示百 分比;
直方图(Histograms):用矩形面积表示频数分布 变化,试用与定距变量的分析,可以附加正态曲线
SPSS基本统计分析(new)

第四章SPSS基本统计分析SPSS的主要分析工具——Analyze菜单报告--Rports描述性统计分析--Descriptive Statistics菜单表格--Tables均数间的比较--Compare Means菜单一般线性模型――General Linear Model菜单相关分析――Correlate菜单多元线性回归与曲线拟合―― Regression菜单对数线性模型——Loglinear菜单聚类分析与判别分析——Classify菜单因子分析与对应分析——Data Reduction菜单信度分析与多维尺度分析——Scale菜单非参数检验――Nonparametric Tests菜单时间序列分析--Time series描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。
SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在Descriptive Statistics菜单中,包括:Frequencies:频数分析过程,特色是产生频数表(主要针对分类变量)Descriptives:数据描述过程,进行一般性的统计描述(主要针对数值型变量)Explore:数据探察过程,用于对数据概况不清时的探索性分析Crosstabs:多维频数分布交叉表分析(列联表分析)Ratio statistics:比率分析对数据分析通常是从基本统计分析入手的。
通过基本统计分析,能够使用权分析者掌握的基本统计特征,把握数据的总体分布形态。
基本统计分析的结论对今后进一步的数据建模,将起到重要的指导和参考作用。
对数据的基本统计分析通常包括以下几个方面:(1)编制单个变量的频数分布表。
(2)计算单个变量的描述统计量以及不同分组下的描述统计量。
(3)编制多变量的交叉频数分布表,并以此分析变量间的关系(4)其它探索性分析(5)数据的多选项分析为实现上述分析,往往采用两种方式实现:第一,数值计算,即计算常见的基本统计量的值,通过数值来准确反映数据的基本统计特征,反映变量统计特征上的差异;第二,图形绘制,即绘制常见的基本统计图形,通过图形来直观展现数据的分布特点,比较数据分布的异同。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Options 对话框
在上面窗口中,用户可以指定分析多变 量时结果输出的次序(Display Order)。 其中,Variable list表示按变量在数据窗口 中从左到右的次序输出;Alphabetic表示按 字母顺序输出;Ascending Means表示按 均值升序输出;Descending Means表示按 均值降序输出。 至此,SPSS便自动计算所选变量的基 本描述统计量并显示到输出窗口中。
• 计算基本描述统计量的操作
(1)选择菜单Analyze-Descriptive Statistics- Descriptives,出现如下窗口:
(2)将需计算的数值型变量选择到Variable(s)框中。 (3)单击Option按钮指定计算哪些基本描述统计量, 出现如下窗口:
基本统计量 分布
当Variables框中有多个变量 时,此框确定其输出顺序: 按Variables框中的排列顺 序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列
SPSS提供了计算任意分位数的功能,用户可以指定 将数据等分为n份(Cut points for n equal groups )。还可以直接指定分位点(Percentile)。
2、计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计 量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度 (Dispersion)的基本统计量、描述分布形 态(Distribution)的基本统计量等。
(2)multiple variables单选框组:
如果选择了两个以上变量作频数表,则 compare variables可以将所有变量的结果在 同一个频数表过程输出结果中显示,便于互相比 较;organize output by variables则将结 果在不同的频数表过程输出结果中显示,每一个 变量一张表。
2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列 联表; (2)在交叉列联表的基础上,对两两变量间是否存在 一定的相关性进行分析。 • 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个 任务。交叉列联表是两个或两个以上的变量交叉分组 后形成的频数分布表。 例:职工基本情况数据按职称和文化程度编制的二维 交叉列联表(见下页表):
•SPSS频数分析的扩展功能
1、计算分位数(Percentile Values) 分位数是变量在不同分位点上的取值。分位点在0- 100之间。一般使用较多的是四分位点(Quartiles) ,即将所有数据按升序排序后平均等分成四份,各分位点 依次是25%,50%,75%。于是四分位数便分别是25 %,50%,75%点所对应的变量值。此外,还有八分位 数、十六分位数等。
(2)峰度(Kurtosis):描述变量取值分布 形态陡峭程度的统计量。其计算公式为:
1 n Kurtosis ( xi x )4 / S 4 3 n 1 i 1
当数据分布与标准正态分布的陡峭程度相 同时,峰度值等于0;峰度大于0表示数据的 分布比标准正态分布更陡峭,为尖峰分布;峰 度小于0表示数据的分布比标准正态分布平缓 ,为平峰分布。
(3)压缩频数分布表(Suppress tables with more than n categories) 如果变量取值的个数或取值区间的个数太 多,频数分布表将很庞大,此时可以压缩它。 SPSS默认,如果变量取值的个数或取值区间 的个数大于10,则不输出相应的频数分布表 。应用中可以修改该值。
•计算基本描述统计量的应用举例
1. 利用住房问卷调查数据,对人均住房面 积计算基本描述统计量,并分别对本市户口和 外地户口家庭进行比较。 分析:首先按照户口状况对数据进行拆分 (Split file),然后计算人均住房面积的基 本描述统计量。
•2. 利用住房问卷调查数据,分析人均住房
面积是否存在不均衡现象。
4.3 交叉分组下的频数分析
• 目的和基本任务
1、目的:交叉分组下的频数分析又称列联表分析。通 过前面的频数分析能够掌握单个变量的数据分布情况 ,在实际分析中,不仅要了解单个变量的分布特征, 还要分析多个变量不同取值下的分布,进而分析变量 之间的相互影响和关系。对于这种涉及两个或两个以 上变量分布情况的研究通常要利用交叉分组下的频数 分析来完成。
第四章
SPSS的基本统计分析
基本统计分析是统计分析的第一步,做好这第 一步是下面进行正确统计推断的先决条件,通过基 本统计分析,能够使分析者掌握数据的基本特征, 把握数据的总体分布形态。 Frequencies:频数分析过程,特色是产生频 数表(主要针对分类变量) Descriptives:数据描述过程,进行一般性的 统计描述(主要针对数值型变量) Crosstabs:多维频数分布交叉表分析(列联表 分析) Ratio statistics:比率分析
常见的刻画离散程度的描述统计量如下: (1)全距(Range):也称极差,是数据的最 大值(Maximum)与最小值(Minimum )之间的绝对离差。 (2)样本方差(Variance):也是表示变量 取值离散程度的统计量,是各变量值与算数平 均数离差平方的算术平均数。其计算公式为:
1 2 S ( xi x ) n 1 i 1
控制频数表输出的分 类数量。默认为10
Format 对话框
3、频数分布表格式(Format)的定义
(1)调整频数分布表中数据的输出顺序( Order by):频数分布表中的内容的输出顺序 可以按变量值的升序输出(Ascending values),按变量值的降序输出( Dscending counts),按频数的降序输 出( Descending counts)。
输出百分位数: 输出四分位数,显示 25%、50%、75%的百分 位数; 将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数 自定义百分位数,可输 入0—100 的整数。
集 中 趋 势 栏
离散趋势
分布形态栏
输出统计量对话框
设置频数表输出的格式 选择频数表中排 列顺序 按变量升序排 列,此为默认 按变量降序排 列 按变量各种取 值发生的频数的 升序排列 按变量各种取 值发生的频数的 降序排列 多变量框中可设定多 变量表格输出的格式
注:变量的计量尺度:
a 定类(Category Scale):只能计次 b 定序(Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 d 定比(Ratio Scale):计次、排序、加减、乘除
(2)频数分析的第二个任务是绘制统计图
柱形图或条形图(Bar Chart):用宽度相同的条 形的高度或长短来表示频数分布变化的图形,适用 于定序和定类变量的分析。柱形图的纵坐标或横坐 标可以表示频数,也可以表示百分比。它们分为单 式图和复式图等形式。 饼图(Pie Chart):用圆形及圆内扇形的面积来 表示频数百分比变化的图形,以利于研究事物内在 结构组成等问题。扇形的面积可以表示频数,也可 以表示百分比。 直方图(Histograms):用矩形的面积来表示频 数分布变化的图形,适用于定距型变量的分析。也 可以在直方图上附加正态分布曲线,便于与正态分 布的比较
S .E.of .Mean
其中:
n
为总体标准差,n为样本单位数
2、刻画离散程度的描述统计量 离散程度是指一组数据远离其“中心值”的 程度。 如果数据都紧密地集中在“中心值”的周围 ,数据的离散程度较小,说明这个“中心值”对 数据的代表性好;相反,如果数据仅是比较松散 地分布在“中心值”的周围,数据的离散程度较 大,则此“中心值”说明数据特征是不具有代表 性的。
4.1 频数分析
• 频数分析的目的和基本任务
1、目的:基本统计分析往往从频数分析开始。通过频数分 析能够了解变量取值的状况,把握数据的分布特征,能够 反映出样本在一定程度上的代表性与可信性
2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某 个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本 数的百分比,这里有效样本数=总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比 逐级累加起来的结果。最终取值为100。
• 频数分析扩展功能的应用举例
利用住房状况调查数据进行频数分析,有 以下两个分析目标:
目标一:分析住房面积的分布情况。 目标二:对本市户口与外地户口家庭进行比较。
4.2 计算基本描述统计量
• 基本描述统计量
常见的基本描述统计量有三大类:
刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
2
n
(3)样本标准差(Standard Deviation: Std Dev):表示变量取值距离均值的平均 离散程度的统计量。其计算公式为:
S
1 n 2 ( xi x ) n 1 i 1
标准差值越大,说明变量值之间的差异越 大,距均值这个“中心值”的离散趋势越大。
3、刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称 ,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: (1)偏度(Skewness):描述变量取值分布 形态对称性的统计量。其计算公式为:
分析:从分析住房面积是否有大量异常值入 手。假设人均住房面积服从正态分布,跟据3 原则,异常值通常为3个标准差范围之外的值, 可通过对数据的标准化处理来判断。标准化的数 学定义为:
xi x zi
• 通过标准化可以得到一系列新变量值,通常称为
标准化值或z分数。计算标准化值可以通过对话框 中的复选框save standardized values as variables来实现,并将结果保存在一个新变量 中。该变量的命名规则为字母z+原变量名的前七 个字符。 接下来可对新变量进行排序并浏览其标准化 值的取值情况,可以发现z分数值得绝对数大于3 的储户是存在的。对其分组为三组: z+原变量 名<-3, -3< z+原变量名<3, z+原变量名 >3并进行频数分析可以发现存款金额存在一定的 不均衡现象。