第四章 SPSS的基本统计分析知识讲解
spss教程第四章---时间序列分析
第四章时间序列分析由于反映社会经济现象的大多数数据是按照时间顺序记录的,所以时间序列分析是研究社会经济现象的指标随时间变化的统计规律性的统计方法。
.为了研究事物在不同时间的发展状况,就要分析其随时间的推移的发展趋势,预测事物在未来时间的数量变化。
因此学习时间序列分析方法是非常必要的。
本章主要内容:1. 时间序列的线图,自相关图和偏自关系图;2. SPSS 软件的时间序列的分析方法−季节变动分析。
§4.1 实验准备工作§4.1.1 根据时间数据定义时间序列对于一组示定义时间的时间序列数据,可以通过数据窗口的Date菜单操作,得到相应时间的时间序列。
定义时间序列的具体操作方法是:将数据按时间顺序排列,然后单击Date →Define Dates打开Define Dates对话框,如图4.1所示。
从左框中选择合适的时间表示方法,并且在右边时间框内定义起始点后点击OK,可以在数据库中增加时间数列。
图4.1 产生时间序列对话框§4.1.2 绘制时间序列线图和自相关图一、线图线图用来反映时间序列随时间的推移的变化趋势和变化规律。
下面通过例题说明线图的制作。
例题4.1:表4.1中显示的是某地1979至1982年度的汗衫背心的零售量数据。
试根据这些的数据对汗衫背心零售量进行季节分析。
(参考文献[2])表4.1 某地背心汗衫零售量一览表单位:万件解:根据表4.1的数据,建立数据文件SY-11(零售量),并对数据定义相应的时间值,使数据成为时间序列。
为了分析时间序列,需要先绘制线图直观地反映时间序列的变化趋势和变化规律。
具体操作如下:1. 在数据编辑窗口单击Graphs→Line,打开Line Charts对话框如图4.2.。
从中选择Simple单线图,从Date in Chart Are 栏中选择Values of individual cases,即输出的线图中横坐标显示变量中按照时间顺序排列的个体序列号,纵坐标显示时间序列的变量数据。
第4章-SPSS基本统计分析
2016/12/25
21
基本描述统计量
描述离散程度的统计量
离散程度:指一组数据远离“中心值”的程度。 即考查所有数据相对于“中心值”分布的疏密程度。 如果数据都紧密地集中在“中心值”的周围,数 据的离散程度较小,则说明“中心值”对数据的 代表性就好; 如果数据比较松散地分布在“中心值”的周围, 数据的离散程度较大,则 “中心值”说明数据特 征是不具有代表性的。
案例
利用“大学生职业生涯规划数据”进行 以下分析:
1. 计算专业和职业认知得分的基本描述统计
量,并比较男女生的得分差异; 2. 分析是否存在专业和职业认知得分的异常 值。
应用举例
基本描述统计
以“居民储蓄调查数据”为例,对一次存(取)款金 额。有两个分析目标: 目标一:计算存(取)款金额的基本描述统计量,并对 城镇储户和农村储户进行比较 (数据拆分)
SK 0
左(负)偏态
x
M M
152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 e 169o170 171 172 173 174 175
基本描述统计量
描述陡峭程度的统计量
– 峰度(kurtosis): 描述某变量取值分布形态陡缓程
龄
合 计
频数分析表
频数分析的任务: 编制频数分布表
用宽度相同的条形的高度或长短来表示频数分布变化的图 如果有缺省值,那 – 各组的名称 形。使用于定序和定类变量的分析 么有效百分比能更 – 频数(Frequency) 加准确地反映取值 用圆形及圆内扇形的面积来表示频数百分比变化的图形。 – 百分比(Percent) 分布状况
第四章 SPSS基本统计分析共60页文档
操作步骤:
打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入 Variable栏中。
选中Save standardized values as variables复选框,要求计算变量的z值,并 保存结果到当前数据集中。
单击Options按钮,选中Mean、 Std.Deviation、Minimum、Maximum 、 Variance 项。
统计量
选择一个或多个 变量右移入 Variable(s)框。
统计图 频数输出的顺序
输出统计量对话框
Chart 对话框
按变量值的升序输出 按频数的升序输出
统计表中变量的各 项分析结果在一张 表并列显示
按各个变量组织输 出,输出结果将按 照每个变量一张表 的形式显示
控制频数表输出范围 类型的最大数目为
• 统计结果表明:本市户口家庭的人均住房面 积的均值是21.7平方米,低于外地户口家庭 26.7。无论是本市户口还是外地户口,人均住 房面积的分布均呈一定的右偏分布(两个偏 度统计量分别为2.18和1.43),且本市户口的 偏度更大些;同时,本市户口和外地户口家 庭人均住房面积均呈尖峰分布(两个峰度统 计量分别为8.3和2.1)。由此可见,本市户口 和外地户口中的大部分家庭的人均住房面积 都低于各自的平均水平,此时,仅用均值刻 画住房状况是不准确的。
(二)基本描述统计量
• 常见的基本描述统计量可以分为三大类: 1、集中趋势的描述统计量(均值、中位 值、众值); 2、离散程度的描述统计量(标准差、方 差、极差); 3、分布形态的描述统计量(偏度系数、 峰度系数)。
(三)应用举例
• 利用住房状况调查问卷数据, 对人均住房面积计算基本描 述统计量,并分别对本市户 口和外地户口家庭进行比较。 (首先进行数据拆分)
第四章 SPSS的基本统计分析知识讲解
多选项分析
多选项分析的基本思路
– 定义多选项变量集 – 多选项频数分析 – 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进行多选 项分析
– 菜单选项:analyze->multiple response->define sets – 从原变量中选取被分解的变量(数值型)到variables in
进一步计算
– cells选项:选择在频数分析表中输出各种百分比.
row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
分析列联表中变量间的关系
目的:
通过列联表分析,检验行列变量之间是否独立。
方法:
– 卡方检验:对品质数据的相关性进行度量
频数分析
基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形
计算描述统计量
目的
– 精确把握变量的总体分布状况,了解数据的集中趋 势、离散趋势、对称程度、陡峭程度。
– 菜单选项:analyze->multiple response->crosstabs
频数分析
目的
粗略把握变量值的分布状况。
例:研究被调查者的特征(如:性别、年龄、收入) 研究被调查者对某个问题的总体看法(如:教学方式、选修课程) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)
采用的方法
– 计算频分布表:包括计算 频数、累计频数、百分比、累 计百分比
4-1.SPSS基本统计分析
口”的两类调查对象在居室面积(变量a7)
上的分布差异。
具体要求—— 上述各题,均要求随机选择规定数量的 个案来进行分析。(数量的确定:用 自己学号的最后两位数乘以10,再加 上1600,所得数字为各人要分析的个 案数量。)
第二节
描述性统计分析
一、概述
SPSS的描述性统计分析过程的功能与 频数分析过程类似,但没有图形功能。
集 中 值
离散值
分布参数栏
其中,选项“values are group midpoints”,如果数据已经分组,就 按分组的数据计算中位数和百分位数。
在“Chart(图形)”对话框中,其 中“Histogram(s)(直方图)”下方的 “With normai curve(绘制正态分布曲 线)”,表示在显示的直方图中添加正 态曲线图,用于推断数据是否近似服从 正态分布。
SPSS输出的频数分布表包括的内容:
⑴频数(Frequency)
⑵百分比(Percent)
⑶有效百分比(Valid Percent)
⑷累计百分比(Cumulative Percent)
三、操作演示与例题分析1
数据:“2000某市房产抽查”数据
变量:a6房屋结构
结果呈现的内容:
⑴ 频数分布表;
⑵ 基本图形;
注意—— 不同层次变量能够适用的集中值和离散 值是不一样的。在Statistics对话框中,要 根据不同的变量选择不同的统计值。 定类变量:众值、异众比率。 定序变量:中位数、四分互差;众值、 异众比率。
定距变量:均值、极差和方差;众值、 异众比率;中位数、四分互差。
Format(格式)对话框
选择频数表中排 列顺序 用于设置频数表输出的格式 多变量框中可设定多变量 表格输出的格式
第四章SPSS基本统计分析
菜单分析
描述统计
频率
SPSS
SPSS
SPSS
SPSS
SPSS
SPSS频数分析的扩展功能
• 计算分位数 • 计算其他描述统计量 • 频数分析表格式的定义
计算集中趋势
SPSS
计算 分位 数
计算离 散程度
SPSS
频数分布格式定义
频数分析应用举例 SPSS (以居民储蓄调查数据.sav为例)
根据样本数据,产生二维或多维交叉列联表
在交叉列联表的基础上,对两两变量间是否 存在一定的相关性进行分析
目的
分析多变量不同取值下的分布,掌握多变量的联合 分布特征,进而分析变量之间的相互影响和关系
交叉列联表的主要内容
SPSS
行 变 量
列变 量
二维 交叉 列联 表 行 边 缘 分 布
列边 缘分 布
SPSS
SPSS
SPSS
SPSS
对存款金额按照户口进行拆分
SPSS
按户 口拆 分好 的数 据
SPSS
对拆分好的数据进行频数分析
SPSS
SPSS
SPSS
练习
• 现有SY-3(公司职员统计表).sav,要求对 其中的变量年龄和受教育年限进行频数分 析,结果输出中要求有四分位数、均值、 标准差、方差、最大值、最小值、数据分 布的偏度和峰度情况,输出条形图,图表 值按照频率输出,格式则按照系统默认的 方式进行,要显示频率表格。
分析
多重 响应
定义变 量集
SPSS
SPSS
分析 SPSS
多重响应
频率
SPSS
SPSS
储户的存款目的 SPSS
第4章 SPSS基本统计分析
▪ 4.1 频数分析 4.1.1 频数分析的目的和基本任务 4.1.2 频数分析的基本操作 4.1.3 SPSS频数分析的扩展功能 4.1.4 频数分析的应用举例
▪ 4.1.1 频数分析的目的和基本任务 ▪ 目的 ▪ 粗略把握变量值的分布状况。 ▪ 例:研究被调查者的特征(如:性别、年龄、收入) ▪ 研究被调查者对某个问题的总体看法(如:教学方式、
12
10
2
4
0.4
B
14
10
4
16
1.6
C
9
10
-1
1
0.1
D
5
10
-5Βιβλιοθήκη 252.5E10
10
0
0
0.0
∑ χ2 (fofe)2 4.6
fe
▪ 自由度:df=k-1 ▪ 在0.05的显著性水平下,查表自由度为4时的
卡方临界值为:9.488
▪ 在spss中的操作
卡方检验原理 例二
▪ 我们假设有一位社会研究者有兴趣调查高级中学学 生对于大学学历的重要性的态度。她询问了一个60 名高级中学学生的样本,接受大学教育是否变得更 加重要、更不重要或者没有变化。
户 城镇户口 口
农村户口
买东西 113
59
存钱 合计
87
200
23
82
合计
172
110
282
2
n
Cramer's V
▪ Cramer's V是基于卡 方统计量的关联性测 量。
2
V nmin(R1)(C1)
选择行、列数最小一个
收 300元以下 入 300~800 水 平 800~1500
spss第四章描述统计简介PPT课件
当n 为奇数时:正中间位置号码=(n+1)/2 样本中位数=X(n+1)/2
当n为偶数时:正中间位置号码=(n+1)/2是小数,处于n/2与(n/2)+1之间。 样本中位数=(Xn/2+X(n/2)+1)/2 如5位同学的学习成绩:3,3,3,4,5。中间位置是第三位,中位数:3。 如果六位同学: 3,3,4,5,5,5。中间位置是3与4位中间的位置,中位数为: (4+5)/2=4.5
第四章 描述统计量简介
2024/10/23
第三章 样本数据特征的初步分析
1
调查杭州市居民收入情况,得到
调查顾客对产品的满意第度情四况章, 获得100个样本数据,能分
样本100统个计样本量数描据,述根据这些数据,
析出哪些信息?
你最想得到哪些信息?
调查大学生群体中对手机品牌的偏 好程度,你如何描述调查结果?
• 选择Percentile Values 栏中的 选项,输出所选变量的百分值
• Dispersion(离差)栏,用于
指定输出反映变量离散程度的 统计量
• Central Tendency (集中趋势)
栏,用于指定输出反映变量集 中趋势的统计量
• Distribution (分布特征)栏,
用于指定输出描述分布形状和
如果样本容量为n,那么,某个样本值出现 的频率=该样本值出现的频次/n
2024/10/23
第三章 样本数据特征的初步分析
9
分类数据或顺序数据描述频次与 频率的图形方法
第四章_SPSS基本统计分析
S .E.of .Mean
(x X )
M
2
[ x E ( x )]2 M
n
其中: 为总体标准差,n为样本单位数
2.刻画离散程度的描述统计量
离散程度是指一组数据远离其“中心值”的程度
。 (1)如果数据都紧密地集中在“中心值”的周围,数据 的离散程度较小,说明这个“中心值”对数据的代表 性好。 (2)如果数据仅是比较松散地分布在“中心值”的周围 ,数据的离散程度较大,则此“中心值”说明数据特 征是不具有代表性的。
• 4.2.2 计算基本描述统计量的操作
(1)选择菜单Analyze-Descriptive Statistics-Descriptives,出现如下窗口:
(2)将需计算的数值型变量选择到Variable(s)框中。 (3)单击Option按钮指定计算哪些基本描述统计量,出现 如下窗口:
基本统计量 分布
基本描述统计量的应用举例
(1)利用住房状况调查数据,对人均住房面积计算 基本统计量,并分别对本市户口和外地户口进行家 庭比较。 (2)利用住房状况调查数据,分析人均住房面积是 否存在不均衡现象。
基本描述统计量的应用举例
分析: (1)不均衡现象可以通过分析是否存在大量异常值—根据 3 准则,处于3倍标准差之外的值一般为异常值。 (2)可通过对数据的标准化处理来判断。标准化的数学定义 为:
2.计算其他基本描述统计量
SPSS频数分析还能够计算其他基本统计量,其中包括: (1)描述集中趋势(Central Tendency)的基本统计量 (2)描述离散程度(Dispersion)的基本统计量 (3)描述分布形态(Distribution)的基本统计量
SPSS统计分析第四章均值比较与T检验
N 258 216
Mean $41441.8 $26031.9
Std. Dev iation $19,499.214 $7,558.021
Std. Error Mean $1213.97
$514.258
左第一栏为分析变量标签和分类变量标签 N观测量数目 Mean均值 Std. Deviation标准差 Std. Error Mean标准误
三、配对样本T检验
配对样本T检验(Paired Sample T test)用 于检验两个相关的样本是否来自具有相同均 值的总体。这种相关的或配对的样本常常来 自这样的实验结果,在实验中被观测对象在 实验前后均被观测。两个变量可以是before after,配对分析的测度也不是必须来自同一 个观测对象。一对可以两者组合而成。
练习题
已知某水样中含CaCO3的真值为20.7mg/L, 现用某方法重复测定该水样11次CaCO3的含 量(mg/L)为:20.99,20.41,20.10, 20.00,20.91,22.60,20.99,20.41, 20.00,23.00,22.00。问该方法测得的均值 是否偏高?
2、Independent Sample T test(独立样本T检验)
例题一
现有银行雇员工资为例,检验男女雇员现工 资是否有显著差异。一个是要比较salary变量 的均值,另一个是gender变量作为分水平变 量。 (data09--03) 。
分析变量的简单描述性统计量
Gender Current Salary Male
F emale
Group Statistics
如果你试图比较的变量明显不是正态分布的,则应该 考虑使用一种非参数检验过程(Nonparametric test)。 如果想比较的变量是分类变量,应该使用Crosstabs 功能。
第4章 SPSS基本统计分析讲解
学习目标及内容:
掌握SPSS 频数分析的基本方法及其操作 明确基本描述统计量的含义,并掌握其操作
掌握交叉列联分析的基本方法,了解卡方检验的基本 思想,并熟练操作
掌握对多选项问题的不同拆分方法和应用场合,并能 用于数据分析
25%、50%、75%的百分 位数;
将数据平均分为所设定 的相等等份,可输入2— 100 的整数,如键入4则输 出第25、50、75百分位数
自定义百分位数,可输 入0—统计量对话框
案例:分析人均住房面积的分布情况,并对本 市户口和外地户口家庭进行比较
?展示所有样本的四分位数:在变量【variable(s)】 中选择“人均面积”,在【statistics】中选择四分位 数【quartiles】即可。
?SPSS 提供了计算任意分位数的功能,用户可以指定将 数据等分为n份(Cut points for n equal groups )。
?还可以直接指定分位点(Percentile )。
四分位差(也称内距或四分位距)
?它是上四分位数(QU,即位于75% )与下四分位数 (QL,即位于25% )。计算公式为:Qd =QU-QL
操作:运用前面介绍的分组操作按“人均面积”将住房 分成1、2、3、4组,并赋给变量值,如1为人均住房 “小于10平方米”…
?【transform 】→【recode into different variables 】
?然后选择频数分析【analyze 】→【descriptive statistics 】→ 【frequercies 】,采用“分组后的 人均面积”作为计算频数的变量。在【charts 】中使 用直方图histograms ,带正态曲线with normal curve;
第4章 SPSS基本统计分析
练习3
• 完成上例
提纲
1
频数分析
2
计算基本描述统计量
复合分组下的频数分析 多选项分析
3
4
5
比率分析
多选项分析
实现思路 1)按多选项二分法或多选项分类法将多选项问题 分解成若干的问题,并设置若干个SPSS变量 2)采用多选项频数分析或多选项交叉分组下的频
• 选择若干个频数分析的变量
• 选择绘制统计图形
4、频数分析的扩展功能
计算分位数 • 分位数:是变量在不同百分位点上的取值。分位 点在0~100之间。 • 分位数差是一种描述数据离散程度的方式。分位 数差越大,表示数据在相应分位上的离散程度越 大
4、频数分析的扩展功能
频数分布表格式的定义 • 调整频数分布表中数据的输出顺序
– 按变量值的升序或降序输出 – 按频数值的升序或降序输出
• 压缩频数分布表
– SPSS默认如果变量取值的个数或取值区间的个数大于10,则 不输出相应的频数分布表
5、频数分析应用举例
分析月住房开销的分布,并对不同居住类型进行比较 • 1)“月住房开销”为定距型变量→先分组,再编 制频数分布表
• 2)计算月住房开销的四分位数→按照“居住类型” 将数据拆分,并重新计算四分位数→进行比较
• 累计百分比:即各百分比逐级累加起来的结果,
最终取值为100%。
2、频数分析中常用统计图
• 条形图:适用于定序和定类变量的分析。条形图
的纵坐标可以是频数,也可以是百分比。
• 饼图:饼图中圆内的扇形面积可以表示频数,也可
以表示百分比。
• 直方图:适用于定距型变量的分析。
3、频数分析的基本操作
第 章 SPSS 基本统计量的描述
存 (取 )款 金 额
直方图
二、计算基本描述统计量
目的:精确把握变量的总体分布状况。 基本操作: ✓ 描述统计-频率过程:统计 ✓ 描述统计- 描述过程 ✓ 描述统计- 探索过程 ✓ 均值比较-均值 过程(分组显示) 用途:计算变量的集中趋势、离散趋势、偏度、
峰度等指标,绘制统计图。
几个过程的基本描述统计量比较
农村户口
户口
城镇户口
饼图
Frequency
100
0 0.0
Std. Dev = 10945.57 Mean = 4738.1 10000.0 20000.0 30000.0 40000.0 50000.0 60000.0 70000.0 80000.0 90000.0N10=000208.02.00
McNemar:配对计数资料的卡方检验。零假设
为两变量的阳性率无差别源自2(bc 1)2
bc
Kappa一致性检验:系数取值-1~1。测量同 一观测对象在两变量(两变量服从二项分布) 上取值的一致性程度。其绝对值越接近1,说明 一致性程度越高。一般来说:
✓ 系数>=0.7,一致性程度较高;
✓ 0.4~0.7,一致性程度一般;
卡方检验操作:统计量选项
【单元格】:用于定义列联表单元格中需 要计算的指标:
计数:是否输出实际观察数和理论数;
百分比:是否输出行百分数、列百分数以及合 计百分数;
残差:选择残差的显示方式;
【格式】:用于选择行变量是升序还是降 序排列。
结果:城乡储户的收入水平没有明显差异。
Pearson卡方值的影响因素
C
2 2 n
A11A22A12A21
R1R2C1C2
2
04 spss基本统计分析
6、四分位数(Quartiles)、十分位数(Deciles) Percentiles) •百分位数( 定义:
• 四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将 全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别 记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位 数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。 四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中 间部分的数据越分散。
• 十分位数是将一组数据由小到大(或由大到小)排序后,用9个点将 全部数据分为十等份,与9个点位置上相对应的变量称为十分位数, 分别记为D1,D2,…,D9,表示10%的数据落在D1下,20%的数据 落在D2下,…,90%落在D9下。
6、四分位数(Quartiles)、十分位数(Deciles)
7、频数(Frequency)
杂质含量数据表 1.55 1.44 1.49 1.45 1.52 1.46 1.45 1.47 1.42 1.46 1.50 1.42 1.45 1.49 1.46 1.42 1.42 1.47 1.42 1.51 1.29 1.32 1.43 1.49 1.27 1.38
1.31
1.39
1.35 1.47 1.47 1.42 1.39 1.46 1.46 1.42 1.44 1.52 1.43 1.55
1.47 1.43 1.31 1.49 1.62 1.37 1.36 1.49 1.52 1.47
1.52
1.39 1.40 1.40
1.41 1.44 1.37 1.48 1.37 1.42 1.45 1.38 1.40 1.38 1.48 1.43
1.49 1.47 1.49 1.56 1.58 1.39 1.54 1.49 1.44 1.32 1.40 1.39 1.34 1.38 1.59 1.47 1.52 1.44 1.40 1.42 1.48 1.36 1.50 1.38 1.44 1.44 1.34 1.42 1.35 1.44 1.38 1.42 1.49 1.34
SPSS第四章-基本统计分析
Continue Cancel
Help
Suppress tables with more than 18 categories
.
格式的参数说明即操作
调整频数分布表中数据输出顺序(order by)
按值的升序或者降序输出; 按频数的升序或者降序输出;
压缩频数分布表
如果变量取值太多或者区间太多,就需要压缩 分布表;
.
Charts…
Format…
4.1.2 频数分析的基本操作(续)
Chart Type None
Bar Chart Pie Chart Histograms
With normal curve
Continue Cancel
Help
Chart Values Frequencies
Percentages
第4章 SPSS基本统计分析
制作人:夏怡凡
.
主要内容:
引言介绍基本统计分析的重要性和主要内容; 频数分析介绍如何对数据的频数分布进行把握; 计算基本描述统计量进一步描述更为精确的数据
分布特征; 列联表分析描述多个变量之间是否存在相关关系; 多选项分析对应处理问卷种多选的问题; 比率分析描述两变量间比率的变化(新增功能)。
表现集中趋势的统计
量主要有
1n
均值:数学定义 中位数:
x n i1 xi
众数:
.
4.2 .1.2 刻画离散程度的描述统计量
条形图(Bar Chart):用条形的高度和长短表示频 数分布的图形,适用定序和定类变量的分析;
饼图(Pie Chart):用圆形和圆内扇形面积表示频 数百分比,圆内扇形既可以表示频数也可以表示百 分比;
直方图(Histograms):用矩形面积表示频数分布 变化,试用与定距变量的分析,可以附加正态曲线
spss基本统计分析
依次连接各点, 依次连接各点, 即可得分布折线图。 即可得分布折线图。
0.70
? 0.60
0.50
0.40
0.30
0.40
0.60
0.80
1.00
1.20
1.40
1.60
n
f P-P图和 图和Q-Q图 图和 图
直方图和茎叶图是评估数据分布的常用图形, 直方图和茎叶图是评估数据分布的常用图形 P-P 图和Q-Q图是直观表示数据分布是否正态。 图是直观表示数据分布是否正态。 图和 图是直观表示数据分布是否正态 P-P图是根据变量的累积概率对应于所指定的理论 图是根据变量的累积概率对应于所指定的理论 分布累积概率绘制的散点图;Q-Q图是根据变量数据 图是根据变量数据 分布累积概率绘制的散点图 分布的分位数与所指定分布分位数之间的曲线来进行 检验。 检验。
b 园图(饼图) 园图(饼图)
用于表示计数资料、 用于表示计数资料、质量性状资料或半定量 等级)资料的构成比。 (等级)资料的构成比。 所谓构成比,就是各类别、 所谓构成比,就是各类别、等级的观测值个数 (次数 与观测值总个数 样本含量 的百分比。 次数)与观测值总个数 样本含量)的百分比 次数 与观测值总个数(样本含量 的百分比。 把园图的全面积看成100%,按各类别、等级的 ,按各类别、 把园图的全面积看成 构成比将园面积分成若干分, 构成比将园面积分成若干分, 以扇形面积的大小表 分别表示各类别、等级的比例。 分别表示各类别、等级的比例。
第四章 基本统计分析
SPSS统计分析功能概述 一、SPSS统计分析功能概述
1、SPSS数值 、 数值 分析过程 2、SPSS图形 、 图形 分析过程
1、SPSS数值分析过程 SPSS数值分析过程
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
多选项分析
多选项分析的基本思路
– 定义多选项变量集 – 多选项频数分析 – 多选项交叉分组下的频数分析
多选项分析
定义多选项变量集
目的:将已分解的变量定义为一个集合,便于进行多选 项分析
– 菜单选项:analyze->multiple response->define sets – 从原变量中选取被分解的变量(数值型)到variables in
•统计量服从(r-1)*(c-1)个
优 良 中 及格 总数
自由度的卡方分布
•count:观察(实际)频数 男 1 0 5
5
3
23
•expected count:期望频数
(期望频数反映的是H0成立情 女
8
12 4
1
25
况下的数据分布特征)
•Residual:剩余
总 数 18 17 9
4
48
(观察频数-期望频数)
计算描述统计量
描述对称程度的统计量
– 偏度(skewness):描述某变量分布形态的偏斜程度和 方向的统计量.
偏度为0表示对称; 大于0表示正偏差大(右偏),频数最大的值比均值小,极值大
于均值; 小于0表示负偏差大(左偏)。
计算描述统计量
描述陡峭程度的统计量
– 峰度(kurtosis):描述某变量所有变量值分布形态陡缓 程度的统计量。
准确
计算描述统计量
基本操作步骤 (1)菜单选项:analyze->descriptive statistics-
>descripive (2)选择将参加计算的数值型变量名到variables
框。
计算描述统计量
其他功能
– 数据标准化处理
新变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布
进一步计算
– cells选项:选择在频数分析表中输出各种百分比.
row:行百分比(Row pct); column:列百分比(Col pct); total:总百分比(Tot pct);
分析列联表中变量间的关系
目的:
通过列联表分析,检验行列变量之间是否独立。
方法:
– 卡方检验:对品质数据的相关性进行度量
分析的主要步骤
– 产生交叉列联表 – 分析列联表中变量间的关系
产生交叉列联表
•什么是列联表
控制变量
行变量
地区
职称
高(人)
列变量
收入 中(人)
低(人)
高工
频数
工程师
助工
技术员
合计
产生交叉列联表
基本操作步骤
(1)菜单选项: analyze->descriptive statistics-> crosstabs
第四章 SPSS的基本统计分析
基本统计分析
• 频数分析 • 计算基本描述统计量(分布特征测度) • 图形分析工具 • 列联分析
频数分析
目的
粗略把握变量值的分布状况。
例:研究被调查者的特征(如:性别、年龄、收入) 研究被调查者对某个问题的总体看法(如:教学方式、选修课程) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)
描述离散程度的统计量
– 标准差(standard deviation--Std Dev):表示某变量的所有变量值离散程度的 统计量。 SPSS中计算的是样本标准差。
– 方差(variance):标准差的平方。 SPSS中计算的是样本方差。
– 极差 (range):最大值(maximum)—最小值(minimum)
分析列联表中变量间的关系
卡方检验
年龄与工资收入交叉列联表
低中高
青 400 0
0
中0
500 0
老00
0
500
中 0 600 0
老 400 0
0
分析列联表中变量间的关系
•卡方检验基本步骤
(1)H0:行列变量之间无关 联或相互独立 (2)构造卡方统计量
2
( fo fe)2 fe
(2)选择一个变量作为行变量到row框. (3)选择一个变量作为列变量到column框. (4)可选一个或多个变量作为控制变量到layer框.
– 控制变量的层次设置:同层为水平数加;不同层为水平数积.
(5)是否显示各分组的棒图(display clustered bar charts )
产生交叉列联表
峭度为0表示与标准正态分布峭度相同。 大于0表示比标准正态分布陡,尖峰。 小于0表示比标准正态分布缓;平峰。
计算描述统计量
• 其他统计量
– 标准误差(standard error S.E):抽样分布中的标准差, 反映样本误差。
– 均值标准误差(means of S.E)
• 中心极限定理认为:样本均值~N(u,2/n) • 反映样本均值与总体真值间的平均离散程度 • 样本数越大,样本均值的离散程度越小,对真值的估计越
采用的方法
– 计算频分布表:包括计算 频数、累计频数、百分比、累 计百分比
– 绘制统计图形:条形图、饼图
频数分析
基本操作步骤
(1)菜单选项:analyze->descriptive statistics->frequencies (2)选择几个待分析的变量到variables框. (3)chart选项,选择所需要的图形
计算描述统计量
目的
– 精确把握变量的总体分布状况,了解数据的集中趋 势、离散趋势、对称程度、陡峭程度。
基本方法
– 计算基本描述统计量
计算描述统计量
描述集中趋势的统计量
– 均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。 适用于定距数据。 特点:利用了全部数据,易受极端值的影响。
(68.2%,95.4%,99.7%) save standardized values as variables选项 将变量作标准化后,结果存入名为“Z+原变量名”
的新变量中.
交叉分组下的频数分析
目的
了解不同变量在不同水平下的数据分布情况
例:学习成绩与性别有关联吗?(两变量) 例:职业、性别、爱逛商店有关联吗?(三变量)
37.5 35.4 18.8 8.3 100
分析列联表中变量间的关系
卡方检验基本步骤
(3)计算卡方统计量的值,并得到该统计量值的概率P 值
(4)决策。概率P与显著性水平比较,小于等于则拒绝 H0,否则不能拒绝
实现步骤
statistics选项 cells选项
分析列联表中变量间的关系
卡方检验的要求: – 一般要求列联表中期望频数小于5的格子数不超过 20%,否则会夸大卡方值,容易得出拒绝结论,可 以合并单元格。 – 卡方值会受样本数的影响