应用统计学(SPSS)03-描述统计
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015-3-13
应用统计学(SPSSBaidu Nhomakorabea03-韩毅
27
P73-85
频数分析与多选项分析
二、交叉列联表分析
相关系数的相关关系检验 检验方法总结表
定类变量 定序变量
卡方
定距变量
卡方, Eta系数
定类变量
定序变量
卡方,列联系数,Phi系 数,V系数,Lambda, 不确定系数等
卡方,Gamma系数,Somers 卡方 d系数, Kendall Tau-b系数, Kendall Tau-c系数,MantelHaenszel卡方,相关系数 卡方,相关系数
2015-3-13 应用统计学(SPSS)03-韩毅 24
P73-85
一个实例
行变量
列变量
列边缘 分布
条件分布 具体数据值参见光盘的“职工数据”
2015-3-13 应用统计学(SPSS)03-韩毅
行边缘分布
25
P73-85
频数分析与多选项分析
二、交叉列联表分析
交叉列列联表分析的主要内容
①交叉分组的频数分布 ②变量间的独立性 检验变量间是否相互独立 ③变量间的相关性 根据变量的属性选择有效的相关系数计算方法
s
2015-3-13
1 2 ( x x ) n 1
6
应用统计学(SPSS)03-韩毅
P68-73
主要描述统计量
二、中位数(Median)
把一组数据按递增或递减的顺序排列,处于中
间位置上的变量值就是中位数
若一组数据x1,x2,…,xn是按从小到大或从大到小 进行排列,则中位数为
xk 1 n 2k 1 Me xk xk 1 n 2k 2
2015-3-13
应用统计学(SPSS)03-韩毅
5
P68-73
主要描述统计量
一、均值和均值标准误差
样本平均数:若一组数据x1,x2,…,xn,代表
一个大小为n的有限样本,则其样本平均数为
均值标准误差(Standard
Error of Mean,S.E.
mean)
描述样本均值与总体均值间平均差异程度的统计量
2015-3-13
应用统计学(SPSS)03-韩毅
26
P73-85
频数分析与多选项分析
二、交叉列联表分析
相关系数的相关关系检验 检验的零假设(H0): 行和列变量相互独立,不存在显著相关关系 SPSS将自动给出检验的相伴概率,如果相伴概 率小于显著性水平0.05,那么应拒绝零假设, 认为行列变量之间彼此相关
2015-3-13 应用统计学(SPSS)03-韩毅 10
P68-73
总体、样本的方差及标准差计算公式
2015-3-13
应用统计学(SPSS)03-韩毅
11
P68-73
主要描述统计量
六、四分位数、十分位数和百分位数
四分位数(Quartiles)
是将一组数据由小到大(或由大到小)排序后,用3 个点将全部数据分为四等份,与3个点上相对应的变 量称为四分位数,分别记为Q1(第一四分位数)、 Q2(第二四分位数)、Q3(第三四分位数),其中 Q3到Q1之间的距离的一半又称为四分位差,记为Q
主要指标与工具
指标:频数,百分比,有效百分比,累计百分比 工具:条形图,饼图,直方图
2015-3-13 应用统计学(SPSS)03-韩毅 22
P63-8
频数分析与多选项分析
研究问题
针对商品房购买意向的调查数据进行频数分 析,并实现以下两个目标:
目标1-分析被调查者的户籍状况以及他们认 为房价的变化情况; 目标2-分析月住房开销的分布,并对不同居 住类型进行比较 具体数据值参见光盘
C 2 n
2
其中,n为样本容量
2015-3-13 应用统计学(SPSS)03-韩毅 30
P73-85
主要的相关关系检验方法
(3)Phi 系数和Cramer ’s V系数
用于名义变量之间的相关系数计算。计算公式 由卡方统计量修改而得,公式为
2 n
2 V n min[(R 1),(C 1)]
2015-3-13 应用统计学(SPSS)03-韩毅 15
P68-73
主要描述统计量
八、偏度(Skewness)
偏度
是描述数据分布形态的,它是描述某变量取值分布 对称性的统计量
计算公式
偏度为0,表示其数据分布形态与正态分布偏度相同; 偏度大于0,表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖 在右边; 偏度小于0,表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边
2015-3-13 应用统计学(SPSS)03-韩毅 18
P91-3
主要描述统计量
研究问题1
针对商品房购买意向的调查数据,对月住房 开销计算基本统计量,并实现以下两个目标:
目标1-计算月住房开销的基本统计量,并对 不同居住类型进行比较; 目标2-分析月住房开销的数量是否存在不均 衡现象 具体数据值参见光盘
定距变量
2015-3-13 应用统计学(SPSS)03-韩毅
28
P73-85
主要的相关关系检验方法
(1)卡方统计量检验
是常用的检验行列变量之间是否相关的方法。 交叉列联表的卡方检验零假设是:行列变量之间独 立,计算公式为
2
i 1 j 1
r
c
( fijo fije )2 fije
2015-3-13 应用统计学(SPSS)03-韩毅 16
P68-73
主要描述统计量
九、标准化Z分数及线性转换
Z分数定义
从平均数为μ标准差为σ的总体中抽取出一个变量 值x,该变量值大于或小于平均数的标准差倍数
Z
Z分数线性转换
x
T 10 Z 50
2015-3-13 应用统计学(SPSS)03-韩毅 17
P1 P2
2015-3-13
…
应用统计学(SPSS)03-韩毅
P99
14
P68-73
主要描述统计量
七、峰度(Kurtosis)
峰度
是描述某变量所有取值分布形态陡缓程度的统计量
峰度计算公式
峰度为0,表示其数据分布与正态分布的陡缓程度相同; 峰度大于0,表示比正态分布高峰要更加陡峭,为尖顶峰; 峰度小于0,表示比正态分布的高峰要平坦,为平顶峰。
1 主要描述统计量 2 频数分析与多选项分析 3 探索分析 4 统计表生成
5 统计图制作
2015-3-13 应用统计学(SPSS)03-韩毅 4
主要描述统计量
一、均值和均值标准误差
均值(平均值、平均数,mean)表示的是某变
量所有取值的集中趋势或平均水平 总体平均数:若一组数据X1,X2,…,XN,代表 一个大小为N的有限总体,则其总体平均数为
其中n为样本容量,R和C分别为表的行数和列数
2015-3-13
应用统计学(SPSS)03-韩毅
2015-3-13 应用统计学(SPSS)03-韩毅 23
P63-8
频数分析与多选项分析
二、交叉列联表分析
交叉列联表分析的定义
分析多个变量在不同取值情况下的联合分布特征,进
而分析变量之间的相互影响和关系 例子:不同专业学生的高考成绩是否有较大的不同?不 同学科同学生活态度上是否表现不同? 参与交叉分析的两个变量分别称为交叉列联表的行变量 与列变量,还可以再指定其它控制变量
2015-3-13 应用统计学(SPSS)03-韩毅 7
P68-73
主要描述统计量
三、众数(Mode)
是指一组数据中,出现次数最多的那个变量值
手工计算众数比较麻烦,需要统计数据的次数
分布
9年级6班学生的体重(千克) 46 51 59 54 46 53 37 52 50 51 49 44 49 44 43 46 56 47 52 52 50 47 55 49 47 52 52 42 45 40 60 63 54 40 55 50 56 46 49 53 46 55 44 45 57 52 50 49 55 48 58 42 52 59 45 48 58 62 51 52 63 58 59 62 52 55 57
2015-3-13
应用统计学(SPSS)03-韩毅
8
P68-73
主要描述统计量
四、全距(Range)
全距(亦称极差)
是数据的最大值与最小值之间的绝对差 计算公式 一组数据x1,x2,…,xn,极差为
R xmax xmin
2015-3-13
应用统计学(SPSS)03-韩毅
9
P68-73
RT CT fe n
其中fo和fe分别为单元格的观察与期望数,TR和CT分别为 行总观察数与列总观察数
2015-3-13 应用统计学(SPSS)03-韩毅 29
P73-85
主要的相关关系检验方法
(2)Contingency coefficient:列联系数 用于名义变量之间的相关系数计算。计算 公式由卡方统计量修改而得,公式为
D1 D2
2015-3-13
…
D9
13
应用统计学(SPSS)03-韩毅
P68-73
主要描述统计量
六、四分位数、十分位数和百分位数
百分位数(percentiles)
将一组数据由小到大(或由大到小)排序后分割为 100等份,与99个分割点位置上相对应的变量称为百 分位数,分别记为P1,P2,…,P99,表示1%的数据 落在P1下,2%的数据落在P2下,…,99%落在P99下
计算机与信息科学学院 主讲教师:韩毅 Tel:68367232 E-mail:hanyi72@swu.edu.cn
ê· Ä Ý
Ç ² Ì ú Á ¿ µ Ä GompertzÇ ú Ï ß Ç ÷Ê Æ
本课程的基本知识结构
统计量/频数计算 探索分析 统计图表生成 相关分析 回归分析
统计基础知识
描述统计 推断统计
P91-3
第三讲 描述统计
1 主要描述统计量 2 频数分析与多选项分析 3 探索分析 4 统计表生成
5 统计图制作
2015-3-13 应用统计学(SPSS)03-韩毅 21
频数分析与多选项分析
一、一维频数(Frequency)分析
就是一个变量在各个变量值上取值的个案数
利用一维频数分布表可以对数据按组进行归类整理,形 成各变量的不同水平的频数分布表和图形,以便对各变 量的数据特征和观测量分布有一个概括的认识
2015-3-13 应用统计学(SPSS)03-韩毅 19
P68-73
主要描述统计量
研究问题2
根据2006年各地区保险业务情况数据,分析 各地区财产保险业务的保费收入占全部保费收入 的比例情况,并与1999年数据进行比较。
具体数据值参见光盘
2015-3-13
应用统计学(SPSS)03-韩毅
20
多元 统计分析
聚类分析 判别分析 因子分析
SPSS基础知识
均值比较与T检验 方差分析
非参数检验
2015-3-13 应用统计学(SPSS)03-韩毅
时序分析
2
应用统计学(SPSS)
Applied Statistics (SPSS)
第三讲 描述统计
2015-3-13
应用统计学(SPSS)03-韩毅
3
第三讲 描述统计
Q1
2015-3-13
Q2
Q3
12
应用统计学(SPSS)03-韩毅
P68-73
主要描述统计量
六、四分位数、十分位数和百分位数
十分位数(Deciles)
将一组数据由小到大(或由大到小)排序后,用9个 点将全部数据分为十等份,与9个点位置上相对应的 变量称为十分位数,分别记为D1,D2,…,D9,表 示10%的数据落在D1下,20%的数据落在D2下,…, 90%落在D9下
应用统计学(SPSS)
Applied Statistics (SPSS)
③
200 100
0 第一季度
1000 800 600 400 200 0
19 83 19 85 19 87 19 89 19 91 19 93 19 95 19 97 19 99
¿ ú Á Ç ² Ì
̲ Ç úÁ ¿Y ¤² Ô âÖ µ K
主要描述统计量
五、方差和标准差
方差(Variance)
是所有变量值与平均数偏差平方的平均值,它表示 了一组数据分布的离散程度的平均值
标准差(Standard Deviation)
是方差的平方根,它表示了一组数据关于平均数的 平均离散程度。
方差和标准差越大,说明变量值之间的差异越大,距离 平均数这个“中心”的离散趋势越大。
P68-73
主要描述统计量
十、比率分析
比率分析的定义
对两变量值比率变化的描述分析,适用于定距变量
比率分析的主要指标
加权比率均值
平均绝对离差(average absolute deviation) 离散系数(coefficient of dispersion) 相关价格微分(price-related differential) 变异系数(coefficient of variance)