统计分析方法简介
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
集中趋势的度量:
平均数(average):描述一组同质观察
值的平均水平或集中位置的统计指标。包 括均数、中位数、众数等。
1. 均数(mean)
适用条件:单峰对称分布,特别是正态或 近似正态分布的定量资料。
符号:希腊字母表示总体均数,X 表示样 本均数。
总体
随机抽样
统计推断
样本 X
例3 某地调查110名18岁男大学生,其身高均数 为172.73cm,标准差为4.09cm;其体重均数 为55.04kg,标准差为4.10kg,试比较两者变 异度。 例4 某年某市城区120名5岁女孩体重均数为 17.71(kg),标准差为1.44(kg),同年该地120 名5个月女孩体重均数为7.37(kg),标准差为 0.77(kg),比较其离散程度。
11
统计分析的工具
SAS SPSS STATA … EXCEL
12
SPSS简介
Statistical Program for Social Sciences Statistical Product and Service Solutions 统计产品与服务解决方案 界面友好、使用方便,功能齐全 《SPSS11统计分析教程》(基础篇/高级篇) 张文彤
注意:加权法中X1, X2, , Xk与f1, f2,
, fk分别为频数表资料中各组段的组中
值和相应组段的频数(或相同观察值与其
对应的频数)。
均数的数学特性:
各观察值与均数之差(离均差)的和为0,即
(X X ) 0
其离均差平方和小于各观察值与其他任何数a (a≠
)之差的平方和,即 X
Fra Baidu bibliotek
58
正态分布(Normal distribution)
1733年,德国数学家和天文学家A. de Moivre 法国天文学家和数学家Laplace 德国数学家Gauss(1777-1855) 最早用于物理学、天文学 描述观察误差的分布,并 用于行星轨迹的预测,故 又称 Gaussian distribution
应用百分位数时,样本含量要足够大,否则,不 宜取靠近两端的百分位数。
中位数、百分位数的应用
中位数可用于各种分布的资料。对于正态分布资 料,中位数等于均数;对于对数正态分布资料, 中位数等于几何均数。 中位数不受极端值的影响,因此,实际工作中主 要用于偏态分布资料、两端无确切值或分布不明 确的资料。
M X ( n 1 )
2
M [ X ( n ) X ( n 1) ] / 2
2 2
频数表法
1 2 3 4 5
1 2 3 4 5 6
33
某市大气中日平均浓度(g / m )
3
浓度 (1) 25~ 50~ 75~ 100~ 125~ 150~ 175~ 200~ 225~ 250~ 275~ 300~ 325~350
频数 (2) 39 67 64 63 45 30 17 9 7 6 5 3 6
累计频数 (3) 39 106 170 233 278 308 325 334 341 347 352 355 361
累计频率% (4) 10.8 29.4 47.1 64.5 77.0 85.3 90.0 92.5 94.5 96.1 97.5 98.3 100.0
对每一个观察单位用定量的方法测定某项指标所 得的资料
分为离散型资料和连续型资料
7
定性资料(categorical data)
又称分类资料、计数资料
将观察单位按属性或类型分组计数所得的资料
二项分类资料
多项分类资料
• 无序多分类 • 有序多分类或等级资料
9
10
不同类型资料可相互转化,但注意有 信息损失。
例2. 三组同性别、同年龄儿童的体重(kg) 如下
甲组
26 28 30 32 34
乙组
丙组
24 27 30 33 36
22 25 30 35 38
X 30kg
不全面 !
离散程度的描述
变异在现实工作生活中无处不在;
离散度指标反映一组同质观察值的变
异度;
常用的指标有全距、四分位数间距、
方差、标准差和变异系数。
1. 全距(range,简记为R)
涵义:亦称极差,为一组同质观察值中最大值 与最小值之差。它反映了个体差异的范围,全 距大,说明变异度大;反之,全距小,说明变 异度小。 计算: R X max X min 应用:单峰对称小样本资料 初步了解资料的变异程度
不足之处:
13
界面设置:
下拉菜单 快捷工具栏 数据输入栏/二维数据表 “数据视图”与“变量视图”转换按钮
常用的几大功能:
数据管理 统计分析 制图
15
请打开“习1统计描述.sav” 对资料类型作进一步了解
16
I. 统计描述
统计描述
统计指标 统计表 统计图
参数估计
统计分析
计算方法:
直接法:X 加权法:
X f1 X1 f 2 X 2 f k X k f1 f 2 f k fX f
X1 X 2 X n n
X n
某年某市120名5岁女孩身高频数分布
组段/cm (1) 95~ 98~ 101~ 104~ 107~ 110~ 113~ 116~ 119~ 122~125 合计 频数 f) (2) 1 7 10 18 25 21 15 15 7 1 120 频率/% (3) 0.83 5.83 8.33 15.00 20.83 17.50 12.50 12.50 5.83 0.83 100.00 累计频数 (4) 1 8 18 36 61 82 97 112 119 120 累计频率/% (5) 0.83 6.67 15.00 30.00 50.83 68.33 80.83 93.33 99.17 100.00 -
53
练习1:
例1女孩身高 习1统计描述
54
分析 描述统计 探索
55
最大值
上四分位数 四分位数间距 均数 下四分位数
最小值
箱式图
56
正态分布及其应用
Normal distribution
and its applications
随机变量及其概率分布
连续型随机变量:正态分布 对数正态分布 Weibull分布 离散型随机变量:二项分布 Poisson分布 超几何分布
( X X ) ( X a)
2
2
30
频数
20 10 0 96.599.5 103 106 109 112 115 118 121 124 身高(cm) 图2.1 某年某市城区120名5岁女孩身高频数分布
百分位数(percentile) ——是一种位置指标,用Px 表示。一个百分位 数Px将一组观察值分为两部分,理论上有x%的 观察值比它小,有(100-x)%的观察值比它大。
总体标准差 样本标准差
( X ) N
2
s
( X X ) n 1
2
标准差的计算
X
2
直接法
s
( X ) / n
2
n 1
加权法
s
fX
2
( fX ) / f
2
f 1
适用条件:方差和标准差是描述对称分布 ,特别是正态或近似正态分布离散程度的 常用指标; 结合均数共同描述(近似)正态分布资料的分 布特征。
统计推断
假设检验
常用统计指标:
定量资料
定性资料
集中趋势 离散程度
率
构成比
相对比
定量资料的描述指标
集中趋势
离散程度
例1. 某年某市抽样调查的120名5岁女孩身高(cm)资料如下
105.5 118.6 110.5 104.2 110.9 107.9 108.1 109.1 108.1 109.4 118.2 103.9 116.0 110.1 108.6 100.6 108.8 103.8 99.1 104.8 116.5 99.6 109.3 107.5
计算方法:
直接法
频数表法
P 100 50
Px L
i fx
( n x % f L )
25 63
(361 50% 170)
中位数、百分位数的应用
百分位数用于描述一组数据某一百分位的位置, 最常用的百分位数是P50,即中位数;
也可用多个百分位数的结合来描述一组观察值的 分布特征,如P25和P75合用时,反映中间50%观察 值的分布情况;
110.4 105.7 118.2 117.0 112.3 116.5 113.2 107.9 104.8 109.6 95.3 104.4 102.7 101.0 112.1 118.7
100.2 102.1 114.5 110.4 115.0 120.5 115.5 112.7 103.5 114.4 100.7 116.3 105.1 112.8 118.5 113.3 107.9 114.6 121.4 110.7 108.8 114.7 110.6 110.7 116.6 106.9 105.5 107.4 118.4 115.3 119.7 113.9 116.5 112.9 112.9 110.0 99.5 112.7 106.7 119.1 109.6 110.7 102.8 111.3 105.2 117.0 114.9 120.0 103.4 109.3 108.8 105.7 109.0 108.8 108.1 116.4 108.3 111.0 113.0 101.4 108.7 119.1 106.2 115.2 124.0 98.7 106.0 114.7 111.9 107.3 104.1 109.1 108.8 111.0 106.8 120.2 105.8 103.1 105.0 115.0
2. 中位数(median)
——是一个特定的百分位数,即P50;是一组由 小到大按顺序排列的观察值中位次居中的数值。 在全部观察值中,小于和大于中位数的观察值个 数相等。
适用条件:偏态分布资料
一端或两端无确切值资料 分布不明确的资料
符号:P50 或M
计算方法:
直接法
n为奇数时: n为偶数时:
只考虑最大值与最小值之差异,不能反映组内
其它观察值的变异度;
样本含量越大,抽到较大或较小观察值的可能
性越大,则全距可能越大,因此样本含量悬殊 时不宜用全距比较。
2. 四分位数间距(quartile,简记为Q)
涵义:为上四分位数QU(即P75)与下四分位数QL( 即P25)之差。其间包括了一组观察值的一半,故 四分位数间距可看成是中间50%观察值的极差。 其数值越大,变异度越大,反之,变异度越小。
( X ) 0
( X )
( X ) N
2
2
2 =
s
2
( X X ) n 1
2
自由度
随机变量能够自由取值的个数 符号为 ,读作niu
4. 标准差(standard deviation)
因方差的度量单位是原度量单位的平方, 故将方差开方,恢复成原度量单位,得总 体标准差 和样本标准差 s
统计指标 统计表 统计图
参数估计
统计分析
统计推断
假设检验
统计分析的对象
变量(variable):根据研究目的所确定的研究对象 的观察指标。
资料(data):变量的取值,表示观察值(或测量值)或 对应的观察结果。分为定量资料和定性资料。
定量资料(quantitative data)
又称计量资料
5. 变异系数(coefficient of variation)
符号简记为CV 适用条件:常用于比较度量单位不同或均 数相差悬殊的两组(或多组)资料的变异度。 计算公式:
CV s X 100%
练习1:
例1女孩身高 习1统计描述
51
分析 描述统计 频率
52
分析 描述统计 描述
计算:Q = QU - QL
适用条件:常用于描述偏态分布、分布的一端 或两端无确切数值以及分布不明确资料的离散 程度。 优缺点:四分位数间距较全距稳定,但仍未考 虑全部观察值的变异度。
3. 方差(variance)
——为了克服全距和四分位数间距的缺点,
全面考虑每个观察值的变异情况而引入
X
统计分析方法简介
设计
收集资料
数据管理
报告撰写
SPSS
统计分析
2
统计分析(statistical analysis)
运用数理统计、概率论等基本原理,对
数据进行统计指标的选择和计算、统计 图表的绘制、统计方法的选用与统计软 件的应用等。
旨在表达数据特征的基础上,阐明事物
的内在联系和规律性。
统计描述