集中趋势与离散趋势
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2015/12/19 流行病与卫生统计学系 王静
集中趋势(central )的描述
[定义]: 描述一组观察值集中位置或平均水平 的指标称为平均数(average)。 [常用指标]: 算术均数 几何均数 中位数
2015/12/19 流行病与卫生统计学系 王静
1. 算术均数(arithmetic mean) 简称均数(mean),有总体均数和样 本均数之分,分别用希腊字母μ (音miu) 和英文字母x (音x bar)表示。 (1)应用 适用于对称分布,特别是近似正态分布 的定量资料。
2015/12/19
流行病与卫生统计学系 王静
离散趋势(dispersion)描述
多组资料均数相同,只说明其集中趋 势相同,还应考虑各组观察值相互之 间距离情况。 A 26 28 30 32 34 B 24 27 30 33 36 C 26 29 30 31 34
2015/12/19
流行病与卫生统计学系 王静
iX PX LX n X % f L fX
以下表为例,
P50在第四组段,L=100,i=25, f50 =63,
fL =170, n=361。 以次类推,可以计算任一个PX。
流行病与卫生统计学系 王静
2015/12/19
浓度(μ g/m3) 25~ 50~ 75~ 100~ 125~ 150~ 175~
2. 连续型变量资料的频数表编制:
(1)求极差(R):极差=最大值-最小值。 (2)划分组段: 确定组段数(约10个)、组距(=R/10)、 组段上下限,将其分为若干组段。 (3)清点各组段频数。 (4)计算累计频数、累计频率。
2015/12/19
流行病与卫生统计学系 王静
R=173.6-154.7=18.9,组距= 18.9/10=1.89 ≈2
2015/12/19
流行病与卫生统计学系 王静
频数分布图
O
2015/12/19
A
B
AB
流行病与卫生统计学系 王静
3. 频数表的用途:
(1)描述资料的分布特征和分布类型; (2)计算恰当的指标或进行正确的统计 分析; (3)发现特大、特小的可疑值; (4)据此绘制频数分布图。
2015/12/19
2015/12/19 流行病与卫生统计学系 王静
身高组段 ( 1)
频数 f
累计频数
累计频率(%)
154~
156~ 158~ 160~ 162~ 164~ 166~ 168~ 170~
2
4 11 13 22 19 15 9 4
2
6 17 30 52 71 86 95 99
2
6 17 30 52 71 86 95 99
2015/12/19
流行病与卫生统计学系 王静
(2)计算方法 A、不分组资料用直接法, x =(∑X)/n;
B、频数表资料常用加权法(weighting method), x =Σ(f*x)/ Σf , x为各组段的组中值。
2015/12/19
流行病与卫生统计学系 王静
身高组段
M=4.8
10例正常人的发汞值:
1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3
M=(4.8+5.6)/2=5.2
2015/12/19
流行病与卫生统计学系 王静
2)频数表法(用于频数表资料): 先根据频数表计算累计频数和累计频率,第50百分位 数P50即为中位数。
200~ 225~
250~ 275~ 300~
2015/12/19
9 7
6 5 3 6
334 341
347 352 355
流行病与卫生统计学系 王静
92.5(90.0,92.5】 94.5(92.5,94.5】
96.1(94.5,96.1】 97.5(96.1,97.5】 98.3(97.5,98.3】 100.0(98.3,100.0】
优点:简单。 缺点: 1)不全面:即不能反映所有观察值的 变异度; 2)不稳定:最大和最小值的出现受抽 样误差的影响极大。
2015/12/19
流行病与卫生统计学系 王静
2. 四分位数间距( Qu-QL ) 四分位数(Q) 是特定的百分位数,其中P25 为下四分位数QL,P75为上四分位数Qu。
离散趋势: 一组观察值之间变化(或波动)程度大小。
常用指标: 极差、四分位数间距 方差、标准差
变异系数
2015/12/19
流行病与卫生统计学系 王静
一、极差与四分位数间距 1. 极差(R) 又称全距,即最大和最小观察值之差, 用极差描述资料的离散程度简单明了。
2015/12/19
流行病与卫生统计学系 王静
流行病与卫生统计学系 王静
4. 频数分布的分布特征及分布类型: (1)两个特征:
集中趋势
离散趋势
(2)两种类型: 对称分布 偏峰分布
左偏峰
2015/12/19 流行病与卫生统计学系 王静
右偏峰
70 人 数 60 50 40 30 20 10
0
1
3
ຫໍສະໝຸດ Baidu
5
7
9
11
13
15
17
19
21
发汞含量(umol/kg)
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
2015/12/19
流行病与卫生统计学系 王静
[特性]:
当资料为正态分布时, μ≈M;
当资料为对数正态分布时,G ≈ M 。 [应用]: 适用于任何分布类型资料,它不受两端特 大、特小值的影响,当分布末端无确切数据时、 总体分布类型未知时也可计算。
1. 离散型变量资料的频数表编制: 例:1998年某山区96名孕妇产前检查次数资料。
检查次数 0 1 2 3 4 …
频数 4 7 11 13 26 …
合计
2015/12/19
96
流行病与卫生统计学系 王静
30
20
10
Mean F
0 0 1 2 3 4 5 6
X
直条图
2015/12/19 流行病与卫生统计学系 王静
图
2015/12/19
239人发汞含量的频数分布
流行病与卫生统计学系 王静
400 人 数
300
200
100
0
0 10 20 30 40 50 60 70 80 90 100
自评分
图
2015/12/19
某城市892名老年人生存质量自评分的频数分布
流行病与卫生统计学系 王静
40 人 数
30
20
10
0 1 5 10 15 20 25 30 35 40 45
154~ 156~ 158~ 160~ 162~ 164~ 166~
频数 f
2 4 11 13 22 19 15
组中值 X
155 157 159 161 163 165 167
f· X
310 628 1749 2093 3586 3135 2505
168~
170~ 172~174 合计
2015/12/19
1∶256
1∶512
2015/12/19
4
1
256
512
2.4082
2.7093
流行病与卫生统计学系 王静
3. 中位数(median,M) [定义]: 一组观察值从小到大排序,位置处于中 间的数是中位数M,有50%的个体值比 它小,有50%的个体值比它大。 M 50% 50%
2015/12/19
2015/12/19
流行病与卫生统计学系 王静
3.极差和四分位数间距的适用范围: 两者皆可描述偏态分布资料的离散程度 大小, 但更宜选用四分位数间距。
2015/12/19
流行病与卫生统计学系 王静
二、方差与标准差
Σ ( X - X ) = 0 Σ | X - X | Σ ( X - X ) 2 离均差平方和(sum of squares, SS)
2015/12/19 流行病与卫生统计学系 王静
40例麻疹易感儿童的血凝抑制抗体滴度
抗体滴度 1∶ 4 人数f 1 滴度倒数X 4 lgX 0.6021
1∶ 8
1∶16 1∶32 1∶64 1∶128
4
5 8 11 6
8
16 32 64 128
0.9031
1.2041 1.5051 1.8061 2.1072
频数f 39 67 64 63 45 30 17
累计频数Σ f 39 106 170 233 278 308 325
累计频率% 10.8(0, 10.8】 29.4(10.8, 29.4】 47.1(29.4,47.1】 64.5(47.1,64.5】 77.0(64.5,77.0】 85.3(77.0,85.3】 90.0(85.3,90.0】
9
4 1 ∑f =100
169
171 173
1521
684 173 ∑f · X=16380
流行病与卫生统计学系 王静
2. 几何均数(geometric mean ,G) 适用于呈倍数关系的等比资料或对数 正态分布的资料。
[对数正态分布]:原始资料为偏态分布, 进行对数转换后,新资料呈近似正态分 布,此原始资料为~。 G= lg -1[Σ(f*lgx)/ Σf] 。
2015/12/19
流行病与卫生统计学系 王静
百分位数(percentile): 是资料分布数列的百等份分割值,用PX表 示,有X%的值比它小,有(1-X)%的值 比它大。
P2.5
P25
M
P75
P97.5
2015/12/19
流行病与卫生统计学系 王静
四分位数间距的优、缺点
优点:比极差较稳定,因为它相当于中间 一半观察值的极差; 缺点:仍未考虑每个观察值的变异度,不 全面。
流行病与卫生统计学系 王静
组 段 (1) 124~ 128~ 132~ 136~ 140~ 144~ 148~ 152~ 156~ 160~ 合 计
频 数 (2) 1 2 10 22 37 26 15 4 2 1 120
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
流行病与卫生统计学系 王静
[计算]:
1)直接法(用于小样本例数): 例: 1 2 3 4 5 6 7,M=4; 1 2 3 4 5 6 7 8,M=(4+5)/2=4.5
2015/12/19
流行病与卫生统计学系 王静
9例正常人的发汞值(mol/kg ):
1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5
2015/12/19
流行病与卫生统计学系 王静
1. 方差(variance,Var): 方差为SS的平均(又称均方),不受观 察值个数的影响。
总体方差——σ2 样本方差—— s2
2015/12/19
流行病与卫生统计学系 王静
σ2 =
Σ( x - μ ) 2 / n s2 = SS /(n-1) = Σ(x -x)2 /(n-1) =[Σ x 2 -( Σx)2 /n] /(n-1) 例: 1 2 3 4 5 6 7 8 9 10 11
325~350
361
数值:
100
M 180.5 50%
125 233 64.5%
累计频数: 170 累计频率: 47.1%
按比例计算,即:
该组段共25(μg/m3)、63人,平均每人占(25/63)大 小;100~M之间有10.5人,占(25/63) × 10.5大小,再 加上100即为M大小。
2015/12/19
172~174
合计
2015/12/19
1
100
100
100
流行病与卫生统计学系 王静
直方图
2015/12/19 流行病与卫生统计学系 王静
血型的频数分布表
血型 O A B AB 合计 频数 205 112 150 40 507 频率(%) 40.43 22.09 29.59 7.89 100.00
定量资料的统计描述
2015/12/19
流行病与卫生统计学系 王静
统计描述的工作主要是在编制频数表的 基础上描述资料的集中位置和离散程度。 主要内容: 一、频数及频数分布 二、集中位置、离散程度的描述 三、分布形态的描述
2015/12/19
流行病与卫生统计学系 王静
频数分布(frequency distrubution)
生存时间(月)
图
2015/12/19
102名黑色数瘤患者的生存时间频数分布
流行病与卫生统计学系 王静
2500
2000
1500
1000
500 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
死亡年龄(岁)
图 某地1990~1992年男性死亡年龄分布
集中趋势(central )的描述
[定义]: 描述一组观察值集中位置或平均水平 的指标称为平均数(average)。 [常用指标]: 算术均数 几何均数 中位数
2015/12/19 流行病与卫生统计学系 王静
1. 算术均数(arithmetic mean) 简称均数(mean),有总体均数和样 本均数之分,分别用希腊字母μ (音miu) 和英文字母x (音x bar)表示。 (1)应用 适用于对称分布,特别是近似正态分布 的定量资料。
2015/12/19
流行病与卫生统计学系 王静
离散趋势(dispersion)描述
多组资料均数相同,只说明其集中趋 势相同,还应考虑各组观察值相互之 间距离情况。 A 26 28 30 32 34 B 24 27 30 33 36 C 26 29 30 31 34
2015/12/19
流行病与卫生统计学系 王静
iX PX LX n X % f L fX
以下表为例,
P50在第四组段,L=100,i=25, f50 =63,
fL =170, n=361。 以次类推,可以计算任一个PX。
流行病与卫生统计学系 王静
2015/12/19
浓度(μ g/m3) 25~ 50~ 75~ 100~ 125~ 150~ 175~
2. 连续型变量资料的频数表编制:
(1)求极差(R):极差=最大值-最小值。 (2)划分组段: 确定组段数(约10个)、组距(=R/10)、 组段上下限,将其分为若干组段。 (3)清点各组段频数。 (4)计算累计频数、累计频率。
2015/12/19
流行病与卫生统计学系 王静
R=173.6-154.7=18.9,组距= 18.9/10=1.89 ≈2
2015/12/19
流行病与卫生统计学系 王静
频数分布图
O
2015/12/19
A
B
AB
流行病与卫生统计学系 王静
3. 频数表的用途:
(1)描述资料的分布特征和分布类型; (2)计算恰当的指标或进行正确的统计 分析; (3)发现特大、特小的可疑值; (4)据此绘制频数分布图。
2015/12/19
2015/12/19 流行病与卫生统计学系 王静
身高组段 ( 1)
频数 f
累计频数
累计频率(%)
154~
156~ 158~ 160~ 162~ 164~ 166~ 168~ 170~
2
4 11 13 22 19 15 9 4
2
6 17 30 52 71 86 95 99
2
6 17 30 52 71 86 95 99
2015/12/19
流行病与卫生统计学系 王静
(2)计算方法 A、不分组资料用直接法, x =(∑X)/n;
B、频数表资料常用加权法(weighting method), x =Σ(f*x)/ Σf , x为各组段的组中值。
2015/12/19
流行病与卫生统计学系 王静
身高组段
M=4.8
10例正常人的发汞值:
1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16.3
M=(4.8+5.6)/2=5.2
2015/12/19
流行病与卫生统计学系 王静
2)频数表法(用于频数表资料): 先根据频数表计算累计频数和累计频率,第50百分位 数P50即为中位数。
200~ 225~
250~ 275~ 300~
2015/12/19
9 7
6 5 3 6
334 341
347 352 355
流行病与卫生统计学系 王静
92.5(90.0,92.5】 94.5(92.5,94.5】
96.1(94.5,96.1】 97.5(96.1,97.5】 98.3(97.5,98.3】 100.0(98.3,100.0】
优点:简单。 缺点: 1)不全面:即不能反映所有观察值的 变异度; 2)不稳定:最大和最小值的出现受抽 样误差的影响极大。
2015/12/19
流行病与卫生统计学系 王静
2. 四分位数间距( Qu-QL ) 四分位数(Q) 是特定的百分位数,其中P25 为下四分位数QL,P75为上四分位数Qu。
离散趋势: 一组观察值之间变化(或波动)程度大小。
常用指标: 极差、四分位数间距 方差、标准差
变异系数
2015/12/19
流行病与卫生统计学系 王静
一、极差与四分位数间距 1. 极差(R) 又称全距,即最大和最小观察值之差, 用极差描述资料的离散程度简单明了。
2015/12/19
流行病与卫生统计学系 王静
流行病与卫生统计学系 王静
4. 频数分布的分布特征及分布类型: (1)两个特征:
集中趋势
离散趋势
(2)两种类型: 对称分布 偏峰分布
左偏峰
2015/12/19 流行病与卫生统计学系 王静
右偏峰
70 人 数 60 50 40 30 20 10
0
1
3
ຫໍສະໝຸດ Baidu
5
7
9
11
13
15
17
19
21
发汞含量(umol/kg)
累计频率 (4) 0.83 2.50 10.83 29.17 60.00 81.67 94.17 97.50 99.17 100.00
2015/12/19
流行病与卫生统计学系 王静
[特性]:
当资料为正态分布时, μ≈M;
当资料为对数正态分布时,G ≈ M 。 [应用]: 适用于任何分布类型资料,它不受两端特 大、特小值的影响,当分布末端无确切数据时、 总体分布类型未知时也可计算。
1. 离散型变量资料的频数表编制: 例:1998年某山区96名孕妇产前检查次数资料。
检查次数 0 1 2 3 4 …
频数 4 7 11 13 26 …
合计
2015/12/19
96
流行病与卫生统计学系 王静
30
20
10
Mean F
0 0 1 2 3 4 5 6
X
直条图
2015/12/19 流行病与卫生统计学系 王静
图
2015/12/19
239人发汞含量的频数分布
流行病与卫生统计学系 王静
400 人 数
300
200
100
0
0 10 20 30 40 50 60 70 80 90 100
自评分
图
2015/12/19
某城市892名老年人生存质量自评分的频数分布
流行病与卫生统计学系 王静
40 人 数
30
20
10
0 1 5 10 15 20 25 30 35 40 45
154~ 156~ 158~ 160~ 162~ 164~ 166~
频数 f
2 4 11 13 22 19 15
组中值 X
155 157 159 161 163 165 167
f· X
310 628 1749 2093 3586 3135 2505
168~
170~ 172~174 合计
2015/12/19
1∶256
1∶512
2015/12/19
4
1
256
512
2.4082
2.7093
流行病与卫生统计学系 王静
3. 中位数(median,M) [定义]: 一组观察值从小到大排序,位置处于中 间的数是中位数M,有50%的个体值比 它小,有50%的个体值比它大。 M 50% 50%
2015/12/19
2015/12/19
流行病与卫生统计学系 王静
3.极差和四分位数间距的适用范围: 两者皆可描述偏态分布资料的离散程度 大小, 但更宜选用四分位数间距。
2015/12/19
流行病与卫生统计学系 王静
二、方差与标准差
Σ ( X - X ) = 0 Σ | X - X | Σ ( X - X ) 2 离均差平方和(sum of squares, SS)
2015/12/19 流行病与卫生统计学系 王静
40例麻疹易感儿童的血凝抑制抗体滴度
抗体滴度 1∶ 4 人数f 1 滴度倒数X 4 lgX 0.6021
1∶ 8
1∶16 1∶32 1∶64 1∶128
4
5 8 11 6
8
16 32 64 128
0.9031
1.2041 1.5051 1.8061 2.1072
频数f 39 67 64 63 45 30 17
累计频数Σ f 39 106 170 233 278 308 325
累计频率% 10.8(0, 10.8】 29.4(10.8, 29.4】 47.1(29.4,47.1】 64.5(47.1,64.5】 77.0(64.5,77.0】 85.3(77.0,85.3】 90.0(85.3,90.0】
9
4 1 ∑f =100
169
171 173
1521
684 173 ∑f · X=16380
流行病与卫生统计学系 王静
2. 几何均数(geometric mean ,G) 适用于呈倍数关系的等比资料或对数 正态分布的资料。
[对数正态分布]:原始资料为偏态分布, 进行对数转换后,新资料呈近似正态分 布,此原始资料为~。 G= lg -1[Σ(f*lgx)/ Σf] 。
2015/12/19
流行病与卫生统计学系 王静
百分位数(percentile): 是资料分布数列的百等份分割值,用PX表 示,有X%的值比它小,有(1-X)%的值 比它大。
P2.5
P25
M
P75
P97.5
2015/12/19
流行病与卫生统计学系 王静
四分位数间距的优、缺点
优点:比极差较稳定,因为它相当于中间 一半观察值的极差; 缺点:仍未考虑每个观察值的变异度,不 全面。
流行病与卫生统计学系 王静
组 段 (1) 124~ 128~ 132~ 136~ 140~ 144~ 148~ 152~ 156~ 160~ 合 计
频 数 (2) 1 2 10 22 37 26 15 4 2 1 120
累计频数 (3) 1 3 13 35 72 98 113 117 119 120
流行病与卫生统计学系 王静
[计算]:
1)直接法(用于小样本例数): 例: 1 2 3 4 5 6 7,M=4; 1 2 3 4 5 6 7 8,M=(4+5)/2=4.5
2015/12/19
流行病与卫生统计学系 王静
9例正常人的发汞值(mol/kg ):
1.1, 1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5
2015/12/19
流行病与卫生统计学系 王静
1. 方差(variance,Var): 方差为SS的平均(又称均方),不受观 察值个数的影响。
总体方差——σ2 样本方差—— s2
2015/12/19
流行病与卫生统计学系 王静
σ2 =
Σ( x - μ ) 2 / n s2 = SS /(n-1) = Σ(x -x)2 /(n-1) =[Σ x 2 -( Σx)2 /n] /(n-1) 例: 1 2 3 4 5 6 7 8 9 10 11
325~350
361
数值:
100
M 180.5 50%
125 233 64.5%
累计频数: 170 累计频率: 47.1%
按比例计算,即:
该组段共25(μg/m3)、63人,平均每人占(25/63)大 小;100~M之间有10.5人,占(25/63) × 10.5大小,再 加上100即为M大小。
2015/12/19
172~174
合计
2015/12/19
1
100
100
100
流行病与卫生统计学系 王静
直方图
2015/12/19 流行病与卫生统计学系 王静
血型的频数分布表
血型 O A B AB 合计 频数 205 112 150 40 507 频率(%) 40.43 22.09 29.59 7.89 100.00
定量资料的统计描述
2015/12/19
流行病与卫生统计学系 王静
统计描述的工作主要是在编制频数表的 基础上描述资料的集中位置和离散程度。 主要内容: 一、频数及频数分布 二、集中位置、离散程度的描述 三、分布形态的描述
2015/12/19
流行病与卫生统计学系 王静
频数分布(frequency distrubution)
生存时间(月)
图
2015/12/19
102名黑色数瘤患者的生存时间频数分布
流行病与卫生统计学系 王静
2500
2000
1500
1000
500 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85
死亡年龄(岁)
图 某地1990~1992年男性死亡年龄分布