医学统计学第2讲 计量资料的统计描述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x=
17.3+18+ … 25.5 10
=21.35(kg)
加权法:
x =
=
f1x1+ f2x2 + f3x3 + … fnxn f1+ f2 + f3 + … fn fx f 权数
均数的特性
• 各观察值与均数之差(离均差)的总和等于零, 即 , • 各观察值的离均差平方和最小,即 ( X X )2 ( X a)2 (a X ) , 均数是一组观察值最理想的代表。
便于发现某些特大或特小的可疑值
便于进一步计算指标和统计分析处理
集中趋势指标 1.算术均数: 简称均数,是用得最多的统计 描述指标。
总体均数
μ
x
样本均数
计算方法: 直接法:
X1 X 2 X 3 X n X n
X i n
例:10名七岁儿童体重(kg)分别为:
17.3,18.0,19.4,20.6,21.2,21.8,22.5, 23.2,24.0,25.5,求平均体重
何为分布?
刀鱼分布在长江下游水域 熊猫分布在温暖多雨的山区,尤以中 国西南部 长寿村的由来
统计描述
统计描述:用统计指标、统计表、统计图 等方法对资料的数量特征及其分布规律 进行测定和描述。
统计分析
统计描述(descriptive statistics)
统计推断(inferential statistics)
• 个体变异是同质观察对象间表现出的差异。 • 变异是生物体在一种或多种、已知或未知 的不可控因素作用下所产生的综合反映。 • 就每个观察单位而言,其观察指标的变异 是不可预测的,或者说是随机的(random)。 • 就总体而言,个体变异是有规律的。
变异规律的体现:分布(distribut.83 21.67 12.5 3.33 1.67
1
120
0.0083
1
0.83
100
某市120名12岁男童身高的频数分布 40
30
20
10
0
124
132
140
148
156
164
频数表的分布特征
①集中趋势(central tendency):变量值集中位 置。本例在组段“140~”。
——集中趋势指标
②离散趋势(tendency of dispersion):变量值 围绕集中位置的分布情况。本例132~148,共有 114人,占95%;离“中心”位置越远,频数越 小;且围绕“中心”左右对称。
——离散趋势指标
120名7岁男童身高的频数分布图
40
人 数
30
20
10
0 124 132 140 148 156 164
例:5人的血清滴度为
1:10,1:20,1:40,1:80,1:160,求平均滴 度? G= 5 10 20 40 80160 = 40
故平均滴度为1:40。
例:某医院预防保健科用流脑疫苗为75名儿童进行免
疫接种后,抗体滴度测定结果见下表,求平均滴度。
75名儿童的平均抗体滴度计算表 抗体滴度 1:4 1:8 1:16 滴度倒数x 4 8 16 lgx 0.6021 0.9031 1.2041 频数f 4 9 21 flgx 2.4084 8.1279 25.2861
均数的应用:
均数能全面反映全部观察值的 平均数量水平,应用甚广,最适于 对称分布资料,特别是正态分布资 料,对于偏态资料,均数不能较好 地反映其集中趋势。
2.几何均数
计算方法:
直接法: G=
n
x1 x2 xn
1
或者G= lg 加权法: G=
lg x ) (
n
lg-1
f lgx f
52,53,54,56,55,58,求中位数?
n=8, M=(x4+x5)/2=(53+54)/2=53.5(cm)
对于频数表资料:
L为Px所在组 的下限值
M=P50 ΣfL 为 小于L 各组段 的累计 频数
i为组距
i Px L n x% f L fx
fx为Px所在组频数
自评分
102名黑色素瘤患者的生存时间频数分布
4 0
3 0
人 数
2 0
1 0
0
0
5
10
15
20
25
30
35
40
45
生存时间(月)
某地某年10000例死亡者年龄分布
4000 3000
人 数
2000
1000
0
0 10 20 30 40 50 60 70 80
死亡年龄(岁)
频数分布的类型
对称分布
6
4
Frequency
组段 (1) 0.5~ 0.6~ 0.7~ 0.8~ 0.9~ 正 正正 正正
划记 (2)
频数,f (3) 3 9 12 13 17
累计频数f (4) 3 12 24 37 54
累计频率(%) 1.9 (0~1.9) 7.5 (1.9~7.5) 15.0 (7.5~15.0) 23.1 (15.2~23.1) 33.8 (23.1~33.8)
1997年某市120名12岁男童身高的频数分布
组 段 124~ 128~ 频 数 1 2 频 率 0.0083 0.0167 百分率 0.83 1.67
132~
136~ 140~ 144~ 148~ 152~ 156~ 160~ 合 计
10
22 37 26 15 4 2
0.0833
0.1834 0.3083 0.2167 0.125 0.0333 0.0167
③资料分布不明等。
中位数计算方法:
x 当n为奇数时,M=
n 1 ( ) 2
当n为偶数时,M= x n x n 1 ( ) ( ) 2 2
2
例:某病患者5人,其潜伏期分别为2,3,
5,8,20,求中位数? n=5, M=x3=5 (天)
例:8名新生儿身长(cm)依次为50,51,
正 正 9 8 3 149 157 160 93.1 (87.5~93.1) 98.1 (93.1~98.1) 100.0 (98.1~100)
160
组段 (1)
0.5~ 0.6~ 0.7~ 0.8~ 正 正正 正正
划记 (2)
频数,f (3)
3 9 12 13
累计频数f (4)
3 12 24 37
2
0 1 2 3 4 5 var5 6 7 8 9
偏态分布 正偏态
长尾向右延伸
8
负偏态
长尾向左延伸
10
6
Frequency
4
Frequency
5
2
0 1 2 3 4 5 var5 6 7 8 9
0 1 2 3 4 5 var6 6 7 8 9 10
频数分布表的用途
揭示资料的分布类型
看出频数分布的两个重要特征 集中趋势 离散趋势
140.2
145.4
142.4
148.9
146.7
139.2
139.6
142.4
138.7
139.9
频数表的编制步骤
(1)求极差(range):即最大值与最小值之差,又称为 全距。 本例极差:R=160.9-125.9=35(cm) (2) 决定组数、组段和组距:根据研究目的和样本含量 n确定。组距=极差/组数,通常分8-15个组,为方便计, 组距常取整数或一位小数。 本例i= R /10=35/10=3.5≈4。 列出组段:第一组段的下限略小于最小值,最后一个组 段上限必须包含最大值,其它组段上限值忽略。 (3) 划记计数:用划记法将所有数据归纳到各组段,得 到各组段的频数。
1:32 1:64
1:128 1:256 合计
32 64
128 256 -
1.5051 1.8062
2.1072 2.4082 -
20 12
5 4 75
30.1020 21.6744
10.5360 9.6328 107.7676
107.7676 G lg ( ) 27.35 75
1
75名儿童进行流脑疫苗免疫接种后, 平均抗体滴度为1 : 27.35
几何均数的应用: 1.等比资料,如抗体平均滴度 2.对数正态分布资料 Remember!
使用几何均数时的注意点:
1) 观察值不能有0。
Be careful!
2) 观察值不能同时有正值和负值。若全 为负值,在计算时先把负号去掉,得出 结果再加上负号。
3.中位数和百分位数
中位数指将一组观察值从小到大按顺序排列,
54
72 92 110 127 140 149
33.8 (23.1~33.8)
45.0 (33.8~45.0) 57.5 (45.0~57.5) 68.8 (57.5~68.8) 79.4 (68.8~79.4) 87.5 (79.4~87.5) 93.1 (87.5~93.1) 100.0 (98.1~100)
累计频率(%)
1.9 (0~1.9) 7.5 (1.9~7.5) 15.0 (7.5~15.0) 23.1 (15.2~23.1)
0.9~
1.0~ 1.1~ 1.2~ 1.3~ 1.4~ 1.5~ 1.6~25 1.7~1.8 合计
正正正
正正正 正正正正 正正正 正正正 正正 正
17
18 20 18 17 13 9
离散趋势指标120名7岁男童身高的频数分布图3040人数12413214014815616401020身高cm239人发汞含量的频数分布70405060人数357911131517192110203001发汞含量?molkg某市892名老年人生存质量自评分频数分布200200300400人数数01020304050607080901001000自评分102名黑色素瘤患者的生存时间频数分布3040人数05101520253035404501020生存时间月某地某年10000例死亡者年龄分布30004000人数数01020304050607080010002000死亡年龄岁频数分布的类型频数分布的类型对称分布6frequencyvar5123456789024偏态分布正偏态负偏态长尾向左延伸长尾向右延伸frequencyvar512345678902468frequencyvar6123456789100510频数分布表的用途频数分布表的用途揭示资料的分布类型看出频数分布的两个重要特征集中趋势离散趋势便于发现某些特大或特小的可疑值便于进一步计算指标和统计分析处理集中趋势指标1
身高(cm)
239人发汞含量的频数分布
70 60
50
人 数
40
30
20
10
0 1 3 5 7 9 11 13 15 17 19 21
发汞含量(mol/kg)
某市892名老年人生存质量自评分频数分布
400
30 0
人 数
200
100
0 0 10 20 30 40 50 60 70 80 90 100
正正正
1.0~
1.1~ 1.2~ 1.3~ 1.5~ 1.6~ 1.7~1.8 合计
正正正
正正正正 正正正
18
20 18
72
92 110
45.0 (33.8~45.0)
57.5 (45.0~57.5) 68.8 (57.5~68.8)
中位数=1.1+0.1x[(160x50%-72)/20] 17 127 正正正 79.4 (68.8~79.4) 13 140 1.4~ 正正 87.5 (79.4~87.5) =1.14
位次居中的观察值,常用M表示。反映一批观察 值在位次上的平均水平。
百分位数是一个位置指标,以Px表示,一个Px将
总体或样本的全部观察值分为两部分。理论上有x %的观察值比它小,有(100-x)%的观察值比它大, 而P50就是中位数,因此,中位数也是一个特定的 百分位数。
中位数和百分位数的适用条件: 适合各种类型的资料。尤其适合于 ①偏态分布的资料; ②资料的一端或两端有不确定数值 (开口资料);
频数分布表
频数:当汇总大量的原始数据时, 把数据按类型分组,其中每个组的 数据个数,称为该组的频数。
频数表(频数分布):表示各组及 它们对应的组频数的表格称为频数 表或频数分布。
某市1997年12岁男童120人的身高(cm)
142.3 134.4 150.3 141.9 143.5 138.1 142.9 140.9 134.7 141.2 135.5 156.6 148.8 133.1 140.7 139.2 140.2 134.9 141.4 138.5 148.9 144.4 142.7 137.9 142.7 141.2 144.7 137.4 143.6 160.9 138.9 154 143.4 145.7 151.3 143.9 141.5 139.3 145.1 142.3 154.2 137.7 147.7 137.4 138.2 140.8 151.1 148.8 141.9 145.8 125.9 137.9 138.5 152.3 143.6 141.6 149.8 144 140.1 147.8 147.9 132.7 139.9 139.6 146.6 150 142.5 145.2 145.4 150.6 140.5 150.8 152.9 149.7 143.5 132.1 143.3 130.5 141.8 146.2 139.5 138.9 144.5 147.9 147.5 142.9 145.9 146.5 134.5 146.8 143.3 146.4 134.7 137.1 141.8 136.9 129.4 146.7 149 148.8 135.1 156.3 143.8 147.3 147.1 141.4 148.1 142.5 144 142.1
P =0.9+0.1x[(160x25%-37)/17]=0.92 8 157 正 98.1 (93.1~98.1)
3 160
P75=1.3+0.1x[(160x75%-110)/17]=1.36 160
中位数的应用:
中位数常用于描述偏态资料的集 中趋势,它和均数、几何均数不 同的是,不是由全部观察值的数 据综合得到,而只受居中变量波 动的影响。