第2章集中趋势的统计描述
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二、几何均数
几何均数( geometric mean), 样本几何 均数用G表示,总体几何均数用 G表示。
(一)适用范围
几何均数适用于等比级数资料、各观察值 间呈近似倍数关系的资料或对数正态分布 资料。 多用于血清学、微生物学、免疫学中 如抗体的效价等。
(二)计算方法
1. 直接法
1
G n X1 X 2 X n
某地100名20周岁应征男青年的身高频数分布
正偏态分布
238名正常人发汞值(μg/g) 的中位数和百分位数的频数表计算
发 汞 值 (1) 0.3~ 0.7~ 1.1~ 1.5~ 1.9~ 2.3~ 2.7~ 3.1~ 3.5~ 3.9~4.3 频 数 (2) 20 66 60 48 18 16 6 1 0 3 累计频数 (3) 20 86 146 194 212 228 234 235 235 238 累计频率(%) (4)=(3)/238 8.4 36.1 61.3 81.5 89.1 95.8 98.3 98.7 98.7 100.0
年龄组 0~ 10~ 20~ 30~ 40~ 50~ 60~ 70~
恶性肿瘤死亡率(1/10万) 0.5 12 15 76 189 234 386 286
500
400
300
200
100 Std. Dev = 13.35 Mean = 54.4 0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 N = 1198.50
n 0.5 f L M L( )im fm
计算例2.4中百分位数P25、P75、P90的位置
630 0.25 27 P25 0.40 ( ) 0.30 0.632 (mmol / L) 169 630 0.75 457 P75 1.30 ( ) 0.30 1.357 (mmol / L) 81
数据,如果是计量资料并且观察的例数较 多,为了能够显示数据的分布规律,可以 对数据进行分组,然后制作频数表或绘制 直方图。
第一节 频数分布
一、频数表(Frequency Table)
编制频数分布表步骤:
1. 确定组数: (k)8~15之间 样本含量较大时,组段数多一些,反之, 可少一点。以能够反映出资料的分布规 律为准。
(3)中位数与均数
1)对同一资料同时计算M与 x ,若资料为 对称分布,则 M= x ;若资料为单峰正 偏态,则 M> x ;若资料为单峰负偏态, 则M< x 。
2)M只受位次居中的观察值的影响,对两 端极大或极小值均不敏感,在这一点上 中位数优于均数。
3)中位数不便作统计运算,用途不如平均 数广泛。
VAR00001
C ases weighted by VA R00002
第二节
平均数
• 平均数(average)是描述一组观察 值集中趋势或平均水平的统计指标。 • 算术均数、几何均数、中位数是医 学统计学中应用最广泛、最重要的 指标体系。
一、算术均数
算术均数(arithmetic mean),简称均 数(mean)。样本均数(sample mean) 用X表示,总体均数(population mean) 用μ表示。 (一)适用范围 适用于对称分布、正态分布(近似正态 分布)的资料。
16 lg 20 57 lg 40 76 lg 80 25 lg 640 23 lg1280 G lg ( ) 139 326
1
接种2个月后测得血清IgG抗体滴度1:139。
(3)注意事项
1)计算几何均数时,观察值中不能有0,因 为0不能与其他任何数值呈倍数关系。 2 )观察值中不能同时有正值和负值。若全 是负值,计算时可先将负号除去,得出结果 后再加上负号。 3 )同一资料而言,若同时计算 G 与 理论上可以证明G≤ 。
(一)中位数(median M)
1. 小样本资料 n为奇数时:中位数在(n+1)/2处 n为偶数时:中位数在[n/2+(n/2+1)]/2处 2. 大样本资料
n 0.5 f L M L( )im fm
例2.4 某地630名正常女性血清甘油三酯含量的频数表 甘油三酯(mmol/L) 频数 累积频数 累积频率 (1) (2) (3) (4) 0.10~ 27 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 630 - -
630 0.95 538 P90 1.60 ( ) 0.30 1.807 (mmol / L) 42
例2.4 某地630名正常女性血清甘油三酯含量的频数表 甘油三酯(mmol/L) 频数 累积频数 累积频率 (1) (2) (3) (4) 0.10~ 27 27 4.3 0.40~ 169 196 31.1 0.70~ 167 363 57.6 1.00~ 94 457 72.5 1.30~ 81 538 85.4 1.60~ 42 580 92.1 1.90~ 28 608 96.5 2.20~ 14 622 98.7 2.50~ 4 626 99.4 2.80~ 3 629 99.8 3.10~ 1 630 100.0 合计 630 - -
如何有效地组织、整理和表达数据的信息?
例2.1 :
1. 确定组数 10组 2. 求全距 R=5.95-3.82=2.13 3. 求组距 i=R/k = 2.13/10=0.213≈0.2 4. 确定组限 第一组下限定为3.8,最后一 组上限为6.0。 5. 绘制频数表,划记归组。
表 2- 2
某地140名正常男子红细胞数的频数表
2 3.90 6 4.10 11 4.30 ... 1 5.90 X 4.78(1012 / L) 140
(三)均数的应用
•易理解,结果稳定,应用广泛。 •适用于对称分布、正态分布(近似正态分 布)的资料。 •易受极大值或极小值的影响,不适合偏态 较大的资料。
第二章
集中趋势(平均水平) 的统计描述
学习目的和要求:
掌握: 频数分布表及其作用,描述数据分布集 中趋势的指标; 熟悉: 连续性变量的频数分布图。
•同时列出观察指标的 (Frequency Distribution) 可能取值区间及其在各 区间内出现的频数的表 格称为频数表。 • 由实验或临床观察等各种方式得到的原始
二、直方图(histogram)
3.8 4.0 4.2 4.4 4.6 4.8 5.0 5.2 5.4 5.6 5.8 6.0 红细胞数( 1012/L)
140名正常男子红细胞计数的直方图
三、频数分布表的用途
1.可以代替繁杂的原始数据,提供分组 数据,便于进一步计算与分析; 2.便于观察数据的分布特征; 3.便于发现资料中某些远离群体的特大 或特小可疑值。 4.当样本含量较大时,可用各组段的频 率作为概率的估计值。
70
60
50
40
30
20源自文库
10 0 0.00 .50 1.00 1.50 2.00 2.50 3.00 3.50 4.00
Std. Dev = .69 Mean = 1.17 N = 232.00
VAR00001
C ases weighted by VA R00002
负偏态分布
某地某年恶性肿瘤死亡率的年龄分布
lg X lg X 1 lg X 2 lg X n 1 G lg ( ) lg ( ) n n
例:测得10人血清滴度的倒数分别为2, 2,4, 4,8, 8, 8,8,32,32,求平均血清滴度。
lg 2 lg 4 lg 4 lg 8 lg 32 G lg ( )7 10
计算方法:
1. 直接法
x1 x2 xn x X n n
4.76 5.26 5.61 ... 5.02 4.76 X 4.77 (1012 / L) 140
2. 加权法
f1 x1 f 2 x2 f k xk fx X n n
N/2
180 150 120 90 60 30
0.7以前有196人,离中位 数还差(315-196=)119人。
0.7~1.0组含167人,组距为0.3,每 一个人分得0.30 / 167=0.0018 。 119×0.0018=0.214 ,等 于119人占有的组距。
0
0.1 0.4 0.7 1.0 1.3 1.6 1.9 2.2 2.5 2.8 3.1
频数 (4) 2 6 11 25 32 27 17 13 4 2 1 频率(%) (5) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
红细胞数 划记 组中值 1012 / L (1) (2) (3) 3.80~ T 3.90 4.00~ 正一 4.10 4.20~ 正正一 4.30 4.40~ 正正正正正 4.50 4.60~ 正正正正正正T 4.70 4.80~ 正正正正正 T 4.90 5.00~ 正正正T 5.10 5.20~ 正正 T 5.30 5.40~ 5.50 5.60~ T 5.70 5.80~6.00 一 5.90
编制频数分布表步骤:
2. 确定组距: 组距可以相等也可以不相等,根据资料 的特征而定,以能够反映出资料的分布 规律为准。 3.确定组限: 应符合专业习惯 4.对各组段计数:划记或由软件完成
例2.1 某地用随机抽样方法检查了140名成年男子的
红细胞数,检测结果如表所示:
4.76 4.92 4.70 5.24 4.63 5.26 4.27 4.81 4.97 …… 5.61 4.77 4.93 4.71 5.02 5.95 4.88 5.04 4.44 4.76 4.46 5.00 4.40 4.94 4.57 4.73 5.27 5.05 4.31 4.47 4.63 4.78 5.18 5.34 5.50 4.52
x
x
,则
三、中位数和百分位数
中位数(median),是将一组观察值按从小 到大的顺序排列,位次居中的数值。样本中 位数用M表示,总体中位数用 M 表示。
适用范围:
• 用中位数表示一组观察值的平均水平,不受 个别特大或特小数据的影响,因此适用于:
①呈明显偏态的资料;
②分布不清的资料;
③分布的一端或两端无确定数值的资料。
196 630/2=315
0.70+0.214=0.914 (中位数)
n 0.5 f L M L( )im fm
n 0.5 f L M L( )im fm 630 0.5 196 0.70 ( ) 0.30 0.914(m m ol/ L) 167
(二)百分位数(percentile) • 描述资料的观察值序列在某百分位 置的水平。 • 符号:Px,x 即百分位。 • 百分位数Px是指在一组数据中找到 这样一个值,全部观察值的x%小于 Px,其余(100-x)%大于Px。
n x% f L Px L ( )ix fm
例2.5
1
平均血清滴度为1:7。
2. 频数表法
f lg X f1 lg X 1 f 2 lg X 2 f n lg X n 1 G lg ( ) lg ( ) n n
1
例:
某医师使用胎盘浸液钩端螺旋体菌苗对326 名农民接种2个月后测得血清IgG抗体滴度 如表所示。
表2-3 胎盘浸液钩端螺旋体菌苗抗体滴度 抗体滴度倒数 例数 20 16 40 57 80 76 160 54 320 25 640 23 1280 75
频数分布的类型 :
•正态分布
•偏态分布
某地区130名正常成年男子红细胞数(1012/L)的频数分布
红细胞数 (1) 3.70~ 3.90~ 4.10~ 4.30~ 4.50~ 4.70~ 4.90~ 5.10~ 5.30~ 5.50~ 5.70~5.90 合 计 划 记 (2) || |||| 正|||| 正正正 | 正正正正 | | 正正正正正 正正正正 | 正正正 | | 正|||| |||| | — 频 数 (3) 2 4 9 16 22 25 21 17 9 4 1 130