医学统计学2
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i (n • x % − px = L + fx
∑
fL )
33
应用注意事项
1.对于偏态分布资料, 1.对于偏态分布资料,中位数不受两端特大值和 对于偏态分布资料 特小值的影响,只和位置居中的观察值有关。 特小值的影响,只和位置居中的观察值有关。 而均数受特大值和特小值的影响, 而均数受特大值和特小值的影响,会偏大或者 偏小,所以对于偏态分布的资料, 偏小,所以对于偏态分布的资料,均数的代表 性差,不适合描述偏态分布的集中趋势。 性差,不适合描述偏态分布的集中趋势。 2.中位数适合于任何分布类型的资料, 2.中位数适合于任何分布类型的资料,对于正 中位数适合于任何分布类型的资料 态分布,理论上中位数等于均数。 态分布,理论上中位数等于均数。 百分位数可用于任何频数分布的资料, 3. 百分位数可用于任何频数分布的资料,但靠 近两端的百分位数只有在大样本时才比较稳定。 近两端的百分位数只有在大样本时才比较稳定。
X = 669 .8 140 = 4 .78
18
均数的应用
适用条件:正态分布或者近似正态分布 总体均数:µ;样本均数:
19
二、几何均数
适用条件: 对数正态分布资料。 数据特点: 数值按大小顺序排列后,各观察值呈倍 数关系或近似倍数关系; 例如:抗体的滴度、药物的效价等
20
计算方法:
直接法:
G=n xx2Lxn 1
数值变量的统计描述——之一 数值变量的统计描述——之一 ——
平均水平(集中趋势 集中趋势) 第二章 平均水平 集中趋势 的统计描述
概要
频数分布(distribution of frequency) 第一节 频数分布
频数表( 频数表(frequency table) ) 直方图( 直方图(histogram) )
= (14 + 15 ) / 2 = 14 . 5
30
例2-7:
对某地630名50-60岁的正常女性检查了 血清甘油三脂含量,资料如下表,试计 算其中位数。
31
表2-4 某地630名正常女性血清甘油三脂含量的频数表
甘油三脂(mg/dl) (1) 10~ M所在组 40~ 70 ~ 100 ~ 130 ~ 160 ~ 190 ~ 220 ~ 250 ~ 280 ~ 310 ~ 合计 频数 (2) 27 累积频数 (3) 27 196 363 457 538 580 608 622 626 629 630 相对频数(%) (4) 4.3 26.8 26.5 14.9 12.9 6.7 4.4 2.2 0.6 0.5 0.2 100.00 累积相对频数(%) (5) 4.3 31.1 57.6 72.5 85.4 92.1 96.5 98.7 99.4 99.8 100.00 包含50%
定义:同时列出观察指标(变量) 定义:同时列出观察指标(变量)的可 观察指标 能取值区间及其在各区间出现的频数的 取值区间及其在各区间出现的频数的 及其在各区间出现的频数 一种统计表。 一种统计表。 制作方法: 制作方法:先根据观察值的大小进行分 组,然后计算每组中观察值出现的次数
5
表2-1 某地140名成年男性红细胞数(次/分)
X = (81+ 70+ 66+L+ 77+ 69) 13 =932 13 = 71.69
14
直接法: (式2-1) 直接法: 式
X1 + X2 +L+ Xn ΣX X= = n n
15
例2-2:
求表2-1中140名正常男子红细胞数的均数。
16
加权法:(式2-2)
Hale Waihona Puke Baidu
f1X1 + fX 2+ fX3 +L+ fk Xk ΣfXi X= = f1 + f2 + f3 +L+ fk Σfi
适用条件:适合各种类型的资料。 适用条件:适合各种类型的资料。尤其适合于 ①大样本偏态分布的资料;②资料有不确定数 大样本偏态分布的资料; 资料分布不明等。 值;③资料分布不明等。
26
中位数计算方法:
直接法:
27
频数表法: 频数表法:
M = 该组段的下限 + 组距 (总样本例数 • 50 % − 小于 L的各组段累计频数 该组段的频数
∑lgx) = lg (
−1
n
21
例2-3:
有8份血清的抗体效价分别为1:5,1:10, 1:20,1:40,1:80,1:160,1:320,1:640, 求平均抗体效价。
解:将各抗体效价的倒数代入上式,得
G = lg −1 [(lg 5 + lg10 + lg 20 + L + lg 640) / 8] = lg −1 (1.752575) = 56.57
编号 红细胞数 1 2 3 4 5 6 7 8 … 4.76 5.26 5.61 5.95 4.46 4.57 4.31 5.18 … 编号 红细胞数 … 61 62 63 64 65 66 67 … … 4.81 4.54 3.82 4.01 4.89 4.62 5.12 … 编号 … 133 134 135 136 137 138 139 140 红细胞数 … 4.71 5.21 4.94 4.68 5.17 4.91 5.02 4.76
3
第一节 频数分布
一、频数分布表(frequency distribution table) 频数分布表
常用来反映各变量取值及其相应频数之间的 关系。 关系。 研究资料的频数分布类型是选择合适的统计 指标进行统计描述的基础。 指标进行统计描述的基础。
4
频数表( 频数表(frequency table) )
8
2.频数表的分布特征 频数表的分布特征
①集中趋势(central tendency):变量值集中位置 集中趋势 变量值集中位置 本例在组段“ 。本例在组段“4.60~”。 ~ ——平均水平指标 平均水平指标 ②离散趋势(tendency of dispersion):变量值围 离散趋势 变量值围 绕集中位置的分布情况。 中心”位置越远, 绕集中位置的分布情况。离“中心”位置越远, 频数越小;且围绕“中心”左右对称。 频数越小;且围绕“中心”左右对称。 ——变异水平指标 变异水平指标
Σ为求和符号,读成sigma
17
表2-3 140名正常男子红细胞数的均数计算表
脉搏组段(i) 3. 80~ 4.00~ 4.20~ 4.40~ 4.60~ 4.80~ 5.00~ 5.20~ 5.40~ 5.60~ 5.80~6.00 合计 组中值(xi) 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 5.70 5.90 频数(fi) 2 6 11 25 32 27 17 13 4 2 1 140 fi xi 7.8 24.6 47.3 112.5 150.4 132.3 86.7 68.9 22 11.4 5.9 669.8
频数 相对频数(%) 累积频数 累积相对频数 (3) (4)=(3)/N (5)=(3)↓ (%)(6)=(5)/N
2 6 11 25 32 27 17 13 4 2 1 140 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7 2 8 19 44 76 103 120 133 137 139 140 1.4 5.7 13.6 31.5 54.4 73.7 85.8 95.1 98.0 99.4 100.00
算术均数 几何均数 中位数和百分位数
12
一、算数均数
直接法:当观察例数不多(如样本含量n 小于30)时,或观察例数虽然很多,但 有计算机及统计软件,均可选择。
(小样本)
加权法:适用于频数表资料。当观察例 数很多又缺乏计算机及统计软件时,若 用直接法很容易出错,可选择。
(大样本)
13
例2-1:
求81、70、66、75、71、63、77、74、 76、68、65、77、69的均数。
6
1.频数分布表的制作步骤
):即最大值与最小值之差 (1)求极差(range):即最大值与最小值之差,又称为全距。 ) 极差( ):即最大值与最小值之差,又称为全距。 本例极差: 本例极差: R=5.95-3.82=2.13(次/分) - ( 分 组数、 (2)决定组数、组段和组距:根据研究目的和样本含量 )决定组数 组段和组距:根据研究目的和样本含量n 确定。组距=极差 组数,通常分8-15个组,为方便计,组距 极差/组数 个组, 确定。组距 极差 组数,通常分 个组 为方便计, 参考极差的十分之一, 再略加调整。 参考极差的十分之一 再略加调整。 本例i= 本例 R /10=2.13/10=0.213≈0.20。 。 下限略小于最小值, (3)列出组段:第一组段的下限略小于最小值,最后一个 )列出组段:第一组段的下限略小于最小值 组段上限必须包含最大值 其它组段上限值忽略。 上限必须包含最大值, 组段上限必须包含最大值,其它组段上限值忽略。 (4)列表划记:用划记法将所有数据归纳到各组段,得到各 )列表划记:用划记法将所有数据归纳到各组段, 组段的频数。 组段的频数。
7
表2-2 某地140名正常男子红细胞数的频数表
组段(1)
3.80 ~ 4.00 ~ 4.20 ~ 4.40 ~ 4.60 ~ 4.80 ~ 5.00 ~ 5.20 ~ 5.40 ~ 5.60 ~ 5.80 ~ 6.00 合计 丅 一
划记 (2)
丅 正一 正正一 正正正正正 正正正正正正丅 正正正正正丅 正正正丅 正正下
fm=167
∑fL=196
169 167 94 81 42 28 14 4 3 1 630
L=70
M = 70 +
30 (630 × 50% − 196) = 91.4(mg / dl ) 167
32
(二)百分位数
——是把一组数据从小到大排列,分割成100等 是把一组数据从小到大排列,分割成 等 是把一组数据从小到大排列 的观察值, 份,每等份含1%的观察值,分割界限上的值 每等份含 的观察值 就是百分位数。用符号 P x 表示。 表示。 就是百分位数。
9
二、直方图
10
三、频数分布表的用途
分布类型:
正态分布(normal distribution) 正偏态分布:数值偏小的为多数;
如研究有害化学物质在人体内的分布
负偏态分布:数值偏大者为多数;
如研究高血压患者的年龄分布
发现特异值 估计概率
11
集中趋势——平均数 第二节 集中趋势 平均数
平均数——描述一组观察值集中位 描述一组观察值集中位 平均数 置或平均水平的统计指标。 置或平均水平的统计指标。
−1
所以,50人的血清平均抗体效价为1:41.70。 24
注意: 注意:
几何均数的观察值不能小于或等于0。 同一组数据若服从正态分布,几何均数 小于均数。
25
三、中位数和百分位数
(一)中位数:是将一批数据从小至大排列 中位数: 后位次居中的数据值, 后位次居中的数据值,符号为M,反映一 批观察值在位次上的平均水平。 批观察值在位次上的平均水平。
= 15
29
例2-6:
有8名中学生甲型肝炎的潜伏期(天): 12,13,14,14,15,15,15,17,试 求中位数。 解:(1)对数值从小到大排序; (2)n=8为偶数;
(3 ) M = ( x
n 2
+ x
n +1 2
) / 2
= ( x4 + x5 ) / 2
平均数( 第二节 平均数(average) )
算数均数( 算数均数(arithmetic mean) ) 几何均数( 几何均数(geometric mean) ) 中位数( 中位数(median)和百分位数(percentile) )和百分位数( ) 2
集中趋势 计量资料 统计描述 计数资料 统计分析 区间估计 统计推断 假设检验 离散趋势
所以,血清的抗体平均效价为1:56.57。
22
加权法:
G =
lg
−1
∑ (
f lg x
∑
f
)
23
例2-4:
有50人的血清抗体效价,分别为:5人 1:10,9人1:20,20人1:40,10人1:80,6 人1:160,求平均抗体效价。
解:将抗体效价的倒数直接代入上式,得:
5lg10+ 9 lg 20+ 20lg 40+10lg80+ 6 lg160 −1 ) G = lg = lg (1.62012 = 41.70 5 + 9 + 20+10+ 6
)
i (n • 50 % − ∑ f L ) M = L+ fm
28
例2-5:
有9名中学生甲型肝炎的潜伏期(天): 12,13,14,14,15,15,15,17,19, 试求中位数。 解:(1)对数值从小到大排序; (2)n=9为奇数;
(3 ) M = x
= x5
n +1 2