医学统计学描述
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
将一组数据按从小到大的顺序排列为: x1(最小值), x2, …, xn(最大值)
分位数X*是介于x1(最小值)与xn(最大值)之间的 一个数值,它使得n个数据中的一部分观察值小于 或等于它,另一部分观察值大于或等于它。
x1
X*
xn
精选课件
13
如果将顺序排列的一组数据分为q个相等频数 的区间(即每个区间中有相同的数据个数),这 时共有q-1个分位点,则称这些分位点为q分位数。
精选课件
3
步骤:
求全距 R=max-min= 278.8-97.5=181.3
定组数 K 通常取8~15组为宜。本例取K=10.
求组距 I=R/K (注意取整)。 本例I=181.3/10=18.13≈20
制表
确定各组段的下限、统计各组段内的频 数、算出各组段的频率、累计频数、累计 频率,将所得数据填入表中。
1)全距: R=MAX-MIN 2)四分位数间距 :上下四分位数之差
Q=Q3-Q1
称为四分位数间距。
精选课件
22
3).方差
n 2
S2
1 n n1i1
(xi
X)2
n11in1
xi2
xi i1
n
4).标准差
S
1n n1i1 (xi
X)2
1
n
n1i1
xi2
n
xi
i1
n
2
5).变异系数
n
定义式: Gn xi i1
对 数 式 : Glg11ni n1lgxi
加 权 对 数 式 : Glg11 n flgx
精选课件
10
例2 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16, 1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几 何均数。
G 7 X 1 X 2 X n 7 1 3 6 3 2 6 2 6 4 1 4 5 2 1 8 6
120
100
下四分 中位数 上四分
80
位数Q1
Q2=M 位数Q3
百分位数:在分位数的定义中,令q=100,即q-1=99, 60即取99个分位点P1,P2,...,P99,使得n个数据中有 401%的数据小于或等于P1,则称P1为1%位数,......。 20一般地,称Px为x%位数
0
1 10 19 28 3P7x 46 55精选课6件4 73 82 91 100
加权式:
X
1 n
n
xi
i1
X1 n
ni1
fixMi
fi为各组段内的频数, xMi为各组的组中值。
例:由例1的数据:
精选课件
8
组段(mg/dl)
90~ 110~ 130~ 150~ 170~ 190~ 210~ 230~ 250~ 270~290 合计
频数(fi)
2 3 8 17 20 15 8 5 2 1 81
81名健康男子血清总胆固醇值的频数分布图
由图可见,该资料的频数分精布选课呈件 基本对称分布。
6
2)频数分布表的作用 描述数据分布特征:
数据的分布范围 集中位置 分布形态等 计算有关指标 发现奇异值。
精选课件
7
2.集中趋势 反映集中趋势和集中位置的指标,亦称平均
数。
1)算术均数 适用于分布比较对称的资料。 定义式:
或
Glg1
lgX
n
lg1lg16lg32lg32lg674lg64lg128lg512 lg11.806264
即7名慢性迁延性肝炎患者HBsAg滴度的几何均数
为164。
精选课件
11
例3 52例慢性肝炎患者的HBsAg滴度数据如下表。 试计算滴度的几何均数。
52例慢性肝炎患者的HBsAg滴度资料
108.06977
G lg 1
fn lgX lg 1 1 0 8 .5 0 2 6 9 7 7 1 1 9 .7 4 7 0 5
故知,52例慢性肝炎患者的HBsAg滴度的几何均数
约为1∶119.75。
精选课件
12
3)中位数 先介绍分位数的概念。 分位数:分位数是一个界值或者分割值,一种位 置指标。
精选课件
20
2.离散趋势:反映数据分布的离散程度 先看一个例子:现有甲乙两名射击运动员,其
训练成绩如下: 甲:5 8 9 10 4 乙:7 7 8 7 7
现需派出一人去参加比赛。已知总成绩达到36环即 可确保第二名。作为教练,你应该选谁去参赛?
精选课件
21
为了比较全面地把握资料的分布特征,不仅需 要了解数据的集中位置,而且需要了解数据的离散 程度。常用的描述离散趋势的统计指标包括极差、 四分位数间距、方差、标准差和变异系数。
n
8
S2n11i n1(xi X)2
811(162160)2(158160)2 (162160)245.142 S 45.1426.7188
精选课件
24
例7 抽样调查某地大二女生的身高和体重,得知 其身高均数为165cm,标准差为3cm;体重均数 为45kg,标准差为3kg。试比较该地大二女生身 高与体重的变异程度。
17
对于频数表资料,百分位数的计算公式如下:
i
Px Lfp (nx% fL)
式中:L是 Xp是总频数, ∑fL是该 组段以前的累计频数。
显然,中位数即为50%位数,下四分位数 即为25%位数,上四分位数即为75%位数。
精选课件
18
S
CV 100%
X
精选课件
23
例6 测得8名大一女生的身高(cm)分别为162、 158、157、149、155、170、167、162。试求其算术 均数、标准差。
X x 1 6 2 1 5 8 1 5 7 1 4 9 1 5 5 1 7 0 1 6 7 1 6 2 1 6 0 . 0 0 ( c m )
1
一、计量资料的统计描述 1.频数分布表
为了解数据的分布范围、集中位置、分布形 态等特征,需要编制频数表。
1)频数分布表的编制 例1:某医生收集了81例30-49岁健康男子血清中的 总胆固醇值(mg/dL)测定结果如下,试编制频数 分布表。
精选课件
2
81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果
1
2
3
...
q-1
常用的分位数有中位数(二分位数)、四分位数、 百分位数等。
中位数(二分位数):上述分位数的定义中,令q=2,
即取一个分位点X*,使得n个数据中有二分之一
的数据小于或等于X*,则称X*为中位数,记为
X*=M。
显然,这样定义的中位数可由下式算得:
精选课件
14
当 n为 奇 数 时 , Mxn1
20.99
30
24.69
50
18.52
65
9.88
73
6.17
78
2.47
80
1.23
81
100.00
累计频率 (%) 2.47 6.17 16.05 37.04 61.73 80.25 90.12 96.30 98.77 100.00
精选课件
5
利用频数分布表,还可绘制出相应的频数分 布直方图.频数分布图以横轴表示被观察现象,纵 轴表示频数或频率,以各矩形(宽度为组距)的 面积代表各组段的频数或频率。
统计描述
统计描述,作为医学统计学的重要组成部分之一, 是进行统计推断的基础。它是在收集、整理数据的基 础上,通过相应的统计量以及统计图和统计表来描述 资料某些牲的统计方法。
一般说来,进行统计描述应遵循这样的原则:根 据分析目的和资料类型选择恰当的统计量以及统计图 和统计表来描述资料的统计特征。
精选课件
188.5 214.3 97.5 175.7 129.3 188.0 160.9 225.7 199.2
174.6 168.9 166.3 176.7 220.7 252.9 183.6 177.9 160.8
117.9 159.2 251.4 181.1 164.0 153.4 246.4 196.6 155.4
169.0 188.6 241.2 205.5 133.6 178.8 139.4 131.6 171.0
155.7 225.7 137.9 129.2 157.5 188.1 204.8 191.7 109.7
199.1 196.7 226.3 185.0 206.2 163.8 166.9 184.0 245.6
先将数据由小到大排列为:
2、2、2、3、6、10、16、24、30 由于n=9为奇数,故有
Mx91 x5 6 2
精选课件
16
四分位数:在分位数的定义中,令q=4,即q-1=3, 即取三个分位点Q1、Q2、Q3,使得n个数据中有四分 之一的数据小于或等于Q1,则称Q1为下四分位数, Q3为上四分位数,而Q2即为中位数M。
抗体滴度 频数(f) 滴度倒数(X) logX
1:16
2
16 1.20412
1:32
7
32 1.50515
1:64
11
64 1.80618
1:128
13
128 2.10721
1:256
12
256 2.40824
1:512
7
512 2.70927
合计
52
f(logX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489
219.7 184.0 130.0 237.0 152.5 137.4 163.2 166.3 181.7
176.0 168.8 208.0 243.1 201.0 278.8 214.0 131.7 201.0
199.9 222.6 184.9 197.8 200.6 197.0 181.4 183.1 135.2
组中值(xMi)
100 120 140 160 180 200 220 240 260 280
fixMi
200 360 1120 2720 3600 3000 1760 1200 520 280 14760
1n
X ni1
fixM i 1精48 选71 课6件0182.22
9
2)几何均数 适用于变量值呈倍数关系的资料。
四分位数间距简单易求,对离群值的敏感度小于 全距,受样本含量影响较小。但使用的信息量仍然较 少。
方差使用了全部信息量,特别是利用了数据集中 位置的信息,优于全距和分位数间距。但方差作了一 个平方处理,夸大了各数据点与集中位置的离散程度。
精选课件
26
标准差是方差的平方根,它将方差夸大了的离散 程度 作了还原,且具有方差的全部优点,因此标准差 在实际应用中最为常用。
例5 某地130名健康成年男性血清肌红蛋白数据列于下表,试
求其P25、P75以及中位数。
某地130名健康成年男性血清肌红蛋白频数表
组段
频数 频率(%)
累计频数 累计频率(%)
0~
2
0.02
2
1.54
5~
3
0.02
5
3.85
10~
9
0.07
14
10.77
15~
12
0.09
26
20.00
20~
15
0.12
41
31.54
25~
27
0.21
68
52.31
30~
33
0.25
101
77.69
35~
18
0.14
119
91.54
40~
10
0.08
129
99.23
45~
1
0.01
130
100.00
合计
130
100.00精选课件
—
— 19
先寻找欲求的百分位数分别落在哪些组,由累
计频率列可见,P25位于“20~”这个组段,P75位于
“30~”组段,而中位数,即 位于“25~”组段。 将相应数据分别代入百分位数计算公式
P 25 2 0 1 5(1 53 20 % 52)6 2.1 27 P 75 3 03 5(1 33 70 % 56)8 3.4 47
M P 50 2 5 2 5(1 7 3 5% 0 0 4) 1 2.4 94
精选课件
4
81例健康男子血清总胆固醇值(mg/dl)的频数分布表
组段 (mg/dl)
90~ 110~ 130~ 150~ 170~ 190~ 210~ 230~ 250~ 270~290 合计
频数
2 3 8 17 20 15 8 5 2 1 81
频率(%) 累计频数
2.47
2
3.70
5
9.88
13
虽然已知身高和体重的标准差数值均为3, 但其单位不一致,导致直接不可比。故选择变异 系数。身高和体重的变异系数分别为
身高 C V s10 % 0310 % 0 1.8% 2
x
165
体重 C V s10 % 0310 % 06.6% 7
x
45
精选课件
25
几个离散指标的比较
全距简单易求,但所用的信息较少,对离群值较 敏感,与样本含量n有关, n越大,全距可能越大。
2
此时M为位置居中的 那个数
当 n为 偶 数 时 , M1 2xn 2+xn 2+1
此时M为位置居中的 两个数的平均值
中位数有以下特点:
对离群值不敏感。故当有离群值或数据分 布不对称时,可采用中位数来描述集中趋势。
当数据分布对称时,均数和中位数很接近。
精选课件
15
例4 某厂发生食物中毒,9名患者潜伏期(小时)分 别为:16、2、6、3、30、2、l0、2、24, 试求其 中位数。
分位数X*是介于x1(最小值)与xn(最大值)之间的 一个数值,它使得n个数据中的一部分观察值小于 或等于它,另一部分观察值大于或等于它。
x1
X*
xn
精选课件
13
如果将顺序排列的一组数据分为q个相等频数 的区间(即每个区间中有相同的数据个数),这 时共有q-1个分位点,则称这些分位点为q分位数。
精选课件
3
步骤:
求全距 R=max-min= 278.8-97.5=181.3
定组数 K 通常取8~15组为宜。本例取K=10.
求组距 I=R/K (注意取整)。 本例I=181.3/10=18.13≈20
制表
确定各组段的下限、统计各组段内的频 数、算出各组段的频率、累计频数、累计 频率,将所得数据填入表中。
1)全距: R=MAX-MIN 2)四分位数间距 :上下四分位数之差
Q=Q3-Q1
称为四分位数间距。
精选课件
22
3).方差
n 2
S2
1 n n1i1
(xi
X)2
n11in1
xi2
xi i1
n
4).标准差
S
1n n1i1 (xi
X)2
1
n
n1i1
xi2
n
xi
i1
n
2
5).变异系数
n
定义式: Gn xi i1
对 数 式 : Glg11ni n1lgxi
加 权 对 数 式 : Glg11 n flgx
精选课件
10
例2 7名慢性迁延性肝炎患者的HBsAg滴度资料为1:16, 1:32,1:32,1:64, 1:64,1:128,1:512。试计算其几 何均数。
G 7 X 1 X 2 X n 7 1 3 6 3 2 6 2 6 4 1 4 5 2 1 8 6
120
100
下四分 中位数 上四分
80
位数Q1
Q2=M 位数Q3
百分位数:在分位数的定义中,令q=100,即q-1=99, 60即取99个分位点P1,P2,...,P99,使得n个数据中有 401%的数据小于或等于P1,则称P1为1%位数,......。 20一般地,称Px为x%位数
0
1 10 19 28 3P7x 46 55精选课6件4 73 82 91 100
加权式:
X
1 n
n
xi
i1
X1 n
ni1
fixMi
fi为各组段内的频数, xMi为各组的组中值。
例:由例1的数据:
精选课件
8
组段(mg/dl)
90~ 110~ 130~ 150~ 170~ 190~ 210~ 230~ 250~ 270~290 合计
频数(fi)
2 3 8 17 20 15 8 5 2 1 81
81名健康男子血清总胆固醇值的频数分布图
由图可见,该资料的频数分精布选课呈件 基本对称分布。
6
2)频数分布表的作用 描述数据分布特征:
数据的分布范围 集中位置 分布形态等 计算有关指标 发现奇异值。
精选课件
7
2.集中趋势 反映集中趋势和集中位置的指标,亦称平均
数。
1)算术均数 适用于分布比较对称的资料。 定义式:
或
Glg1
lgX
n
lg1lg16lg32lg32lg674lg64lg128lg512 lg11.806264
即7名慢性迁延性肝炎患者HBsAg滴度的几何均数
为164。
精选课件
11
例3 52例慢性肝炎患者的HBsAg滴度数据如下表。 试计算滴度的几何均数。
52例慢性肝炎患者的HBsAg滴度资料
108.06977
G lg 1
fn lgX lg 1 1 0 8 .5 0 2 6 9 7 7 1 1 9 .7 4 7 0 5
故知,52例慢性肝炎患者的HBsAg滴度的几何均数
约为1∶119.75。
精选课件
12
3)中位数 先介绍分位数的概念。 分位数:分位数是一个界值或者分割值,一种位 置指标。
精选课件
20
2.离散趋势:反映数据分布的离散程度 先看一个例子:现有甲乙两名射击运动员,其
训练成绩如下: 甲:5 8 9 10 4 乙:7 7 8 7 7
现需派出一人去参加比赛。已知总成绩达到36环即 可确保第二名。作为教练,你应该选谁去参赛?
精选课件
21
为了比较全面地把握资料的分布特征,不仅需 要了解数据的集中位置,而且需要了解数据的离散 程度。常用的描述离散趋势的统计指标包括极差、 四分位数间距、方差、标准差和变异系数。
n
8
S2n11i n1(xi X)2
811(162160)2(158160)2 (162160)245.142 S 45.1426.7188
精选课件
24
例7 抽样调查某地大二女生的身高和体重,得知 其身高均数为165cm,标准差为3cm;体重均数 为45kg,标准差为3kg。试比较该地大二女生身 高与体重的变异程度。
17
对于频数表资料,百分位数的计算公式如下:
i
Px Lfp (nx% fL)
式中:L是 Xp是总频数, ∑fL是该 组段以前的累计频数。
显然,中位数即为50%位数,下四分位数 即为25%位数,上四分位数即为75%位数。
精选课件
18
S
CV 100%
X
精选课件
23
例6 测得8名大一女生的身高(cm)分别为162、 158、157、149、155、170、167、162。试求其算术 均数、标准差。
X x 1 6 2 1 5 8 1 5 7 1 4 9 1 5 5 1 7 0 1 6 7 1 6 2 1 6 0 . 0 0 ( c m )
1
一、计量资料的统计描述 1.频数分布表
为了解数据的分布范围、集中位置、分布形 态等特征,需要编制频数表。
1)频数分布表的编制 例1:某医生收集了81例30-49岁健康男子血清中的 总胆固醇值(mg/dL)测定结果如下,试编制频数 分布表。
精选课件
2
81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果
1
2
3
...
q-1
常用的分位数有中位数(二分位数)、四分位数、 百分位数等。
中位数(二分位数):上述分位数的定义中,令q=2,
即取一个分位点X*,使得n个数据中有二分之一
的数据小于或等于X*,则称X*为中位数,记为
X*=M。
显然,这样定义的中位数可由下式算得:
精选课件
14
当 n为 奇 数 时 , Mxn1
20.99
30
24.69
50
18.52
65
9.88
73
6.17
78
2.47
80
1.23
81
100.00
累计频率 (%) 2.47 6.17 16.05 37.04 61.73 80.25 90.12 96.30 98.77 100.00
精选课件
5
利用频数分布表,还可绘制出相应的频数分 布直方图.频数分布图以横轴表示被观察现象,纵 轴表示频数或频率,以各矩形(宽度为组距)的 面积代表各组段的频数或频率。
统计描述
统计描述,作为医学统计学的重要组成部分之一, 是进行统计推断的基础。它是在收集、整理数据的基 础上,通过相应的统计量以及统计图和统计表来描述 资料某些牲的统计方法。
一般说来,进行统计描述应遵循这样的原则:根 据分析目的和资料类型选择恰当的统计量以及统计图 和统计表来描述资料的统计特征。
精选课件
188.5 214.3 97.5 175.7 129.3 188.0 160.9 225.7 199.2
174.6 168.9 166.3 176.7 220.7 252.9 183.6 177.9 160.8
117.9 159.2 251.4 181.1 164.0 153.4 246.4 196.6 155.4
169.0 188.6 241.2 205.5 133.6 178.8 139.4 131.6 171.0
155.7 225.7 137.9 129.2 157.5 188.1 204.8 191.7 109.7
199.1 196.7 226.3 185.0 206.2 163.8 166.9 184.0 245.6
先将数据由小到大排列为:
2、2、2、3、6、10、16、24、30 由于n=9为奇数,故有
Mx91 x5 6 2
精选课件
16
四分位数:在分位数的定义中,令q=4,即q-1=3, 即取三个分位点Q1、Q2、Q3,使得n个数据中有四分 之一的数据小于或等于Q1,则称Q1为下四分位数, Q3为上四分位数,而Q2即为中位数M。
抗体滴度 频数(f) 滴度倒数(X) logX
1:16
2
16 1.20412
1:32
7
32 1.50515
1:64
11
64 1.80618
1:128
13
128 2.10721
1:256
12
256 2.40824
1:512
7
512 2.70927
合计
52
f(logX) 2.40824 10.53605 19.86798 27.39373 28.89888 18.96489
219.7 184.0 130.0 237.0 152.5 137.4 163.2 166.3 181.7
176.0 168.8 208.0 243.1 201.0 278.8 214.0 131.7 201.0
199.9 222.6 184.9 197.8 200.6 197.0 181.4 183.1 135.2
组中值(xMi)
100 120 140 160 180 200 220 240 260 280
fixMi
200 360 1120 2720 3600 3000 1760 1200 520 280 14760
1n
X ni1
fixM i 1精48 选71 课6件0182.22
9
2)几何均数 适用于变量值呈倍数关系的资料。
四分位数间距简单易求,对离群值的敏感度小于 全距,受样本含量影响较小。但使用的信息量仍然较 少。
方差使用了全部信息量,特别是利用了数据集中 位置的信息,优于全距和分位数间距。但方差作了一 个平方处理,夸大了各数据点与集中位置的离散程度。
精选课件
26
标准差是方差的平方根,它将方差夸大了的离散 程度 作了还原,且具有方差的全部优点,因此标准差 在实际应用中最为常用。
例5 某地130名健康成年男性血清肌红蛋白数据列于下表,试
求其P25、P75以及中位数。
某地130名健康成年男性血清肌红蛋白频数表
组段
频数 频率(%)
累计频数 累计频率(%)
0~
2
0.02
2
1.54
5~
3
0.02
5
3.85
10~
9
0.07
14
10.77
15~
12
0.09
26
20.00
20~
15
0.12
41
31.54
25~
27
0.21
68
52.31
30~
33
0.25
101
77.69
35~
18
0.14
119
91.54
40~
10
0.08
129
99.23
45~
1
0.01
130
100.00
合计
130
100.00精选课件
—
— 19
先寻找欲求的百分位数分别落在哪些组,由累
计频率列可见,P25位于“20~”这个组段,P75位于
“30~”组段,而中位数,即 位于“25~”组段。 将相应数据分别代入百分位数计算公式
P 25 2 0 1 5(1 53 20 % 52)6 2.1 27 P 75 3 03 5(1 33 70 % 56)8 3.4 47
M P 50 2 5 2 5(1 7 3 5% 0 0 4) 1 2.4 94
精选课件
4
81例健康男子血清总胆固醇值(mg/dl)的频数分布表
组段 (mg/dl)
90~ 110~ 130~ 150~ 170~ 190~ 210~ 230~ 250~ 270~290 合计
频数
2 3 8 17 20 15 8 5 2 1 81
频率(%) 累计频数
2.47
2
3.70
5
9.88
13
虽然已知身高和体重的标准差数值均为3, 但其单位不一致,导致直接不可比。故选择变异 系数。身高和体重的变异系数分别为
身高 C V s10 % 0310 % 0 1.8% 2
x
165
体重 C V s10 % 0310 % 06.6% 7
x
45
精选课件
25
几个离散指标的比较
全距简单易求,但所用的信息较少,对离群值较 敏感,与样本含量n有关, n越大,全距可能越大。
2
此时M为位置居中的 那个数
当 n为 偶 数 时 , M1 2xn 2+xn 2+1
此时M为位置居中的 两个数的平均值
中位数有以下特点:
对离群值不敏感。故当有离群值或数据分 布不对称时,可采用中位数来描述集中趋势。
当数据分布对称时,均数和中位数很接近。
精选课件
15
例4 某厂发生食物中毒,9名患者潜伏期(小时)分 别为:16、2、6、3、30、2、l0、2、24, 试求其 中位数。