临床试验相关统计知识教材 第二讲.ppt
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
G n X1X2 Xn
上式计算时需作连乘,还要开n次方,比较麻烦,一 般采用对数形式计算。
lg
G
lg x1
x2
x3
xn
1 n
1 n
lg
x1
lg
x2
lg
x3
lg
xn
1 lg x
n
G lg 1 lg x n
14
4~
22
8~
29
12~
18
16~
15
20~
6
24~
1
28~
2
累计频数ΣfL 14 36 65 83 98 104 105 107
累计频率(%) 13.1 33.6 60.7 77.6 91.6 97.1 98.1
100.0
结果:
百分位数
百分位数是一种位置指标,用PX表示。
百分位数是一个有序数列百等分的分割值。第50 百分位数(P50)也就是中位数,中位数是一个特 定的百分位数。
第十四章
数值变量 的统计描述
要求:
掌握★★★★
– 1.描述数值变量资料集中趋势常用指标(均数、 几何均数、中位数)的计算及适用条件。
– 2.描述数值变量资料离散趋势常用指标(极差、 四分位间距、方差、标准差、变异系数)的计算及 适用条件。
– 3.参考值范围的估计
熟悉★★★ 1. 频数分布表的编制方法 2.正态分布的概念、特征
组中值 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 5.70 5.90
频数 2 6 11 25 32 27 17 13 4 2 1
频率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
直方图
35 频 数 30
第一节 频数分布(frequency distribution)
目的:了解数值变量的分布。
连续型数值变量资料频数分布
频数表(frequency table)的编制:
–求极差(range):R=Max-Min –确定组段数、组距和组段
组段数(k):通常10-15个。 组距(i):相邻两组段的最小值(下限)之差,
25
20
15
10
5
0 3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 红细胞计数(1012/L) 140名正常男子红细胞计数直方图
频数分布表的用途
陈述资料 观察分布类型 发现可疑值 估计概率(样本较大时)
频数分布的两个特征:35 30
频数分布的类型
25
20
– 对称分布
15
– 偏态分布
10
正偏态: 负偏态:
5
0 1 5 10 15 20 25 30 35 40 45 50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45 50
离散型数值变量资料频数分布
例:1998年某山区96名孕妇产前检查次 数资料如下: 0,3,2,0,5,6,3……4,7。
X X 125.5 126 ... 122.5 140 132.1
n
10
–加权法:当样本含量n较大时,一般将观察 值分组,列出频数表,再用加权法计算均数。 其计算公式为:
X f1X1 f2X2 ...... fmXm
fX
f1 f2 ...... fm
n2
n
例.对甲组和乙组数据的标准差
数据计算标准差
甲组:n=5,
ΣX=98+99+100+101+102 =500
50010 5002
S甲
5 1.58 51
ΣX2= 982+992+1002+1012+1022
M X n1 X3 6 天 2
若上例在第25天又发现一例患者,患者数
增加为6名
M
X
n 2
X
n 2
1
2
67 2
6.5
–频数表法:样本含量n较大时计算中位数可 用频数表法。将观察资料归纳成频数表,计 算累计频数,按下式计算。
例题:
三、方差与标准差
为克服全距的缺点,应全面考虑组内每 个观察值的离散情况。可考虑以总体中 每个变量值X与总体平均数之差,称为离 均差X-。由于离均差有正有负,其和为 0,这样仍不能反映变异度的大小。故将 离均差平方后再相加,称离均差平方和
(X )2
n
x x x x i 1
二、四分位间距
四分位间距是两个特定的百分位数之差, 用Q表示
Q=QU-QL 适用于任何分布的计量资料,尤其适用于
偏态分布的资料(不宜用标准差表示离散 度) 四分位间距比全距稳定,但仍然未考虑到 每个观察值的变异。
小样本四分位间距的计算
Q= QU -QL QU =(n+1)*3/4 QL =(n+1)*1/4
2.000 2.301 2.602 2.903 3.204
flgX (5)=(2)(4)
14.000 43.719 88.468 84.187 41.652 272.026
G
lg
1
f
lg f
X
lg
1
272.026 102
464
三、中位数
将一组观察值从小到大按顺序排列,位次 居中的观察值就称中位数。用M表示。
15.39
第三章 离散趋势
两组计量数据如下,分析其分布特征。
甲组:98,99,100,101,102
X1 100
乙组:80,90,100,110,120
X 2 100
丙组:80,98,100,102,120
X 3 100
三组数据的均数都是100,说明集中趋势相同。 但三组数据的分布特征不尽相同,5个数据间的 参差不齐的程度不一样。甲组数据的变化范围较 小,而乙、丙组数据的变化范围较大,乙、丙组 数据间隔不同,即三组的离散度不同;离散度是 一个非常重要的统计指标。
fX(4)=(2)(3) 248 896 1188 2856 3920 2448 1332 760 156 160
13964(∑fX)
表1-1中第3列为组中值X,计算方法是将本 组下限和下组下限相加除以2,如第一组 X1=(122+126)/2=124,余此类推。第4列fX 是频数f和组中值X的乘积。
G
lg
1
f lg X f
102名健康人的钩端螺旋体血清抗体平均滴度
抗体滴度 (1)
1︰100 1︰200 1︰400 1︰800 1︰1600 合计
人数f (2)
7 19 34 29 13 102
滴度倒数X (3)
100 200 400 800 1600
lgX ( 4)
S (X X)2 n1
上式n-1称为自由度。 样本标准差计算也可用直接法或加权法。n较小时,选择 直接法,n较大,选择加权法
直接法:由于
(X
X)2
ቤተ መጻሕፍቲ ባይዱ
X2
X2
n
标准差的计算公式可改写为:
S
X2
X2
n
n1
x x 2 x2 2xx x 2
一般用等距。 i=R /k,一般取整取偶数。 组段:界限分明,每个组段的起点称下限,终点
称上限。最末一行应同时写出下限和上限。
–列表划记:得到各组段的观察单位数。
某地140名正常男子红细胞数频数表
红细胞数 3.80~ 4.00 ~ 4.20 ~ 4.40 ~ 4.60 ~ 4.80 ~ 5.00 ~ 5.20 ~ 5.40 ~ 5.60 ~ 5.80~6.00
中位数适用于任何一种分布的计量数据, 一般多用于描述偏态分布或数据一端无界 资料的集中趋势。
计算方法
– 直接法:样本含量n较小时,可根据下式计算:
M X n1 2
M
X
n 2
X
n 2
1
2
n为奇数时
n为偶数时
某病患者5人潜伏期分别为2,4,6,7, 20,求中位数。本例n=5,为奇数
x2 2xx x 2 x2 2x x nx 2
x2 2x n x nx 2 n
x2 2nx x nx 2 x2 2nx 2 nx 2
x2
nx 2
x2
n
x
2
n
x2 n x2 x2 x2
M
L
i f
n 2
fL
L为本组(中位数所在组)下限,i为本组组距,f为本组 频数,ΣfL为上一组的累计频数。本组位置可根据累计 频数的数值来判断。当某一组的累计频数首先超过n/2 时或累计频率首先超过50%时,即定为本组。
107名正常人尿铅含量分布
尿铅(mg/l) 例数f
0~
X
fX f
13964 100
139.64
100名12岁男孩的身高均数为139.64cm。
二、几何均数
几何均数用G表示。适用于对数正态分布资料或 等比资料,例如抗体的平均滴度和平均效价。
计算方法:
–直接法:样本含量n较小时,选用此法。有n个观察值 X1, X2,……Xn,几何均数的计算公式为:
计算方法
–直接法:当样本含量n较小时,可选用此法。 设有n个观察值,分别为X1,X2 ……,Xn, 均数的计算公式为:
X X1 X 2 ...... X n X
n
n
例 1.10名12岁男孩身高(cm)分别为125.5,126.0, 127.0,128.5,147.0,131.0,132.0, 141.5.122.5,140.0。求平均数。
N
(X )2 N
实际工作中经常得到的是样本资料,总体均数是未 知的,只能用样本均数X代替。这样用 (X X)2 代
替 (X )2 ,用样本含量n代替N,所得的结果比σ
偏小。英国统计学家W.S.Gosset提出用n-1代替n, 求得样本标准差更接近总体标准差σ,样本标准差 用S表示,公式为:
计算公式:
PX
L
i fX
n x%
fL
对例1-6资料计算P25,P75。 求P25,由第4栏可见,第2组的累计频率超25%, 该组即P25所在组。
P25
4
4 22
107 25% 14
6.32
求P75,同理P75在第4 组段内
P75
12
4 18
107 75% 65
一、全距
亦称极差,用R表示,是一组观察值中最大值 与最小值之差,反映个体差异的范围。全距大, 说明变异度大;反之,说明变异度小。如例18中甲组全距为4,乙组全距为40,表明乙组变 异度大。 但全距除了最大值和最小值之外,不能反映组 内其它数据的变异度;易受个别数据的影响, 稳定性较差,抽样误差较大,而且还受n大小 的影响,平均起来,n越大,全距越大。
x nx n x nx
n nx nx 0
为了消除观察值的总个数 N的影响,将离均差平方 和 除以N,这就是总体方 差,用σ2表示。
方差的单位是原度量单位 (如kg)的平方,把总体方 差开 平方,这就是总体 标准差,度量单位与原始 观察值一致,即
2 (X )2
例.6份血清抗体滴度为:
1:2,1:4,1:8,1:8,1:16,1:32, 求平均数。
G
log
1 2
(
log
2
2
log
2
4
log
2
8
log 6
2
8
log
2
16
log
2
16
)
log
1 2
(1
2
3
6
3
4
5
)
log
1 2
3
8
几何平均滴度为1:8
– 加权法:
第二节 集中趋势
集中趋势指标用于描述一组同质计量 资料的集中趋势或反映一组观察值的平均 水平。常用的平均数有算术均数、几何均 数及中位数三种。
一、算术均数
算术均数简称平均数或均数:说明一组观察值 的集中位置或平均水平。
X表示变量X的样本均数,(希腊字母)表示总 体均数。
均数适用于对称分布资料,正态或近似正态分 布资料。
f
式中f为各组的频数,x为各组的组中值。
某地100名12岁男孩身高均数的计算(加权法)
身高组段(1)
122~
126 ~
130~
134~
138~
142~
146~
150~
154~
158~ 162
合
计
频数f(2) 2 7 9 21 28 17 9 5 1 1
100∑f)
组中值X(3) 124 128 132 136 140 144 148 152 156 160
上式计算时需作连乘,还要开n次方,比较麻烦,一 般采用对数形式计算。
lg
G
lg x1
x2
x3
xn
1 n
1 n
lg
x1
lg
x2
lg
x3
lg
xn
1 lg x
n
G lg 1 lg x n
14
4~
22
8~
29
12~
18
16~
15
20~
6
24~
1
28~
2
累计频数ΣfL 14 36 65 83 98 104 105 107
累计频率(%) 13.1 33.6 60.7 77.6 91.6 97.1 98.1
100.0
结果:
百分位数
百分位数是一种位置指标,用PX表示。
百分位数是一个有序数列百等分的分割值。第50 百分位数(P50)也就是中位数,中位数是一个特 定的百分位数。
第十四章
数值变量 的统计描述
要求:
掌握★★★★
– 1.描述数值变量资料集中趋势常用指标(均数、 几何均数、中位数)的计算及适用条件。
– 2.描述数值变量资料离散趋势常用指标(极差、 四分位间距、方差、标准差、变异系数)的计算及 适用条件。
– 3.参考值范围的估计
熟悉★★★ 1. 频数分布表的编制方法 2.正态分布的概念、特征
组中值 3.90 4.10 4.30 4.50 4.70 4.90 5.10 5.30 5.50 5.70 5.90
频数 2 6 11 25 32 27 17 13 4 2 1
频率(%) 1.4 4.3 7.9 17.9 22.9 19.3 12.1 9.3 2.9 1.4 0.7
直方图
35 频 数 30
第一节 频数分布(frequency distribution)
目的:了解数值变量的分布。
连续型数值变量资料频数分布
频数表(frequency table)的编制:
–求极差(range):R=Max-Min –确定组段数、组距和组段
组段数(k):通常10-15个。 组距(i):相邻两组段的最小值(下限)之差,
25
20
15
10
5
0 3.8 4 4.2 4.4 4.6 4.8 5 5.2 5.4 5.6 5.8 红细胞计数(1012/L) 140名正常男子红细胞计数直方图
频数分布表的用途
陈述资料 观察分布类型 发现可疑值 估计概率(样本较大时)
频数分布的两个特征:35 30
频数分布的类型
25
20
– 对称分布
15
– 偏态分布
10
正偏态: 负偏态:
5
0 1 5 10 15 20 25 30 35 40 45 50
40
30
20
10
0
0 5 10 15 20 25 30 35 40 45 50
离散型数值变量资料频数分布
例:1998年某山区96名孕妇产前检查次 数资料如下: 0,3,2,0,5,6,3……4,7。
X X 125.5 126 ... 122.5 140 132.1
n
10
–加权法:当样本含量n较大时,一般将观察 值分组,列出频数表,再用加权法计算均数。 其计算公式为:
X f1X1 f2X2 ...... fmXm
fX
f1 f2 ...... fm
n2
n
例.对甲组和乙组数据的标准差
数据计算标准差
甲组:n=5,
ΣX=98+99+100+101+102 =500
50010 5002
S甲
5 1.58 51
ΣX2= 982+992+1002+1012+1022
M X n1 X3 6 天 2
若上例在第25天又发现一例患者,患者数
增加为6名
M
X
n 2
X
n 2
1
2
67 2
6.5
–频数表法:样本含量n较大时计算中位数可 用频数表法。将观察资料归纳成频数表,计 算累计频数,按下式计算。
例题:
三、方差与标准差
为克服全距的缺点,应全面考虑组内每 个观察值的离散情况。可考虑以总体中 每个变量值X与总体平均数之差,称为离 均差X-。由于离均差有正有负,其和为 0,这样仍不能反映变异度的大小。故将 离均差平方后再相加,称离均差平方和
(X )2
n
x x x x i 1
二、四分位间距
四分位间距是两个特定的百分位数之差, 用Q表示
Q=QU-QL 适用于任何分布的计量资料,尤其适用于
偏态分布的资料(不宜用标准差表示离散 度) 四分位间距比全距稳定,但仍然未考虑到 每个观察值的变异。
小样本四分位间距的计算
Q= QU -QL QU =(n+1)*3/4 QL =(n+1)*1/4
2.000 2.301 2.602 2.903 3.204
flgX (5)=(2)(4)
14.000 43.719 88.468 84.187 41.652 272.026
G
lg
1
f
lg f
X
lg
1
272.026 102
464
三、中位数
将一组观察值从小到大按顺序排列,位次 居中的观察值就称中位数。用M表示。
15.39
第三章 离散趋势
两组计量数据如下,分析其分布特征。
甲组:98,99,100,101,102
X1 100
乙组:80,90,100,110,120
X 2 100
丙组:80,98,100,102,120
X 3 100
三组数据的均数都是100,说明集中趋势相同。 但三组数据的分布特征不尽相同,5个数据间的 参差不齐的程度不一样。甲组数据的变化范围较 小,而乙、丙组数据的变化范围较大,乙、丙组 数据间隔不同,即三组的离散度不同;离散度是 一个非常重要的统计指标。
fX(4)=(2)(3) 248 896 1188 2856 3920 2448 1332 760 156 160
13964(∑fX)
表1-1中第3列为组中值X,计算方法是将本 组下限和下组下限相加除以2,如第一组 X1=(122+126)/2=124,余此类推。第4列fX 是频数f和组中值X的乘积。
G
lg
1
f lg X f
102名健康人的钩端螺旋体血清抗体平均滴度
抗体滴度 (1)
1︰100 1︰200 1︰400 1︰800 1︰1600 合计
人数f (2)
7 19 34 29 13 102
滴度倒数X (3)
100 200 400 800 1600
lgX ( 4)
S (X X)2 n1
上式n-1称为自由度。 样本标准差计算也可用直接法或加权法。n较小时,选择 直接法,n较大,选择加权法
直接法:由于
(X
X)2
ቤተ መጻሕፍቲ ባይዱ
X2
X2
n
标准差的计算公式可改写为:
S
X2
X2
n
n1
x x 2 x2 2xx x 2
一般用等距。 i=R /k,一般取整取偶数。 组段:界限分明,每个组段的起点称下限,终点
称上限。最末一行应同时写出下限和上限。
–列表划记:得到各组段的观察单位数。
某地140名正常男子红细胞数频数表
红细胞数 3.80~ 4.00 ~ 4.20 ~ 4.40 ~ 4.60 ~ 4.80 ~ 5.00 ~ 5.20 ~ 5.40 ~ 5.60 ~ 5.80~6.00
中位数适用于任何一种分布的计量数据, 一般多用于描述偏态分布或数据一端无界 资料的集中趋势。
计算方法
– 直接法:样本含量n较小时,可根据下式计算:
M X n1 2
M
X
n 2
X
n 2
1
2
n为奇数时
n为偶数时
某病患者5人潜伏期分别为2,4,6,7, 20,求中位数。本例n=5,为奇数
x2 2xx x 2 x2 2x x nx 2
x2 2x n x nx 2 n
x2 2nx x nx 2 x2 2nx 2 nx 2
x2
nx 2
x2
n
x
2
n
x2 n x2 x2 x2
M
L
i f
n 2
fL
L为本组(中位数所在组)下限,i为本组组距,f为本组 频数,ΣfL为上一组的累计频数。本组位置可根据累计 频数的数值来判断。当某一组的累计频数首先超过n/2 时或累计频率首先超过50%时,即定为本组。
107名正常人尿铅含量分布
尿铅(mg/l) 例数f
0~
X
fX f
13964 100
139.64
100名12岁男孩的身高均数为139.64cm。
二、几何均数
几何均数用G表示。适用于对数正态分布资料或 等比资料,例如抗体的平均滴度和平均效价。
计算方法:
–直接法:样本含量n较小时,选用此法。有n个观察值 X1, X2,……Xn,几何均数的计算公式为:
计算方法
–直接法:当样本含量n较小时,可选用此法。 设有n个观察值,分别为X1,X2 ……,Xn, 均数的计算公式为:
X X1 X 2 ...... X n X
n
n
例 1.10名12岁男孩身高(cm)分别为125.5,126.0, 127.0,128.5,147.0,131.0,132.0, 141.5.122.5,140.0。求平均数。
N
(X )2 N
实际工作中经常得到的是样本资料,总体均数是未 知的,只能用样本均数X代替。这样用 (X X)2 代
替 (X )2 ,用样本含量n代替N,所得的结果比σ
偏小。英国统计学家W.S.Gosset提出用n-1代替n, 求得样本标准差更接近总体标准差σ,样本标准差 用S表示,公式为:
计算公式:
PX
L
i fX
n x%
fL
对例1-6资料计算P25,P75。 求P25,由第4栏可见,第2组的累计频率超25%, 该组即P25所在组。
P25
4
4 22
107 25% 14
6.32
求P75,同理P75在第4 组段内
P75
12
4 18
107 75% 65
一、全距
亦称极差,用R表示,是一组观察值中最大值 与最小值之差,反映个体差异的范围。全距大, 说明变异度大;反之,说明变异度小。如例18中甲组全距为4,乙组全距为40,表明乙组变 异度大。 但全距除了最大值和最小值之外,不能反映组 内其它数据的变异度;易受个别数据的影响, 稳定性较差,抽样误差较大,而且还受n大小 的影响,平均起来,n越大,全距越大。
x nx n x nx
n nx nx 0
为了消除观察值的总个数 N的影响,将离均差平方 和 除以N,这就是总体方 差,用σ2表示。
方差的单位是原度量单位 (如kg)的平方,把总体方 差开 平方,这就是总体 标准差,度量单位与原始 观察值一致,即
2 (X )2
例.6份血清抗体滴度为:
1:2,1:4,1:8,1:8,1:16,1:32, 求平均数。
G
log
1 2
(
log
2
2
log
2
4
log
2
8
log 6
2
8
log
2
16
log
2
16
)
log
1 2
(1
2
3
6
3
4
5
)
log
1 2
3
8
几何平均滴度为1:8
– 加权法:
第二节 集中趋势
集中趋势指标用于描述一组同质计量 资料的集中趋势或反映一组观察值的平均 水平。常用的平均数有算术均数、几何均 数及中位数三种。
一、算术均数
算术均数简称平均数或均数:说明一组观察值 的集中位置或平均水平。
X表示变量X的样本均数,(希腊字母)表示总 体均数。
均数适用于对称分布资料,正态或近似正态分 布资料。
f
式中f为各组的频数,x为各组的组中值。
某地100名12岁男孩身高均数的计算(加权法)
身高组段(1)
122~
126 ~
130~
134~
138~
142~
146~
150~
154~
158~ 162
合
计
频数f(2) 2 7 9 21 28 17 9 5 1 1
100∑f)
组中值X(3) 124 128 132 136 140 144 148 152 156 160