分类变量的统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第十六章 分类变量的统计分析
统计分析 变量类型
数值变量
分类变量
1
分类变量的统计描述
常用相对数
应用相对数的注意事项
率的标准化法
2
绝对数与相对数的概念
绝对数(absolute number):
分类变量资料整理后所得到的原始数据, 通常不具有可比性。 相对数(relative number): 指两个有联系的指标之比,是分类变量 统计描述指标的统称。
29 29
r p' P P SMR ni Pi
当Pi代表死亡率时,r/(∑niPi)是被标化组的 实际死亡人数与预期死亡人数的比值,称为标准 化死亡比(standard mortality ratio , SMR) 。
30 30
WARNING
率的标准化应注意的问题
当各比较组内部构成不同,而且对总率有影响时,应
中
重 合计
350
150 800
18
15 45
40.0
33.3 100.0
5.1
10.0 5.6
9 9
某正常人的白细胞分类计数构成比
白细胞分类
中性粒细胞
分类计数
140
构成比(%)
70.0
淋巴细胞
单核细胞 嗜酸粒细胞 嗜碱粒细胞 合计
50
5 4 1 200
25.0
2.5 2.0 0.5 100.0
10 10
13
例2 某市乙型脑炎的发病率1990年为
4.48/10万,2000年为0.88/10万,则这两年相
对比为:
4.48 0.08 =5.09(倍) 或 100%=19.64% 0.88 4.48
14 14
例 3 某医院 2005年医护人员为 875 人,同年 平均开病床1436张,则该医院2005年病床数 与医护人员的相对比为:
②间接法
3.比较得出结论
23
23
①直接法
已知各科的真实治愈率。
Np p'
i i
N
Ni 或 p' pi N
24 24
甲、乙两医院的标准化治愈率(直接法Ⅰ)
科别 内科 外科 标准人口 Ni 2000 2000 原治愈率 Pi (%) 甲医院 65.0 94.0 乙医院 63.0 91.0 预期治愈人数 Ni Pi 甲医院 1300 1880 乙医院 1260 1820
305 1380 470 2155
r P甲 ′ P p' 87.5% P SMR ×1920/1845 = 87.5%×1.04 = 91% ni Pi r P乙 ′ P p' 87.5% P SMR ×2140/2155 = 87.5%×0.99 = 86.6% ni Pi
i i
N
523 4000 × 1000 ‰ = 21.11 80% ‰ 100% 5000 24767
26 26
甲、乙两医院的标准化治愈率(直接法Ⅱ)
标准人口 科别 构成比 Ni / N 内科 外科 传染病科 合计 0.4 0.4 0.2 1.0 原治愈率 Pi (%) 预期治愈率 Ni/N×Pi (%)
P(X)
P(X)
P(X)
X
a. n=5
X
b. n=10
X
c. n=30
π=30%的二项分布示意图
40 40
率的抽样分布特征
1. 为离散型分布;
2. 当π=0.5 时,呈对称分布;
3. 当 n 增大时,只要π不太接近0或1,二项分布 逐渐逼近正态分布。 一般认为,当nπ和n(1-π)≥5时, 可近似看作 正 态分布。
3 3
第一节 常用相对数
相对数
率
构成比
相对比
4
一、率(rate)
又称频率指标,说明某现象
概念
发生的频率或强度。
计算
发生某现象的观察单位数 率= K 可能发生该现象的观察单位总数
5 5
比例基数K的取法:
可取百分率(%) 、千分率(‰) 、万分率(1/万) 、
十万分率(1/10万) 等,主要根据习惯用法和使结果保
34
率的标准误的计算: 理论值:
p
(1 )
n p(1 p ) n
35 35
估计值:
Sp
例 欲了解某种新药对慢性乙型肝炎的疗效, 对100名患者进行治疗,其中90人有效,试计算其
标准误。
本例n=100 p = 90/100 = 0.9,标准误为:
Sp
p(1 p) 0.04(1 0.04) 0.03 0.008 n 500
甲医院
65.0 94.0 95.0 76.8
乙医院
63.0 91.0 92.0 85.6
甲医院
26.0 37.6 19.0 82.6
Ni N pi
乙医院
25.2 36.4 18.4 80.0
Ni N pi
27 27
②间接法
未知:各科真实治愈率 已知:医院总治愈人数和各科住院人数 各科标准治愈率和总的标准治愈率(文献获得) 甲、乙两医院的治愈率
统计推断
statistical inference
假设检验
hypothesis test
参数估计
parameter estimate
33
第四节
率的抽样误差和总体率的估计
一、率的抽样误差
由抽样造成的样本率与总体率之间的差异以及 在同一总体中抽取的各样本率间的差别。 反映率抽样误差大小的指标是率的标准误。
41 41
总体率可信区间估计的方法
1. 正态近似法 当n足够大(n>50),且np和n(1-p) ≥ 5 总体率95%可信区间: p 1.96S p 总体率99%可信区间: p 2.58S p
42 42
上例中某地治疗100名患者,90人有效,得出
有效率90%,试估计该新药有效率95%置信区间。
对率进行标准化,然后再比较。
选用的标准不同,计算出的标准化率也不同。标准化
率只反映各被标化组的相对水平,不代表其实际水平。
各年龄组的率出现明显交叉时,不宜用标准化法。
若是抽样研究,样本标化率的比较应作假设检验。
31 31
统计分析
统计描述
统计推断
32
32
用样本信息来推 断总体的特征, 称为统计推断。
36 36
二、总体率的可信区间估计
根据已知条件,总体率可信区间的估计有
2种方法:
正态近似法 查表法
37 37
二项分布
从某个二项分类总体中随机抽取含量一定的样本
,发生阳性结果的次数 x 的概率分布服从二项分
布 ( binomial distribution ) ,即样本中阳性数概
率等于二项式展开后各项。若总体阳性率为 π 、 样本含量为 n,阳性数为 X,则样本中出现 X个阳 性事件的概率可由下式求得。
43
43
2.查表法
如果n、p不满足上述条件(n≤50),可根据二
项分布的原理估计总体率的置信区间。
即根据样本含量n和阳性数X查表得到总体率 的置信区间。
留一、二位整数。
医学上常用的率:
发病率、患病率、死亡率、病死率、治愈率、
生存率等。
6 6
某年某市三个区的肠道传染病发病率 市区 甲 乙 丙 合计 人口数 98740 75135 118730 292605 发病人数 503 264 466 1233 发病率(‰) 5.09 3.51 3.92 4.21
甲、乙两医院的标准化治愈率(间接法)
标准 科别 治愈率 Pi (%) 内科 61.0 外科 92.0 传染病科 94.0 合计 87.5 住院人数 Ni 预期治愈人数 Ni Pi
甲医院
1500 500 500 2500
乙医院
500 1500 500 2500
甲医院
915 460 470 1845
乙医院
治愈率(%)
甲医院 65.0 乙医院 63.0
外科
传染病科 合计
500
500 2500
1500
500 2500
470
475 1920
1365
460 2140
94.0
95.0 76.8
91.0
92.0 85.6
22 22
标准化率的计算
1.选定标准
①选择有代表性、较稳定、数量较大的人群
,如全国、全省的历年累计数据;②也可将比较 组的人口合并;③任选其中一组作为标准。 2.计算标化率 ①直接法
1436张 相对比= =1.64张/人 875人
15 15
例4 变异系数(coefficient of variation , CV)
s CV 100% X
16 16
常用相对数求法举例
2005年某研究组对武汉市江汉区中学生的吸烟情况、
吸烟原因进行了调查。共调查1722人,男生839人中
172人吸烟;女生883人中17人吸烟,抽烟的主要原因 见表。试计算: (1)男女生吸烟率。 (2)男女生吸烟率之比。
科别 住院人数 甲医院 乙医院 治愈人数 甲医院 乙医院 治愈率(%) 甲医院 乙医院
内科
外科 传染病科
1500
500 500
500
1500 500
975
470 475
315
1365 460
65.0
94.0 95.0
63.0
91.0 92.0
合计
2500
2500
1920
2140
76.8
85.6
28 28
n! P( x) x (1 ) n x x!(n x)!
x 0, 1, 2,, n
38 38
已知:①π=0.3,n =5;②π=0.3,n =10;③π=0.3, n=15;④π=0.5,n=10。根据上述公式求各阳性数事件的 概率并作概率分布图。
率的抽样分布图
39 39
构成比的特点
各组成部分的构成比之和 为100%。
特
点
事物内部某一部分构成比发生 变化,其它部分的构成比也相 应地发生变化。
11 11
三、相对比(relative ratio)
又称对比指标,指两个相关指标数值
概念
大小的比值,说明两者的对比水平,
常以倍数或百分率(%)表示。
计算
甲指标 相对比= (或 100%) 乙指标
12 12
例1 我国2010年第六次人口普查总人数中,男性 为686852572人,女性为652872280人,试计算人 口男女性别比例。
男女性别比例 =
686852572 652872280
= 1.0520
结果说明,我国男性人数为女性人数的 1.052 倍, 或者表达成男 : 女为 105.20:100 。( 2000 年第五 次普查结果为 106.74:100)
(3)计算各种吸烟原因所占的百分构成比,并找出
前三位的吸烟原因。
17 17
2005年某地区中学男、女生吸烟率比较
性别
男 女 合计
人数
839 883 17Leabharlann Baidu2
吸烟人数
172 17 189
吸烟率(%)
20.50 1.93 10.98
男、女生吸烟率相对比=20.50/1.93=10.62
18 18
189名吸烟者的吸烟原因构成比 吸烟原因
20 20
第三节 率的标准化法
率的标准化的概念与基本思想:
为了消除相比较组间因内部构成不同对所比
较指标的影响,采用统一的标准构成对总率进行
调整,使算得的标准化率具有可比性,得出科学
的结论。
21 21
甲、乙两医院的治愈率
科别 内科
住院人数
甲医院 1500 乙医院 500
治愈人数
甲医院 975 乙医院 315
传染病科 1000
合计 5000
95.0
76.8
92.0
85.6
950
4130
920
4000
25 25
甲医院标准化后的治愈率:
Np p'
i i
N
813 4130 × 1000 ‰ ‰ =32.84 82.6% 100% 5000 24767
乙医院标准化后的治愈率:
Np p'
n=100,p = 0.9,np=90 > 5,n (1-p) =10 > 5
前已算得 S p 0.0088 0.03 ,则其95%CI为:
p 1.96S p
= 0.9 ±1.96 × 0.03 =( 0.8412 ,, 0.9588 ) 0.04 1.96 0.0088 (0.0228 0.0572 ) 即该新药有效率95%置信区间为84.12%~95.88%。
解除烦恼
人数
64
构成比(%)
33.86
位次
1
显示气派
帮助社交
45
43
23.81
22.75
2
3
帮助思考
显示富有 其它 合计
16
12 9 189
8.47
6.35 4.76 100.0
4
5 6 —
19 19
WARNING
第二节 应用相对数的注意事项
1.计算相对数时,分母不宜过小 2.正确区分构成比和率 3.比较相对数时,应注意资料的可比性:率的标准化 4.分母不同的率不能简单相加求平均率 5.样本率或构成比的比较应进行假设检验
7 7
二、构成比(proportion)
又称构成指标,表示事物内部某组成部分
概念
占其全部的比重或分布,常以百分率(%)
作为比例基数。
计算
构成比=
事物内部某一组成部分的观察单位数 100% 事物内部所有组成部分的观察单位总数
8 8
2000年某医院某病的住院人数和死亡人数
病情严重程度 住院人数 病死数 死亡构成(%) 轻 300 12 26.7 病死率(%) 4.0
统计分析 变量类型
数值变量
分类变量
1
分类变量的统计描述
常用相对数
应用相对数的注意事项
率的标准化法
2
绝对数与相对数的概念
绝对数(absolute number):
分类变量资料整理后所得到的原始数据, 通常不具有可比性。 相对数(relative number): 指两个有联系的指标之比,是分类变量 统计描述指标的统称。
29 29
r p' P P SMR ni Pi
当Pi代表死亡率时,r/(∑niPi)是被标化组的 实际死亡人数与预期死亡人数的比值,称为标准 化死亡比(standard mortality ratio , SMR) 。
30 30
WARNING
率的标准化应注意的问题
当各比较组内部构成不同,而且对总率有影响时,应
中
重 合计
350
150 800
18
15 45
40.0
33.3 100.0
5.1
10.0 5.6
9 9
某正常人的白细胞分类计数构成比
白细胞分类
中性粒细胞
分类计数
140
构成比(%)
70.0
淋巴细胞
单核细胞 嗜酸粒细胞 嗜碱粒细胞 合计
50
5 4 1 200
25.0
2.5 2.0 0.5 100.0
10 10
13
例2 某市乙型脑炎的发病率1990年为
4.48/10万,2000年为0.88/10万,则这两年相
对比为:
4.48 0.08 =5.09(倍) 或 100%=19.64% 0.88 4.48
14 14
例 3 某医院 2005年医护人员为 875 人,同年 平均开病床1436张,则该医院2005年病床数 与医护人员的相对比为:
②间接法
3.比较得出结论
23
23
①直接法
已知各科的真实治愈率。
Np p'
i i
N
Ni 或 p' pi N
24 24
甲、乙两医院的标准化治愈率(直接法Ⅰ)
科别 内科 外科 标准人口 Ni 2000 2000 原治愈率 Pi (%) 甲医院 65.0 94.0 乙医院 63.0 91.0 预期治愈人数 Ni Pi 甲医院 1300 1880 乙医院 1260 1820
305 1380 470 2155
r P甲 ′ P p' 87.5% P SMR ×1920/1845 = 87.5%×1.04 = 91% ni Pi r P乙 ′ P p' 87.5% P SMR ×2140/2155 = 87.5%×0.99 = 86.6% ni Pi
i i
N
523 4000 × 1000 ‰ = 21.11 80% ‰ 100% 5000 24767
26 26
甲、乙两医院的标准化治愈率(直接法Ⅱ)
标准人口 科别 构成比 Ni / N 内科 外科 传染病科 合计 0.4 0.4 0.2 1.0 原治愈率 Pi (%) 预期治愈率 Ni/N×Pi (%)
P(X)
P(X)
P(X)
X
a. n=5
X
b. n=10
X
c. n=30
π=30%的二项分布示意图
40 40
率的抽样分布特征
1. 为离散型分布;
2. 当π=0.5 时,呈对称分布;
3. 当 n 增大时,只要π不太接近0或1,二项分布 逐渐逼近正态分布。 一般认为,当nπ和n(1-π)≥5时, 可近似看作 正 态分布。
3 3
第一节 常用相对数
相对数
率
构成比
相对比
4
一、率(rate)
又称频率指标,说明某现象
概念
发生的频率或强度。
计算
发生某现象的观察单位数 率= K 可能发生该现象的观察单位总数
5 5
比例基数K的取法:
可取百分率(%) 、千分率(‰) 、万分率(1/万) 、
十万分率(1/10万) 等,主要根据习惯用法和使结果保
34
率的标准误的计算: 理论值:
p
(1 )
n p(1 p ) n
35 35
估计值:
Sp
例 欲了解某种新药对慢性乙型肝炎的疗效, 对100名患者进行治疗,其中90人有效,试计算其
标准误。
本例n=100 p = 90/100 = 0.9,标准误为:
Sp
p(1 p) 0.04(1 0.04) 0.03 0.008 n 500
甲医院
65.0 94.0 95.0 76.8
乙医院
63.0 91.0 92.0 85.6
甲医院
26.0 37.6 19.0 82.6
Ni N pi
乙医院
25.2 36.4 18.4 80.0
Ni N pi
27 27
②间接法
未知:各科真实治愈率 已知:医院总治愈人数和各科住院人数 各科标准治愈率和总的标准治愈率(文献获得) 甲、乙两医院的治愈率
统计推断
statistical inference
假设检验
hypothesis test
参数估计
parameter estimate
33
第四节
率的抽样误差和总体率的估计
一、率的抽样误差
由抽样造成的样本率与总体率之间的差异以及 在同一总体中抽取的各样本率间的差别。 反映率抽样误差大小的指标是率的标准误。
41 41
总体率可信区间估计的方法
1. 正态近似法 当n足够大(n>50),且np和n(1-p) ≥ 5 总体率95%可信区间: p 1.96S p 总体率99%可信区间: p 2.58S p
42 42
上例中某地治疗100名患者,90人有效,得出
有效率90%,试估计该新药有效率95%置信区间。
对率进行标准化,然后再比较。
选用的标准不同,计算出的标准化率也不同。标准化
率只反映各被标化组的相对水平,不代表其实际水平。
各年龄组的率出现明显交叉时,不宜用标准化法。
若是抽样研究,样本标化率的比较应作假设检验。
31 31
统计分析
统计描述
统计推断
32
32
用样本信息来推 断总体的特征, 称为统计推断。
36 36
二、总体率的可信区间估计
根据已知条件,总体率可信区间的估计有
2种方法:
正态近似法 查表法
37 37
二项分布
从某个二项分类总体中随机抽取含量一定的样本
,发生阳性结果的次数 x 的概率分布服从二项分
布 ( binomial distribution ) ,即样本中阳性数概
率等于二项式展开后各项。若总体阳性率为 π 、 样本含量为 n,阳性数为 X,则样本中出现 X个阳 性事件的概率可由下式求得。
43
43
2.查表法
如果n、p不满足上述条件(n≤50),可根据二
项分布的原理估计总体率的置信区间。
即根据样本含量n和阳性数X查表得到总体率 的置信区间。
留一、二位整数。
医学上常用的率:
发病率、患病率、死亡率、病死率、治愈率、
生存率等。
6 6
某年某市三个区的肠道传染病发病率 市区 甲 乙 丙 合计 人口数 98740 75135 118730 292605 发病人数 503 264 466 1233 发病率(‰) 5.09 3.51 3.92 4.21
甲、乙两医院的标准化治愈率(间接法)
标准 科别 治愈率 Pi (%) 内科 61.0 外科 92.0 传染病科 94.0 合计 87.5 住院人数 Ni 预期治愈人数 Ni Pi
甲医院
1500 500 500 2500
乙医院
500 1500 500 2500
甲医院
915 460 470 1845
乙医院
治愈率(%)
甲医院 65.0 乙医院 63.0
外科
传染病科 合计
500
500 2500
1500
500 2500
470
475 1920
1365
460 2140
94.0
95.0 76.8
91.0
92.0 85.6
22 22
标准化率的计算
1.选定标准
①选择有代表性、较稳定、数量较大的人群
,如全国、全省的历年累计数据;②也可将比较 组的人口合并;③任选其中一组作为标准。 2.计算标化率 ①直接法
1436张 相对比= =1.64张/人 875人
15 15
例4 变异系数(coefficient of variation , CV)
s CV 100% X
16 16
常用相对数求法举例
2005年某研究组对武汉市江汉区中学生的吸烟情况、
吸烟原因进行了调查。共调查1722人,男生839人中
172人吸烟;女生883人中17人吸烟,抽烟的主要原因 见表。试计算: (1)男女生吸烟率。 (2)男女生吸烟率之比。
科别 住院人数 甲医院 乙医院 治愈人数 甲医院 乙医院 治愈率(%) 甲医院 乙医院
内科
外科 传染病科
1500
500 500
500
1500 500
975
470 475
315
1365 460
65.0
94.0 95.0
63.0
91.0 92.0
合计
2500
2500
1920
2140
76.8
85.6
28 28
n! P( x) x (1 ) n x x!(n x)!
x 0, 1, 2,, n
38 38
已知:①π=0.3,n =5;②π=0.3,n =10;③π=0.3, n=15;④π=0.5,n=10。根据上述公式求各阳性数事件的 概率并作概率分布图。
率的抽样分布图
39 39
构成比的特点
各组成部分的构成比之和 为100%。
特
点
事物内部某一部分构成比发生 变化,其它部分的构成比也相 应地发生变化。
11 11
三、相对比(relative ratio)
又称对比指标,指两个相关指标数值
概念
大小的比值,说明两者的对比水平,
常以倍数或百分率(%)表示。
计算
甲指标 相对比= (或 100%) 乙指标
12 12
例1 我国2010年第六次人口普查总人数中,男性 为686852572人,女性为652872280人,试计算人 口男女性别比例。
男女性别比例 =
686852572 652872280
= 1.0520
结果说明,我国男性人数为女性人数的 1.052 倍, 或者表达成男 : 女为 105.20:100 。( 2000 年第五 次普查结果为 106.74:100)
(3)计算各种吸烟原因所占的百分构成比,并找出
前三位的吸烟原因。
17 17
2005年某地区中学男、女生吸烟率比较
性别
男 女 合计
人数
839 883 17Leabharlann Baidu2
吸烟人数
172 17 189
吸烟率(%)
20.50 1.93 10.98
男、女生吸烟率相对比=20.50/1.93=10.62
18 18
189名吸烟者的吸烟原因构成比 吸烟原因
20 20
第三节 率的标准化法
率的标准化的概念与基本思想:
为了消除相比较组间因内部构成不同对所比
较指标的影响,采用统一的标准构成对总率进行
调整,使算得的标准化率具有可比性,得出科学
的结论。
21 21
甲、乙两医院的治愈率
科别 内科
住院人数
甲医院 1500 乙医院 500
治愈人数
甲医院 975 乙医院 315
传染病科 1000
合计 5000
95.0
76.8
92.0
85.6
950
4130
920
4000
25 25
甲医院标准化后的治愈率:
Np p'
i i
N
813 4130 × 1000 ‰ ‰ =32.84 82.6% 100% 5000 24767
乙医院标准化后的治愈率:
Np p'
n=100,p = 0.9,np=90 > 5,n (1-p) =10 > 5
前已算得 S p 0.0088 0.03 ,则其95%CI为:
p 1.96S p
= 0.9 ±1.96 × 0.03 =( 0.8412 ,, 0.9588 ) 0.04 1.96 0.0088 (0.0228 0.0572 ) 即该新药有效率95%置信区间为84.12%~95.88%。
解除烦恼
人数
64
构成比(%)
33.86
位次
1
显示气派
帮助社交
45
43
23.81
22.75
2
3
帮助思考
显示富有 其它 合计
16
12 9 189
8.47
6.35 4.76 100.0
4
5 6 —
19 19
WARNING
第二节 应用相对数的注意事项
1.计算相对数时,分母不宜过小 2.正确区分构成比和率 3.比较相对数时,应注意资料的可比性:率的标准化 4.分母不同的率不能简单相加求平均率 5.样本率或构成比的比较应进行假设检验
7 7
二、构成比(proportion)
又称构成指标,表示事物内部某组成部分
概念
占其全部的比重或分布,常以百分率(%)
作为比例基数。
计算
构成比=
事物内部某一组成部分的观察单位数 100% 事物内部所有组成部分的观察单位总数
8 8
2000年某医院某病的住院人数和死亡人数
病情严重程度 住院人数 病死数 死亡构成(%) 轻 300 12 26.7 病死率(%) 4.0