第十章 分类变量资料的统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
校正公式:
2
A T 0.5
T
2
2
ad bc n / 2 n
2
(a c)(b d )(a b)(c d )
校正的目的:
英国统计学家(Yates)认为2分布是一种连续 性分布,而四格表中的资料属离散性分布,得到 的2统计量的抽样分布也是离散的.因此,为改 善2统计量分布的连续性,建议进行校正.
基本思想 检验实际频数与理论频数的吻合程度,实 际频数与理论频数越相近, X2 值越小; 反 之,实际数与理论数相差越大, X2值越大.
计算公式:
2
A T
T
2
理论频数的计算: TRC= nRnC / n df=(行数-1)(列数-1)
例10-8 某医生用A,B两种药物治疗急性下呼吸道 感染.A药治疗74例,有效68例;B药治疗63例, 有效52例.问两种药物的有效率是否有差别?
然而,三者之间谁和谁有差别,还不知道。 应该进一步进行两两比较 两两比较,可采用 X2分割
行列表资料2检验应注意事项
1. 行列表资料2检验公式的应用条件: 不能有1/5以上的格子的理论数<5, 或者,不能有1个格子的理论数<1
2. 如果资料不能满足上述条件,则可以通过 (1) 在可能的情况下再增加样本量; (2)专业上允许的情况下,合并相邻的行或列; (3) 删去理论数太小的行和列
2
有效率(%) 91.89 82.54 87.59
2
A T
T
二. Χ2 检验的基本步骤 1. 建立检验假设,确定检验水准 H0: 1= 2 H1: 1 2 =0.05
2. 计算Χ2 值 资料类型不同,计算公式不同 3. 确定 P 值, 判断结果 根据查Χ2 界值表, 确定P值
2 A 2 n 1 n Rn C
A —每个格子的实际频数 nR – A所对应的行合计 nC – A所对应的列合计
例10-12. 某研究者欲比较甲、乙、丙三家医院住院 患者院内感染情况,随机抽查同一时期 住院患者感染情况,结果如下:试比较 三家医院院内感染率有无差别。
1. 样本率与总体率的比较 (例10-6)
计算公式:
u p p
p
(1 )
n
2. 两个样本率的比较 (例10-7) 计算公式:
u
p1 p 2 1 1 pc(1 pc)( ) n1 n 2
X1 X 2 pc n1 n 2
第三节 X2 检验 (chi-square test)
小结
计数资料的统计描述
指标: 率、构成比、相对比 计数资料的统计推断
总体参数估计:P±uαSp 率的假设检验: 样本率与总体率的比较 -- u检验 两个大样本率的比较 -- u检验 两个样本率的比较 -- χ2检验 配对设计资料的两个率比较 -- χ2检验 多个样本率的比较 -- R×C表的χ2检验
第一节 统计描述
一.描述指标(相对数)
1. 率(rate) : R n K N 单位: %,‰,万分率,10万分率 2. 构成比 (constituent ratio) 单位: % 特点: 3. 相对比 (relative ratio) 常用率比
• 例10-1 某研究者2000年对某校的初中生进行了近视患病 情况调查,试计算各年级近视患病率和构成比及 三年级和一年级患病率的相对比.
例: 某病两种疗法治愈率的比较
病型 西医组 病例数 原治愈率 (%) 预期治愈数 60 40 20 48 32 8 中西医结合组 原治愈率 (%) 预期治愈数 65 45 25 52 36 10
普通型 80 重型 80 爆发型 40
合计
200
88
98
西医标准化治愈率 P'= 88÷200 = 44%
预期死亡数的比
3. 率的标准化应注意的问题
• 由于内部构成不同,影响到要比较的总率, 需要标准化处理? • 标准化率只用于比较,已经不代表实际 的水平。 • 各分组率有交叉,不能用标准化率比较 • 抽样得到的标准化率的比较,也应该进行 假设检验.
第二节 计数资料统计推断
一. 率的抽样误差和标准误 样本率和总体率或样本率之间存在的差异,称 抽样误差.率的抽样误差用率的标准误表示.(p or Sp).
假设检验的基本步骤完全相同
统计资料处理的基本思路
统计资料类型的判断 资料的整理 : 统计图,统计表 统计资料的描述 (描述指标)
统计学推断 总体参数的估计(可信区间) 假设检验
例1. 某研究者欲比较甲乙两药治疗高血压的效果,进 行了随机对照试验.甲乙药组各选择了50名病人,甲药
组血压平均下降了10.67mmHg,标准差是3.27mmHg,
处理 甲药 乙药 合计 有效 28 (26.09) 12 (13.91) 40 无效 2 (3.91) 4 (2.09) 6 合计 30 16 46
3. 配对设计资料的2检验 例10-10 用两种不同的方法对53例肺癌患者 进行诊断,资料见表10-9. 问两种检测结果 有无差别?
甲法
+ 合计 乙 法
p (1 )
n
p(1 P) Sp n
( p =阳性率, 1- p=阴性率)
二. 总体率的区间估计
1. 正态近似法:
条件: n 足够大,样本率p 或1-p均不太 小时, 即 np 和 n(1-p)>5
p u× Sp 2. 查表法: 当n ≤50, 样本率p 接近与0或1时,该资料 服从二项分布,用查表法估计样本含量
<<卫生学>>
计数资料的统计分析
环境与公共卫生学院预防医学系
闫洪涛
统计资料的类型
数值变量: 计量资料 分类变量: 计数资料 无序分类:
二项分类 多项分类 连续型计量资料 离散型计量资料
有序分类 : 变量之间有程度的差 别, 且排列有序. (等级变量)
变量的转换: 定量
定性
第十章 分类变量资料的统计分析
第三节
率的标准化法 (standardization)
例: 某病两种疗法治愈率的比较
病型
西医组 病例数 治愈数 治愈率 (%) 36 8 4 48 60 40 20 48 中西医结合组 病例数 治愈数 治愈率 (%) 20 60 20 100 13 27 5 45 65 45 25 45
普通型 60 重型 20 爆发型 20 合计 100
三. 四格表资料的Χ2 检验
处理 A药 B药 合计
有效 a c a+c
无效 b d b+d
合计 a+b c+d n
1. 四格表资料的Χ2 检验的专用公式
(ad bc) 2 n 2 (a b)(c d )(a c)(b d )
df =(R-1)(C-1)=1
2. 四格表资料的Χ2 检验的校正 -- Yates 连续校正
99%可信区间: 3.5% 2.58 Sp
三. 两个率比较的u 检验
当np和 n(1-p) ≧5 时 样本率的分布近似正态分布— u 检验
(一) 检验步骤: 1. 建立假设, 确定检验水准α H0: H1: α =0.05 2. 选择检验方法, 计算 u 值 3. 确定 P 值, 判断结果
(二)资料类型
中西医标准化治愈率 P'= 98÷200 = 49%
率的标准化
1.基本思想: 为消除内部构成不同对指标的 影响, 采用统一的内部构成计算标准化率, 使得出的标准化率具有可比性. 2.计算方法: 直接法: 已知各年龄组的实际发病率,用标准人
口数或标准人口构成进行计算
间接法: 标准化死亡比 (SMR), 实际死亡数与
处理 A药 B药 合计 有效 68 52 120 无效 6 11 17 合计 74 63 137 有效率(%) 91.89 82.54 87.59
例10-8 某医生用A,B两种药物治疗急性下呼吸道 感染.A药治疗74例,有效68例;B药治疗63例, 有效52例.问两种药物的有效率是否有差别?
处理 A药 B药 合计 有效 68 (64.82) 52 (55.18) 120 无效 6 (9.18) 11(7.82) 17 合计 74 63 137
+
25 (a) 11 (c) 36
2 (b) 15 (d) 17
合计
27 26 53
b+c>40:
b c 2
bc
2
当 b+c<40 时, 用校正公式. (McNemar 检验)
b c 1 2
bc
2
4. 行×列表资料的2检验 (R ×C 表资料)
基本公式:
例3. 为比较A,B,C,D四种药物治疗小细胞肺 癌的效果,将160人随机分配进入四个治疗 组.每组40人.治疗结果见下表,试比较四种 药物治疗效果有无差别?
处理组 A药 B药 C药 D药 合计 有效 15 10 13 8 46 无效 25 30 27 32 114 合计 . 40 40 40 40 160 .
乙药组平均下降了13.20mmHg,标准差是4.33mmHg. 问两药降压效果是否不同? 例2. 为调查2型糖尿病发病易感因素,某研究者进行 了一项以医院为基础的病例对照研究.结果发现,在 200名糖尿病病例中, 100人有糖尿病遗传家族史; 而200名对照者中只有50人有糖尿病家族史.问糖 尿病家族史是否在两组中分布不同?
3. 假设检验结果有差别,只能认为总的率或构成比 有差别
4. 单向有序变量(等级资料)的行×列表,不 能用X2检验比较组间效应,如果作X2,只能说明 个处理组间的效应在构成比上有无差别。
表10-12 中药和西药对某病的疗效比较 药物 中药 西药 合计 治愈 78 85 163 好转 42 60 102 无效 32 38 70 合计 152 183 335
年级
一年级 二年级 三年级 合计
检查人数
442 428 405 1275
患病人数 患病率 构成比
67 68 74 209 15.16 15.89 18.27 16.39 32.06 32.53 35.41 100.0
相对比
1.2
二. 应用相对数时注意事项
1. 分母不宜太小 2. 率和构成比的区别 3. 样本含量不等的几个率的平均值不等于 几个率 的算数平均值 4. 对率或构成比进行比较时,应注意资料的可比性 5. 率的标准化 6. 两样本率进行比较时应进行假设检验
表10-12 三家医院住院患者的院内感染率比较 医院 甲 乙 丙 合计 感染 43 19 15 77 未感染 188 170 151 509 合计 231 189 166 586
H0:三家医院院内感染率相同 H1:三家医院院内感染率不相同或不全相同 α=0.05
2 A 2 n 1 n Rn C
例10-5 为了解某地乙肝表面抗原携带情况,某研究者在该 地人群中随机检测了该地200人,乙肝表面抗原阳性7 人,乙肝表面抗原携带率为3.5%,试计算标准误并估 计95%和99%可信区间.
n=200 X=7, P=3.5%
Sp p(1 P) n
95%可信区间: 3.5% 1.96 Sp
2 2 2 2 A 43 188 19 2 n 1 586( 231 77 231 509 189 77 nRnC 1702 152 1512 1) 10.09 189 509 166 77 166 509
df=(行数-1)(列数-1) =(3-1)(2-1) =2 查X2界值表: X20.05(2)=5.99 X20.01(2)=9.21 按α =0.05,拒绝H0,接受H1,差别有统计学 意义,即可认为三家医院住院病人的院内感 染率有差别。
三.率的标准化
1.基本思想: 为消除内部构成不同对指标的影响, 采用统一的内部构成计算标准化率,使得出的标 准化率具有可比性. 2.计算方法: 直接法: 已知各年龄组的实际发病率,用标准人口数或
标准人口构成进行计算
间接法Leabharlann Baidu 标准化死亡比 (SMR), 实际死亡数与预
期死亡数的比
3. 率的标准化应注意的问题
连续性校正应遵循的条件: 1. T 5, 且 N 40时, 用非校正的公式 2. 1 T < 5,且N 40时,用连续性校正公 式 3. T <1 或 N< 40, 用 Fisher 精确概率法
例10-9 某医生收集到两种药物治疗白色葡萄球 菌败血症疗效的资料,结果见表10-8,问两 种药物疗效之间的差别有无统计学意义?
2
A T 0.5
T
2
2
ad bc n / 2 n
2
(a c)(b d )(a b)(c d )
校正的目的:
英国统计学家(Yates)认为2分布是一种连续 性分布,而四格表中的资料属离散性分布,得到 的2统计量的抽样分布也是离散的.因此,为改 善2统计量分布的连续性,建议进行校正.
基本思想 检验实际频数与理论频数的吻合程度,实 际频数与理论频数越相近, X2 值越小; 反 之,实际数与理论数相差越大, X2值越大.
计算公式:
2
A T
T
2
理论频数的计算: TRC= nRnC / n df=(行数-1)(列数-1)
例10-8 某医生用A,B两种药物治疗急性下呼吸道 感染.A药治疗74例,有效68例;B药治疗63例, 有效52例.问两种药物的有效率是否有差别?
然而,三者之间谁和谁有差别,还不知道。 应该进一步进行两两比较 两两比较,可采用 X2分割
行列表资料2检验应注意事项
1. 行列表资料2检验公式的应用条件: 不能有1/5以上的格子的理论数<5, 或者,不能有1个格子的理论数<1
2. 如果资料不能满足上述条件,则可以通过 (1) 在可能的情况下再增加样本量; (2)专业上允许的情况下,合并相邻的行或列; (3) 删去理论数太小的行和列
2
有效率(%) 91.89 82.54 87.59
2
A T
T
二. Χ2 检验的基本步骤 1. 建立检验假设,确定检验水准 H0: 1= 2 H1: 1 2 =0.05
2. 计算Χ2 值 资料类型不同,计算公式不同 3. 确定 P 值, 判断结果 根据查Χ2 界值表, 确定P值
2 A 2 n 1 n Rn C
A —每个格子的实际频数 nR – A所对应的行合计 nC – A所对应的列合计
例10-12. 某研究者欲比较甲、乙、丙三家医院住院 患者院内感染情况,随机抽查同一时期 住院患者感染情况,结果如下:试比较 三家医院院内感染率有无差别。
1. 样本率与总体率的比较 (例10-6)
计算公式:
u p p
p
(1 )
n
2. 两个样本率的比较 (例10-7) 计算公式:
u
p1 p 2 1 1 pc(1 pc)( ) n1 n 2
X1 X 2 pc n1 n 2
第三节 X2 检验 (chi-square test)
小结
计数资料的统计描述
指标: 率、构成比、相对比 计数资料的统计推断
总体参数估计:P±uαSp 率的假设检验: 样本率与总体率的比较 -- u检验 两个大样本率的比较 -- u检验 两个样本率的比较 -- χ2检验 配对设计资料的两个率比较 -- χ2检验 多个样本率的比较 -- R×C表的χ2检验
第一节 统计描述
一.描述指标(相对数)
1. 率(rate) : R n K N 单位: %,‰,万分率,10万分率 2. 构成比 (constituent ratio) 单位: % 特点: 3. 相对比 (relative ratio) 常用率比
• 例10-1 某研究者2000年对某校的初中生进行了近视患病 情况调查,试计算各年级近视患病率和构成比及 三年级和一年级患病率的相对比.
例: 某病两种疗法治愈率的比较
病型 西医组 病例数 原治愈率 (%) 预期治愈数 60 40 20 48 32 8 中西医结合组 原治愈率 (%) 预期治愈数 65 45 25 52 36 10
普通型 80 重型 80 爆发型 40
合计
200
88
98
西医标准化治愈率 P'= 88÷200 = 44%
预期死亡数的比
3. 率的标准化应注意的问题
• 由于内部构成不同,影响到要比较的总率, 需要标准化处理? • 标准化率只用于比较,已经不代表实际 的水平。 • 各分组率有交叉,不能用标准化率比较 • 抽样得到的标准化率的比较,也应该进行 假设检验.
第二节 计数资料统计推断
一. 率的抽样误差和标准误 样本率和总体率或样本率之间存在的差异,称 抽样误差.率的抽样误差用率的标准误表示.(p or Sp).
假设检验的基本步骤完全相同
统计资料处理的基本思路
统计资料类型的判断 资料的整理 : 统计图,统计表 统计资料的描述 (描述指标)
统计学推断 总体参数的估计(可信区间) 假设检验
例1. 某研究者欲比较甲乙两药治疗高血压的效果,进 行了随机对照试验.甲乙药组各选择了50名病人,甲药
组血压平均下降了10.67mmHg,标准差是3.27mmHg,
处理 甲药 乙药 合计 有效 28 (26.09) 12 (13.91) 40 无效 2 (3.91) 4 (2.09) 6 合计 30 16 46
3. 配对设计资料的2检验 例10-10 用两种不同的方法对53例肺癌患者 进行诊断,资料见表10-9. 问两种检测结果 有无差别?
甲法
+ 合计 乙 法
p (1 )
n
p(1 P) Sp n
( p =阳性率, 1- p=阴性率)
二. 总体率的区间估计
1. 正态近似法:
条件: n 足够大,样本率p 或1-p均不太 小时, 即 np 和 n(1-p)>5
p u× Sp 2. 查表法: 当n ≤50, 样本率p 接近与0或1时,该资料 服从二项分布,用查表法估计样本含量
<<卫生学>>
计数资料的统计分析
环境与公共卫生学院预防医学系
闫洪涛
统计资料的类型
数值变量: 计量资料 分类变量: 计数资料 无序分类:
二项分类 多项分类 连续型计量资料 离散型计量资料
有序分类 : 变量之间有程度的差 别, 且排列有序. (等级变量)
变量的转换: 定量
定性
第十章 分类变量资料的统计分析
第三节
率的标准化法 (standardization)
例: 某病两种疗法治愈率的比较
病型
西医组 病例数 治愈数 治愈率 (%) 36 8 4 48 60 40 20 48 中西医结合组 病例数 治愈数 治愈率 (%) 20 60 20 100 13 27 5 45 65 45 25 45
普通型 60 重型 20 爆发型 20 合计 100
三. 四格表资料的Χ2 检验
处理 A药 B药 合计
有效 a c a+c
无效 b d b+d
合计 a+b c+d n
1. 四格表资料的Χ2 检验的专用公式
(ad bc) 2 n 2 (a b)(c d )(a c)(b d )
df =(R-1)(C-1)=1
2. 四格表资料的Χ2 检验的校正 -- Yates 连续校正
99%可信区间: 3.5% 2.58 Sp
三. 两个率比较的u 检验
当np和 n(1-p) ≧5 时 样本率的分布近似正态分布— u 检验
(一) 检验步骤: 1. 建立假设, 确定检验水准α H0: H1: α =0.05 2. 选择检验方法, 计算 u 值 3. 确定 P 值, 判断结果
(二)资料类型
中西医标准化治愈率 P'= 98÷200 = 49%
率的标准化
1.基本思想: 为消除内部构成不同对指标的 影响, 采用统一的内部构成计算标准化率, 使得出的标准化率具有可比性. 2.计算方法: 直接法: 已知各年龄组的实际发病率,用标准人
口数或标准人口构成进行计算
间接法: 标准化死亡比 (SMR), 实际死亡数与
处理 A药 B药 合计 有效 68 52 120 无效 6 11 17 合计 74 63 137 有效率(%) 91.89 82.54 87.59
例10-8 某医生用A,B两种药物治疗急性下呼吸道 感染.A药治疗74例,有效68例;B药治疗63例, 有效52例.问两种药物的有效率是否有差别?
处理 A药 B药 合计 有效 68 (64.82) 52 (55.18) 120 无效 6 (9.18) 11(7.82) 17 合计 74 63 137
+
25 (a) 11 (c) 36
2 (b) 15 (d) 17
合计
27 26 53
b+c>40:
b c 2
bc
2
当 b+c<40 时, 用校正公式. (McNemar 检验)
b c 1 2
bc
2
4. 行×列表资料的2检验 (R ×C 表资料)
基本公式:
例3. 为比较A,B,C,D四种药物治疗小细胞肺 癌的效果,将160人随机分配进入四个治疗 组.每组40人.治疗结果见下表,试比较四种 药物治疗效果有无差别?
处理组 A药 B药 C药 D药 合计 有效 15 10 13 8 46 无效 25 30 27 32 114 合计 . 40 40 40 40 160 .
乙药组平均下降了13.20mmHg,标准差是4.33mmHg. 问两药降压效果是否不同? 例2. 为调查2型糖尿病发病易感因素,某研究者进行 了一项以医院为基础的病例对照研究.结果发现,在 200名糖尿病病例中, 100人有糖尿病遗传家族史; 而200名对照者中只有50人有糖尿病家族史.问糖 尿病家族史是否在两组中分布不同?
3. 假设检验结果有差别,只能认为总的率或构成比 有差别
4. 单向有序变量(等级资料)的行×列表,不 能用X2检验比较组间效应,如果作X2,只能说明 个处理组间的效应在构成比上有无差别。
表10-12 中药和西药对某病的疗效比较 药物 中药 西药 合计 治愈 78 85 163 好转 42 60 102 无效 32 38 70 合计 152 183 335
年级
一年级 二年级 三年级 合计
检查人数
442 428 405 1275
患病人数 患病率 构成比
67 68 74 209 15.16 15.89 18.27 16.39 32.06 32.53 35.41 100.0
相对比
1.2
二. 应用相对数时注意事项
1. 分母不宜太小 2. 率和构成比的区别 3. 样本含量不等的几个率的平均值不等于 几个率 的算数平均值 4. 对率或构成比进行比较时,应注意资料的可比性 5. 率的标准化 6. 两样本率进行比较时应进行假设检验
表10-12 三家医院住院患者的院内感染率比较 医院 甲 乙 丙 合计 感染 43 19 15 77 未感染 188 170 151 509 合计 231 189 166 586
H0:三家医院院内感染率相同 H1:三家医院院内感染率不相同或不全相同 α=0.05
2 A 2 n 1 n Rn C
例10-5 为了解某地乙肝表面抗原携带情况,某研究者在该 地人群中随机检测了该地200人,乙肝表面抗原阳性7 人,乙肝表面抗原携带率为3.5%,试计算标准误并估 计95%和99%可信区间.
n=200 X=7, P=3.5%
Sp p(1 P) n
95%可信区间: 3.5% 1.96 Sp
2 2 2 2 A 43 188 19 2 n 1 586( 231 77 231 509 189 77 nRnC 1702 152 1512 1) 10.09 189 509 166 77 166 509
df=(行数-1)(列数-1) =(3-1)(2-1) =2 查X2界值表: X20.05(2)=5.99 X20.01(2)=9.21 按α =0.05,拒绝H0,接受H1,差别有统计学 意义,即可认为三家医院住院病人的院内感 染率有差别。
三.率的标准化
1.基本思想: 为消除内部构成不同对指标的影响, 采用统一的内部构成计算标准化率,使得出的标 准化率具有可比性. 2.计算方法: 直接法: 已知各年龄组的实际发病率,用标准人口数或
标准人口构成进行计算
间接法Leabharlann Baidu 标准化死亡比 (SMR), 实际死亡数与预
期死亡数的比
3. 率的标准化应注意的问题
连续性校正应遵循的条件: 1. T 5, 且 N 40时, 用非校正的公式 2. 1 T < 5,且N 40时,用连续性校正公 式 3. T <1 或 N< 40, 用 Fisher 精确概率法
例10-9 某医生收集到两种药物治疗白色葡萄球 菌败血症疗效的资料,结果见表10-8,问两 种药物疗效之间的差别有无统计学意义?