分类变量资料的统计分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
³ ×É ¼ É ã â Æ
±º à Å 1 2 … 78
ÄÄ°ÄÄÄÄÄÄÄÄÄÄÄÄÄ Ä í é á ·× Ö ã ¼ ¼ Á ×Á ¿ Ò ¼ Á Á ¿ º ¼ Ï Æ ½ ¹ á û Ë Í (+) É ´ (-) À ö ú æ £ a£ ¨ © £ c£ ¨ © £ b£ ¨ © £ d£ ¨ © 78 º ¼ Ï Æ
u p
H1 :π ≠π 0
p
α =0.05 。
0 . 096 0 . 076 0 . 844 0 . 076 ( 1 0 . 076 ) 125
0
p
n
0
(1
0
0
)
按α =0.05 水准,不拒绝 H0 ,即不能认为该山区与本省一般 成人的α -地中海贫血基因携带率有差异。
对于列联表资料(两个或更多因素),对两因素间的
关系进行统计学推断;
对于三维表,可作Mentel-Hanszel分层分析。
23
freq过程
表 freq过程的功能
卡方检验 关联性的推断及其强度测量 2×2表资料危险度计算以及危险度差别的 检验 2×2表资料OR值以及相对危险度的计算 趋势检验
一致性检验 Cochran-Mantel-Haenszel 统计量计算
表达式 tables a*(b c); tables (a b)*(c d); tables (a b c)*d; tables a--c; tables (a--c)*d;
28
freq过程的一般格式
TABLES语句中“/” 后面的选项: 1、统计分析选项 CHISQ:对每层作 检验,包括Pearson 2、似然比 和 Mantel-Haenszel 2。此外还给出与 2检验有关的关联指标
p Z S p
p Z S p
(Z0.05=1.645)
注意:如果计算获得的置信区间下限小于 0%,上限大于 100%, 则将下限直接定为 0%,上限直接定为 100%。
样本率与总体率比较的u检验
u检验的条件:n p 和n(1- p)均大于5时
例 5-5,α - 地中海贫血基因携带率:山区 p=12/125=0.096, 2 n=125;本省一般成人π 0 =0.076, H0 :π = π 0 =0.076
卡方检验
检验(Chi-square test)是现代统计学的创始人之
2
一,英国人K . Pearson(1857-1936)于1900年提出 的一种具有广泛用途的统计方法。
可用于两个或多个率间的比较,计数资料的关联
度分析,拟合优度检验等。
2 检验的基本公式
( A T )2 2 T
19
两个(多个)率或构成比的比较
推断两个或多个分类变量是否相关联或相互独立 两个或多个发生率或构成比是否相同
20
一致性检验与配对卡方检验
配对设计包括
同一样本接受不同处理的比较 配对的两个受试对象分别给予两种处理
乙 + 合 计 种 + 11 ( a ) 3 (c) 14 甲 种 7 (b) 7 (d) 14 18 10 28 合 计
21
一致性检验与配对卡方检验
资料为配对资料
结果是否基本一致
* Kappa ≥0.75一致性好 * 0.75>Kappa≥0.4一致性一般 * Kappa <0.4一致性较差
结果有无差别:配对卡方检验
22
freq过程
功能:描述性统计以及假设检验的功能
对分类变量计算频数分布,产生频数表和列联表;
( R 1)(C 1)
四格表专用公式
1.四格表形式
组别 甲组 乙组 合计 阳性数 a c a+c 阴性数 b d b+d 合计 a+b c+d N
2.四格表专用公式
(ad bc) N (a b)(a c)(c d )(b d )
2 2
13
举例
(26 62 178 2) 2 268 4.82 , 1 2 204 28 240 64 2 2 0.05,1 3.84; P 0.05 下结论:
如:PROC FREQ; TABLES A*B*C*D;
列联表的数量为A、B不同水平的组合数,每个表的上部
为D的各水平,左侧为C的各水平。
27
freq过程的一般格式
表 多表格表达式示例 等同表达式 tables a*b a*c; tables a*c b*c a*d b*d; tables a*d b*d c*d; tables a b c; tables a*d b*d c*d;
24
freq过程的一般格式
PROC FREQ [选项];
TABLES 请求式/[选项]; WEIGHT <变量名>; BY <变量名列>; RUN;
必需,指定行变量和列变量 指定频数指定变量
25
freq过程的一般格式
TABLES语句: PROC FREQ; TABLES A; 产生变量A的一维频数表 PROC FREQ;
p (1 p ) n 0 . 5 8 5 (1 0 . 5 8 5 ) 0 .0 4 8 4 .8 % 106
S
p
总体率的可信区间
总体率的可信区间 (confidence interval of rate): 根据样本率推算总体率可能所在的范围 1. 查表法:
样本含量较小(如n50),np或n(1-p)<5时,样本
α=0.05。
本例b c 15 40, 采用连续性校正 2 ( 12 3 1) 4.27, 1 2 12 3
2
2 0.05,1
3.84; P 0.05
行×列(R×C)表资料的
wenku.baidu.com
检验
2
四格表是指只有2行2列的表格,当行数或列 数超过2 时,统称为行 ×列表。行×列表的 检验是对多个样 本率(或构成比)的检验。 适用条件:表中不宜有1/5以上格子的理论频数小于5, 或有一个格子的理论频数小于1。
1 2
p1 p2 1 1 pc (1 pc )( ) n1 n2
X 1 X 2 n1 p1 n2 p2 pc n1 n2 n1 n2
u检验的条件: n1p1 和n1(1- p1)与 n2p2 和n2(1- p2)均 >5
0.1275 0.0313 u 2.1949 1.96 1 1 0.1045(1 0.1045)( ) 204 64
率的分布呈二项分成,可查有关表格直接确定 置信区间。
2. 正态分布法
当 n 足够大,且 n p 和 n(1- p)均大于 5 时, p 的抽样分布逼近正态分布。其总体率的置信区间为: 双侧: 单侧:
( p Z 2 S p ,
大于
p Z 2 S p )
或 小于
(Z0.05/2=1.96)
Breslow检验。
ALL :给出CHISQ、MEASURES、CMH所请求的全部 统计量。
31
freq过程的一般格式
TABLES语句中“/” 后面的选项: 2、有关表格信息选项
EXPECTED: 给出期望频数
DEVIATION :给出每格的实际频数与期望频数的差值 CELLCHISQ:给出每格对总c 2的贡献,即计算每格的
相应的标准误,包括Pearson和Spearman相关系数,以及
Gamma和Kendall系数等。对于2×2表,还给出常用的危 险度指标及其标准误。
ALPHA=p :给出检验水准。缺省为0.05。
30
freq过程的一般格式
TABLES语句中“/” 后面的选项: CMH: 给出Cochran-Mantel-Haenszel统计量,可检验 在调整了TABLES语句中其它变量后,行变量与列变量之 间的关联程度。对于2×2表,FREQ过程给出相对危险度 估计及其可信区间,还给出各层关联度指标是否齐性的
分类变量资料的统计推断
4
率的抽样误差与标准误
样本率(p)和总体率(π )的差 异称为率的抽样误差,用率的 标准误表示
p
(1 )
n
如果总体率π 未知,
用样本率p估计
sp
p(1 p) n
标准误的计算
例 5-1 观察某医院产妇 106 人,其中行剖腹产者 62 人, 剖腹产率为 58.5%,试估计剖腹产率的标准误。 解:已知 n=106,p=0.585,其标准误为:
两个独立样本率比较的u检验
表3 两种疗法的心血管病病死率比较
疗法 死亡 生存 合计 病死率(%)
盐酸苯乙双胍
安慰剂 合 计
26 (X1)
2 (X2) 28
178
62 240
204(n1)
64(n2) 268
12.75 (p1)
3.13 (p2) 10.45 (pc)
p1 p2 u Sp p
2 2
包括Phi系数、列联系数和Cramer’s V。对于2×2表,给出 Fisher精确概率。 AGREE:进行配对 2检验。 EXACT :对大于2×2的列联表计算Fisher精确概率。同
时也给出CHISQ选项的全部统计量。
29
freq过程的一般格式
TABLES语句中“/” 后面的选项: MEASURES :对每层的二维表计算一系列关联指标及
构成比=(某部分观察单位数/各组成部分观察单位总 数)×100% 如:教研室16人中高级职称有4人,占20%
相对比(relative ratio):是A、B两个有关指标之 比,说明A是B的若干倍或百分之几,通常用倍 数或分数表示。
甲指标 相对比 乙指标
如:男:女、医生:护士、教师:学生
TABLES A*B;
产生A、B两个变量的列联表,*前为行变量,*后为列变量
26
freq过程的一般格式
在TABLES语句中用*号连接三个或n个变量名,可得到 三维或n维列联表,最后一个变量各水平形成表的列,倒 数第二个变量各水平形成表的行,其它变量的每一级水平
(或水平组合)形成一层,且每一层都形成分离的列联表。
校正公式:
( A T 0.5) 2 T
c2
,(也适合其它行 列表资料)
c2
( ad bc n / 2) 2 n (a b)(c d )( a c)(b d )
配对四格表资料的 检验
2
Å ¶ É ¼ ä Ô â Æ
¶ ׺ Ô Ó Å 1 2 … 39 ¼ ¼ Á ×Á ¿ Ë Í À ö Ë Í À ö … É ´ ú æ Ò ¼ Á Á ¿ Ë Í À ö É ´ ú æ … É ´ ú æ ± 5-3 í表5 ÄÄ°ÄÄÄÄÄÄÄÄÄÄÄÄÄ Ä í é á ¼ ¼ Á ×Á ¿ Ë Í (+) À ö É ´ (-) ú æ º ¼ Ï Æ ± í ¼ Á × Á ¿ ã ¼ × Ò … ¼ × ½ ¹ á û Ë Í À ö É ´ ú æ … É ´ ú æ Ò ¼ Á Á ¿ Ë Í (+) É ´ (-) À ö ú æ 6£ a£ ¨ © 3£ c£ ¨ © 9 12 £ b £ ¨ © 18 £ d £ ¨ © 30 º ¼ Ï Æ 18 21 39
分类变量资料的统计分析
1
分类变量资料的统计描述
率(rate):说明某现象或某事物发生的频率或强度。
率=(实际发生数/可能发生总数)×比例基数 比例基数:100%、1000‰、10000/万、100000(1/10万) 如:发病率、死亡率、发生率、阳性率、患病率等
构成比(proportion):说明某一事物内部,各组成部分 所占的比重。也叫百分比。
计算公式
(b c) 2 当b c 40时, 2 , 1 bc
b c 40时,需作连续性校正, 2 ( b c 1) bc 2 , 1
举例
H0:b,c来自同一个实验总体(两种剂量的毒性无差异)
H1:b,c来自不同的实验总体(两种剂量的毒性有差别)
2 如果 2 0.05,1 3.84; P 0.05, 拒绝H 0 ,即 1 2 2 如果 2 0.05,1 3.84; 则P 0.05,即不拒绝H 0
连续性校正公式
2 检验的应用条件:
当n>40,T>5时,用专用公式 当n≥40,而1≤T<5时,用连续性校正公式 当n<40或T<1时,用Fisher精确检验(Fisher exact test )