分类数据的统计分析及SAS编程
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.2.1 实例3.1
在三所医院中考察某感冒药A(江剪刀草组)对治疗流鼻涕的效果,与对 照药B(胆麻片组)对比记录其疗效如表3-1:
表3-1 某感冒药A与对照药B治疗流鼻涕的效果
3.2.2 符号
对于多层四格表,除四格表中数字以 代表外,以h表示层次,则第h 层的四格表可用以下符号表示(表3-2):
表2-2 两组有效率的比较
则每一格出现数据为 的概率为:
源自文库
如上例江剪刀草组无效(263例)的期望值为: 方差 : 本例 : 样本足够大时 近似正太分布,由此得:
结论为两组疗效不同 。
2.2.2 Pearson 卡方——Qp
Pearson 卡方即一般常用的 。
这一公式即一般习惯用的 :
计算Pearson卡方先要计算出4个期望值 ,一个 已算出为239.87。其他则可由合计值减出。
输出内容除包括各层的四格表频数、百分数、X2检验、Fisher精确检验结果及相 关等内容外,还输出了小结统计量(summary statistics)、OR及RR。 这里没有列出四格表,但由结果可见,中心1江剪刀草组与胆麻片组疗效比为 40.00%:50.00%,以胆麻片组疗效较好(表3-3);中心2为77.50%:85.00%, 也是以胆麻片组疗效较差。就是各组疗效比的方向在各中心间并不一致,这样的 资料QMH检验效果较差。
Mantel-Haenszel 与Pearson 的关系如下: =
本例 : =
2.2.3 SAS 程序
[ 程序2-1 ]
data bronchit; input treat $ outcome $ count; cards; jiang y 70 jiang n 263 dan y 102 dan n 180 ; proc freq order = data; weight count; tables treat * outcome/chisq;
三. 多层 2×2 表
3.1 概 述
在医学研究中经常遇到分层研究,如果每个层都有一 个2×2表,则有多个2×2表(sets of 2×2 table)。 例如在多中心临床试验中,每个医院随机地把病人分 为试验组和对照组,疗效为有效和无效,则每个医院 的数据形成了一个2×2表数据。
3.2 Mantel-Haenszel 检验
proc freq order = data; weight count; tables center * treat * response/chisq CMH; run; tables语句中要把需要校正的因素,即center放在最前面,CMH选项可输 出Mantel-Haenszel统计量。
3.2.5 输出
二 . 2×2 表
临床试验实例 例2.1 在研究老年慢性支气管炎的中草 药疗效时,将病人随机分配到江剪刀草 组和胆麻片组。结果疗效如下表所示:
表2-1 两组有效率的比较
这是2.1中提到的第一种情况。根据无效假设,数据为超几何分布。
2.2.1 Mantel-Haenszel 卡方——Q 如果用以下符号表示表2-1中的数据
表2-5 两种培养基的结果
2.7.2 计算方法
2.7.3 程序
在SAS第6.10版以后,在proc freq 中tables语句中加入了agree选项作McNemar检 验。本例程序如下:
[ 程序2-2 ]
data culture; input a $ b $ count; cards; y y 36 y n 34 ny0 n n 135 ;
一. 概 述
分 析 策 略
分类数据分析策略可以分成假设检验和 建立模型。 1.假设检验法是建立一个关于联系 (association)的假设。通常研究用随 机化的方法进行。
例如:
把病人随机分成两组,检验组别与疗效之间(列 联表的行与列之间)是否有关。这种联系的无效 假设为变量间没有联系,而备择假设一般有3种情 况:
①有一般联系(general association)。
②平行均分有差别(row mean scores differ)。
③非零相关(nonzero correlation)。
在以后讨论中我们将对各种不同的联系进行说明。
2.建立模型的方法可求得各参数值,说明各因素的 作用。通常用最大似然估计或加权最小二乘法估 计。
表3-2 多层四格表的符号表示
3.2.3 QMH 统计量
在无效假设为两组疗效相同时,第h层 公式为:
=
的期望值 及方差 的计算 (3.1)
=
(3.2)
校正中心因素的两组之间疗效的差异可用Mantel-Haenszel 1959年提出 的统计量表示。
=
式中q为层数,本例q=3。
当q层的i行合计数 的合计数 于1的卡方分布。
proc freq order = data; weight count; tables a * b/agree; run;
2.7.4 输出
除频数部分外,输出的结果如下:
STATISTICS FOR TABLE OF A BY B McNemar’s Test
其中,Kappa系数是反映一致性的指标。
run;
检验结果 :
STATISTICS FOR TABLE OF TREAT BY OUTCOME
表中各列依次为统计量、自由度(DF)、卡方值及P值。
2.7 配对资料四格表
2.7.1 例2.3
205份标本分别接种于甲、乙两种培养基,共有4种结果,即甲、乙都生 长;甲生长乙不生长,乙生长甲不生长及甲、乙都不生长。试比较两种 培养基的效果,结果如表2-5 :
大于30时近似服从自由度等
Mantel-Haenszel方法,消除了层次因素的干 扰而提高了检出关联的把握度。
当各层次的阳性率的方向一致时,如每层的治 愈率都是试验组高于对照组,则QMH检验效 果很好。如果各层的方向不一致则可能检验不 出其关联。
3.2.4 程序
[ 程序3-1]
data park2; input center treat $ response $ count @@; cards;
1 test y 12 1 test n 18 1 placebo y 15 1 placebo n 15 2 test y 31 2 test n 9 3 placebo y 34 2 placebo n 6 3 test y 16 3 test n 14 3 placebo y 15 3 placebo n 15 ;
在三所医院中考察某感冒药A(江剪刀草组)对治疗流鼻涕的效果,与对 照药B(胆麻片组)对比记录其疗效如表3-1:
表3-1 某感冒药A与对照药B治疗流鼻涕的效果
3.2.2 符号
对于多层四格表,除四格表中数字以 代表外,以h表示层次,则第h 层的四格表可用以下符号表示(表3-2):
表2-2 两组有效率的比较
则每一格出现数据为 的概率为:
源自文库
如上例江剪刀草组无效(263例)的期望值为: 方差 : 本例 : 样本足够大时 近似正太分布,由此得:
结论为两组疗效不同 。
2.2.2 Pearson 卡方——Qp
Pearson 卡方即一般常用的 。
这一公式即一般习惯用的 :
计算Pearson卡方先要计算出4个期望值 ,一个 已算出为239.87。其他则可由合计值减出。
输出内容除包括各层的四格表频数、百分数、X2检验、Fisher精确检验结果及相 关等内容外,还输出了小结统计量(summary statistics)、OR及RR。 这里没有列出四格表,但由结果可见,中心1江剪刀草组与胆麻片组疗效比为 40.00%:50.00%,以胆麻片组疗效较好(表3-3);中心2为77.50%:85.00%, 也是以胆麻片组疗效较差。就是各组疗效比的方向在各中心间并不一致,这样的 资料QMH检验效果较差。
Mantel-Haenszel 与Pearson 的关系如下: =
本例 : =
2.2.3 SAS 程序
[ 程序2-1 ]
data bronchit; input treat $ outcome $ count; cards; jiang y 70 jiang n 263 dan y 102 dan n 180 ; proc freq order = data; weight count; tables treat * outcome/chisq;
三. 多层 2×2 表
3.1 概 述
在医学研究中经常遇到分层研究,如果每个层都有一 个2×2表,则有多个2×2表(sets of 2×2 table)。 例如在多中心临床试验中,每个医院随机地把病人分 为试验组和对照组,疗效为有效和无效,则每个医院 的数据形成了一个2×2表数据。
3.2 Mantel-Haenszel 检验
proc freq order = data; weight count; tables center * treat * response/chisq CMH; run; tables语句中要把需要校正的因素,即center放在最前面,CMH选项可输 出Mantel-Haenszel统计量。
3.2.5 输出
二 . 2×2 表
临床试验实例 例2.1 在研究老年慢性支气管炎的中草 药疗效时,将病人随机分配到江剪刀草 组和胆麻片组。结果疗效如下表所示:
表2-1 两组有效率的比较
这是2.1中提到的第一种情况。根据无效假设,数据为超几何分布。
2.2.1 Mantel-Haenszel 卡方——Q 如果用以下符号表示表2-1中的数据
表2-5 两种培养基的结果
2.7.2 计算方法
2.7.3 程序
在SAS第6.10版以后,在proc freq 中tables语句中加入了agree选项作McNemar检 验。本例程序如下:
[ 程序2-2 ]
data culture; input a $ b $ count; cards; y y 36 y n 34 ny0 n n 135 ;
一. 概 述
分 析 策 略
分类数据分析策略可以分成假设检验和 建立模型。 1.假设检验法是建立一个关于联系 (association)的假设。通常研究用随 机化的方法进行。
例如:
把病人随机分成两组,检验组别与疗效之间(列 联表的行与列之间)是否有关。这种联系的无效 假设为变量间没有联系,而备择假设一般有3种情 况:
①有一般联系(general association)。
②平行均分有差别(row mean scores differ)。
③非零相关(nonzero correlation)。
在以后讨论中我们将对各种不同的联系进行说明。
2.建立模型的方法可求得各参数值,说明各因素的 作用。通常用最大似然估计或加权最小二乘法估 计。
表3-2 多层四格表的符号表示
3.2.3 QMH 统计量
在无效假设为两组疗效相同时,第h层 公式为:
=
的期望值 及方差 的计算 (3.1)
=
(3.2)
校正中心因素的两组之间疗效的差异可用Mantel-Haenszel 1959年提出 的统计量表示。
=
式中q为层数,本例q=3。
当q层的i行合计数 的合计数 于1的卡方分布。
proc freq order = data; weight count; tables a * b/agree; run;
2.7.4 输出
除频数部分外,输出的结果如下:
STATISTICS FOR TABLE OF A BY B McNemar’s Test
其中,Kappa系数是反映一致性的指标。
run;
检验结果 :
STATISTICS FOR TABLE OF TREAT BY OUTCOME
表中各列依次为统计量、自由度(DF)、卡方值及P值。
2.7 配对资料四格表
2.7.1 例2.3
205份标本分别接种于甲、乙两种培养基,共有4种结果,即甲、乙都生 长;甲生长乙不生长,乙生长甲不生长及甲、乙都不生长。试比较两种 培养基的效果,结果如表2-5 :
大于30时近似服从自由度等
Mantel-Haenszel方法,消除了层次因素的干 扰而提高了检出关联的把握度。
当各层次的阳性率的方向一致时,如每层的治 愈率都是试验组高于对照组,则QMH检验效 果很好。如果各层的方向不一致则可能检验不 出其关联。
3.2.4 程序
[ 程序3-1]
data park2; input center treat $ response $ count @@; cards;
1 test y 12 1 test n 18 1 placebo y 15 1 placebo n 15 2 test y 31 2 test n 9 3 placebo y 34 2 placebo n 6 3 test y 16 3 test n 14 3 placebo y 15 3 placebo n 15 ;