分类数据的统计分析及SAS编程解读

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

proc freq order = data; weight count; tables a * b/agree; run;
2.7.4 输出
除频数部分外，输出的结果如下：
STATISTICS FOR TABLE OF A BY B McNemar’s Test
其中，Kappa系数是反映一致性的指标。
①有一般联系（general association）。
②平行均分有差别（row mean scores differ）。
③非零相关（nonzero correlation）。
在以后讨论中我们将对各种不同的联系进行说明。
2.建立模型的方法可求得各参数值，说明各因素的作用。通常用最大似然估计或加权最小二乘法估计。
3.2.1 实例3.1
在三所医院中考察某感冒药A（江剪刀草组）对治疗流鼻涕的效果，与对照药B（胆麻片组）对比记录其疗效如表3-1：
表3-1 某感冒药A与对照药B治疗流鼻涕的效果
3.2.2 符号
对于多层四格表，除四格表中数字以代表外，以h表示层次，则第h 层的四格表可用以下符号表示（表3-2）:
输出内容除包括各层的四格表频数、百分数、X2检验、Fisher精确检验结果及相关等内容外，还输出了小结统计量（summary statistics）、OR及RR。这里没有列出四格表，但由结果可见，中心1江剪刀草组与胆麻片组疗效比为 40.00％：50.00％，以胆麻片组疗效较好（表3-3）；中心2为77.50％：85.00％，也是以胆麻片组疗效较差。就是各组疗效比的方向在各中心间并不一致，这样的资料QMH检验效果较差。
表3-2 多层四格表的符号表示
3.2.3 QMH 统计量
在无效假设为两组疗效相同时，第h层公式为：
=
的期望值及方差的计算 (3.1)
=
(3.2)
校正中心因素的两组之间疗效的差异可用Mantel-Haenszel 1959年提出的统计量表示。
=
式中q为层数，本例q＝3。
当q层的i行合计数的合计数于1的卡方分布。
表2-5 两种培养基的结果
2.7.2 计算方法
2.7.3 程序
在SAS第6.10版以后，在proc freq 中tables语句中加入了agree选项作McNemar检验。本例程序如下：
[ 程序2-2 ]
data culture; input a $ b $ count; cards; y y 36 y n 34 ny0 n n 135 ；
一. 概述
分析策略
分类数据分析策略可以分成假设检验和建立模型。 1.假设检验法是建立一个关于联系（association）的假设。通常研究用随机化的方法进行。
例如：
把病人随机分成两组，检验组别与疗效之间（列联表的行与列之间）是否有关。这种联系的无效假设为变量间没有联系，而备择假设一般有3种情况：
大于30时近似服从自由度等
Mantel-Haenszel方法，消除了层次因素的干扰而提高了检出关联的把握度。
当各层次的阳性率的方向一致时，如每层的治愈率都是试验组高于对照组，则QMH检验效果很好。如果各层的方向不一致则可能检验不出其关联。
3.2.4 程序
[ 程序3-1]
data park2; input center treat $ response $ count @@; cards;
1 test y 12 1 test n 18 1 placebo y 15 1 placebo n 15 2 test y 31 2 test n 9 3 placebo y 34 2 placebo n 6 3 test y 16 3 test n 14 3 placebo y 15 3 placebo n 15 ；
表2-2 两组有效率的比较
则每一格出现数据为的概率为：
如上例江剪刀草组无效（263例）的期望值为：方差：本例：样本足够大时近似正太分布，由此得：
结论为两组疗效不同。
2.2.2 Pearson 卡方——Qp
Pearson 卡方即一般常用的。
这一公式即一般习惯用的：
计算Pearson卡方先要计算出4个期望值，一个已算出为239.87。其他则可由合计值减出。
Mantel-Haenszel 与Pearson 的关系如下： =
本例： =
2.2.3 SAS 程序
[ 程序2-1 ]
data bronchit; input treat $ outcome $ count; cards; jiang y 70 jiang n 263 dan y 102 dan n 180 ; proc freq order = data; weight count; tables treat * outcome/chisq;
proc freq order = data; weight count; tables center * treat * response/chisq CMH; runBiblioteka Baidu tables语句中要把需要校正的因素，即center放在最前面，CMH选项可输出Mantel-Haenszel统计量。
3.2.5 输出
run;
检验结果：
STATISTICS FOR TABLE OF TREAT BY OUTCOME
表中各列依次为统计量、自由度（DF）、卡方值及P值。
2.7 配对资料四格表
2.7.1 例2.3
205份标本分别接种于甲、乙两种培养基，共有4种结果，即甲、乙都生长；甲生长乙不生长，乙生长甲不生长及甲、乙都不生长。试比较两种培养基的效果，结果如表2-5 ：
三. 多层 2×2 表
3.1 概述
在医学研究中经常遇到分层研究，如果每个层都有一个2×2表，则有多个2×2表（sets of 2×2 table）。例如在多中心临床试验中，每个医院随机地把病人分为试验组和对照组，疗效为有效和无效，则每个医院的数据形成了一个2×2表数据。
3.2 Mantel-Haenszel 检验
二 . 2×2 表
临床试验实例例2.1 在研究老年慢性支气管炎的中草药疗效时，将病人随机分配到江剪刀草组和胆麻片组。结果疗效如下表所示：
表2-1 两组有效率的比较
这是2.1中提到的第一种情况。根据无效假设，数据为超几何分布。
2.2.1 Mantel-Haenszel 卡方——Q 如果用以下符号表示表2-1中的数据