SAS-属性数据分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
死亡人数限为1555,划归两类城市 水硬度设定39,划归硬度高低两类城 市;进一步做列联表分析 /chisq 添加卡方独立性检验选项 tables后指定行变量和列变量,两者 用星号分开。
上海Βιβλιοθήκη Baidu经大学统管院
数据集water-mortal与hardness关联分析
上海财经大学统管院
Sandflies
25 5
3 50
上海财经大学统管院
Kappa统计量(一致性检验)
data x_ray; input radiologist_1 $ radiologist_2 $ count; datalines; no no 25 no yes 3 yes no 5 yes yes 50 ; proc freq data=x_ray; title ‘ computing coefficient kappa for two observers’; tables radiologist_1*radiologist_2 / agree; weight count; 由结果,kappa统计量为0.7881, run; 表示中等的一致性程度。
定性数据分析
• 数据描述
沙蝇低空和高空捕捉数与雌雄关系、槐蚁入侵与槐树品种关系、 机器不同方位活塞环失效数与方位关系、血凝块病人控制前后 是否继续口服某药物研究、印度不同地区口腔疾病分布研究和 支气管炎与空气颗粒含量关系研究。
• 问题提出
列变量和行变量是否具有关联性?(Association)
• 方法描述--列联表分析
配对样本的McNemar检验
假设我们想知道禁烟广告对人们吸烟态度影响有多大 ,先调查100个测试者对吸烟的态度(支持或反对),然后 给他们播放禁烟广告,再次询问他们对吸烟的态度。因为同 一个测试者在两种不同条件下(看广告前和广告后)对同一 个问题做出的两次回答,所以这个实验叫做配对实验设计。 由于数据之间并不独立,不能采取卡方检验,这里只能采用 配对样本的McNemar检验。
稀疏性列联表做精确性fisher检验,对于2×2 列联表默认做Fisher检验,而超过2×2的 上海财经大学统管院 表需要添加exact选项。
Oral Cancers
上海财经大学统管院
Particulates and Bronchitis
data bronchitis; proc freq data=bronchitis input agegrp level $ bronch $ n; order=data; datalines; tables agegrp*level*bronch / cmh noprint; 1 H Y 20 weight n; 1 H N 382 run; 1LY9 注:做Cochran-Mantel-Haenszel检验 1 L N 214 表 - level * bronch 2 H Y 10 2 H N 172 2LY7 2 L N 120 3 H Y 12 3 H N 327 3LY6 3 L N 183 ; level bronch 频数 |Y |N | 合计 --------+--------+--------+ H | 42 | 881 | 923 --------+--------+--------+ L | 22 | 517 | 539 --------+--------+--------+ 合计 64 1398 1462
添加格子的期望数输出选项
上海财经大学统管院
Acacia Ants
上海财经大学统管院
Piston Rings
data pistons; input machine site $ n; proc freq data=pistons order=data; datalines; tables machine*site / chisq deviation cellchi2 1 North 17 norow nocol nopercent; 1 Centre 17 weight n; 1 South 12 run; 2 North 11 注:order选项为按照数据录入的顺序排序,一般按字 2 Centre 9 母或数字顺序排序。 2 South 13 norow,nocol,nopercent:不输出对应的信息,压缩输 3 North 11 出结果 3 Centre 8 deviation:输出格子估计的残差 3 South 19 cellchi2:输出格子贡献的卡方值 4 North 14 4 Centre 7 4 South 28 ; 上海财经大学统管院 run;
假设检验:
H0:列变量与行变量独立 H1:存在关联
上海财经大学统管院
数据归类处理-以water为例
data water; /* Chapter 3 */ set water; /* having created the water data set as above for chapter 2 */ mortgrp=mortal > 1555; hardgrp=hardness > 39; run; proc freq data=water; tables mortgrp*hardgrp /chisq; run;
riskdiff计算行变量各类比重差-(基 于二项分布)此处计算雌蝇和雄 蝇在低空和高空所占比重是否有 差异的检验。 使用weight语句表示重复数的变量为 n。如果为原始基本情况的数据, 则不需要weight语句。
上海财经大学统管院
Sandflies
上海财经大学统管院
Sandflies
上海财经大学统管院
Piston rings
上海财经大学统管院
Oral Contraceptives
data the_pill; input caseuse $ contruse $ n; datalines; Y Y 10 Y N 57 N Y 13 N N 95 ; run;
proc freq data=the_pill order=data; tables caseuse*contruse / agree; 输出McNemar检验 weight n; run;
数据集 之后(after) 反对 之前 (before) 反对(Negative) 支持(Positive) 32 30 支持 15 23
上海财经大学统管院
配对样本的McNemar检验
数据步: Data mcnemar; input before $ after $ n; Datalines; 过程步: Proc freq data=mcnemar; p p 23 Title ‘McNemar’s test for paired samples’; p n 30 Tables before*after /agree; n n 32 Weight n; n p 15 Run; ; 输出结果: run; McNemar卡方统计量为5.0,相应p值为0.0253,可 以认为禁烟广告有助于改变人们对吸烟的态度。
data sandflies; input sex $ height n; datalines; m 3 173 m 35 125 f 3 150 f 35 73 ; run; proc freq data=sandflies; tables sex*height /chisq riskdiff; weight n; run; 按雌雄、捕捉高度和捕捉数目录入
2
数据描述与问题提出
不同高度捕捉到沙蝇雌 雄数是否有差异?
刺槐品种与蚂蚁的 入侵率是否有关
印度各地区口腔病分布是否不同
压缩机的不同方向掉落 的活塞环是否不同?
口服避孕药与患血凝 块病是否有关?
支气管炎是否与大气有机颗粒含量有关 上海财经大学统管院
统计分析
列联表分析:
大样本:卡方检验 小样本:Fisher精确检验, McNemar检验 高维: Cochran-Mantel-Haenszel检验
Acacia Ants
data ants; input species $ invaded $ n; datalines; A no 2 A yes 13 B no 10 B yes 3 ; run; proc freq data=ants; tables species*invaded / chisq expected; weight n; run; 刺槐(A 或B),是否被蚁群侵入, 侵入的种群数目
FREQ(频数)过程--频数表是变量取值分布的描述
PROC FREQ DATA=数据集名; TABLES 变量; RUN;
一般是分类变量
PROC FREQ DATA=数据集名; TABLES 变量*变量 变量*变量 . . ./ nocol norow nocum nofreq nopercent missing list out=数据集 outpct ; WETGHT 变量名; BY 变量名; RUN;
上海财经大学统管院
卡方独立性检验、Fisher精确性检验、McNemar检验(配对数据) 和高维列联表Cochran-Mantel-Haenszel检验
• SAS分析
freq过程—频数过程
• 参考资料
1. 2. 王静龙,梁小筠. 定性数据分析,华东师范大学出版社,2005 张尧庭 译 离散多元分析:理论与实践,中国统计出版社,1998 上海财经大学统计与管理学院 版权所有:吴纯杰
上海财经大学统管院
Particulates and Bronchitis
level 频数
bronch |Y |N
| 合计
--------+--------+--------+ H | 42 | 881 | 923 --------+--------+--------+ L | 22 | 517 | 539 --------+--------+--------+ 上海财经大学统管院 合计 64 1398 1462
上海财经大学统管院
Kappa统计量(一致性检验)
Tables语句Agree选项另一种用法是计算Kappa统计量, 该统计量一般用于测量两个评分者之间的一致性。假如, 想要知道放射科医生用X光评估恶性肿瘤的精确性有多高 。一种方法是让两个放射科医生(radiologist)分别对一 系列X光片进行评估,给出阳性或阴性的诊断。下面我们 用两个医生对83个X光片诊断结果作为例子。
上海财经大学统管院
Oral Contraceptives
上海财经大学统管院
Oral caners
data lesions; length region $8.; input site $ 1-16 n1 n2 n3; region='Keral'; n=n1; output; region='Gujarat'; n=n2; output; region='Anhara'; n=n3; output; drop n1-n3; datalines; Buccal Mucosa 8 1 8 Labial Mucosa 0 1 0 Commissure 0 1 0 Gingiva 0 1 0 Hard palate 0 1 0 Soft palate 0 1 0 Tongue 0 1 0 Floor of mouth 1 0 1 Alveolar ridge 1 0 1 ; run; proc freq data=lesions order=data; tables site*region /exact; weight n; run;