sas考题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.正态性检验会写代码,读懂输出
Proc univariate data=数据集名normal;run;
Pr < W 0.3072〉0.05落在接受域,接受原假设,原假设为服从正态分布。
2.聚类分析干啥用有哪些检验,输出看,原假设是啥样。Cluster过程样本聚类q聚类
分几类合适
写代码,由输出判断分几类,说明理由,看例子。快速聚类不看
method=average|ward|centroid|single|complete|median|flexible|mcquitty(分别指类平均法,ward 法,重心法,最短距离法,最长距离法,中间距离法,可变法,可变类平均法)
proc cluster data=consume method=average std(为消除聚类变量不同量纲对聚类分析的影响,可在cluster过程中用选项‘std’将原始数据标准化为零均值,单位方差然后cluster过程从标准化数据入手进行聚类分析)rsquare(输出r方和半偏r方统计量,R^2值越大越好,说明k个类区分得越开,对聚类分析问题来说就是聚类效果越好。半偏R^2的值是上一步r方与该步r方值的差值,半偏r方统计量可以用来衡量一次并类效果,若某步半偏r方值较大,说明本次并类效果不好,应当考虑是否聚类过程该到上一步停止。仅对average,centriod 法有效)pseudo(输出伪F和伪t方统计量,伪F统计量值越大,表示n个样本为k个类的分类效果越好,伪t方统计量值较大,本次并类效果不好,应考虑是否聚类过程到上一步停止。仅对average,centriod,ward法有效)
outtree=ocons1生成一个输出数据集,储存cluster过程的聚类历史,可被tree过程调用
p=8(指定cluster history显示的分类数);
var x1-x3; id area; run;
proc tree data=ocons horizontal(要求tree过程画水平的谱系聚类图,缺省画竖直聚类图)ncl=99(指定最终分类数为99)out=resulta vaxis=axis1 maxheight=99(指定坐标轴最大值) page=1;
axis1label=(angle=-90rotate=90);
copy x1-x3; run;
data consume;
input class$ group$ x1-x6;
cards;
Beijing 北京190.33 43.77 9.73 60.54 49.01 9.04
tianjin 天津135.20 36.40 10.47 44.16 36.49 3.94
hebei 河北95.21 22.83 9.30 22.44 22.81 2.80
shanxi 山西104.78 25.11 6.40 9.89 18.17 3.25
neimeng 内蒙128.41 27.63 8.94 12.58 23.99 3.27
laoning 辽宁145.68 32.83 17.79 27.29 39.09 3.47
jilin 吉林159.37 33.38 18.37 11.81 25.29 5.22
heilong 黑龙江116.22 29.57 13.24 13.76 21.75 6.04
shangha 上海221.11 38.64 12.53 115.65 50.82 5.89
jiangsu 江苏144.98 29.12 11.67 42.60 27.30 5.74
zejiang 浙江169.92 32.75 12.72 47.12 34.35 5.00
anhui 安徽153.11 23.09 15.62 23.54 18.18 6.39
fujian 福建144.92 21.26 16.96 19.52 21.75 6.73
Jiangxi 江西140.54 21.50 17.64 19.19 15.97 4.94
sandong 山东115.84 30.26 12.20 33.61 33.77 3.85
henan 河南101.18 23.26 8.46 20.20 20.50 4.30
;
proc cluster data=consume method=average standard rsquare pseudo outtree=ocons;
var x1-x6; id group; run;
proc tree data=ocons horizontal ncl=4 out=resulta; run;
proc cluster data=consume method=ward std nonorm rsquare pseudo outtree=ocons1 p=5;
var x1-x6; id group; run;
proc tree data=ocons1 horizontal ncl=4 out=resultb; run;
proc printdata=resulta; run;
proc print data=resultb; run;
聚类分析是研究对样品进行分类的一种多元统计方法,不知样品应分几类,建立一种归类准则,按归类准则把样品分类,并确定合理的分类数
系统聚类方法:按类间距离最小原则,将类间距离最近的两类合并成一类,并计算新类与其它类之间的距离,得到新的类间距离阵,对新类间距离阵重复此步骤,直到所有样品合并成为一类为止
3.判别分析,stepdisc逐步判别discrim ,要服从正态分布。,非正态分布例子
判别函数写出来,例子中有。80%以上
判别分析是判断样本所属类别的一种统计方法。
Discrim 过程中Tsscp wsscp psscp bsscp tcov wcov pcov总叉积阵组内叉积阵,合并的组内叉积阵,组间叉积阵,总样本协差阵,组内样本协差阵,合并样本协差阵
①discrim过程
proc discrim data=data1 testdata=data2method=normal|npar pool=test|yes|no (slpool=p(=0.1))
outstat=dataname1 out=dataname2 outcross=dataname3