判别分析例题及SAS程序

合集下载

SAS典型判别过程

SAS典型判别过程

典型判别分析SAS/STAT/Candisc 过程典型判别分析的思路从几何的概念来说,是将高维空间的样本点投影到低维空间,利用低维空间的变量做判别分析,从而使分析更加直观,即对原始数据进行坐标变换,寻求能使总体尽可能分开的方向。

从代数的概念来说,就是根据一个分类变量和几个定量变量,通过典型判别过程得出典型变量,典型变量是定量变量的线性组合。

典型判别分析得出与组有最大可能多重相关的变量的线性组合,最大的多重相关叫做第一典型相关,其线性组合称为第一典型变量1u ,线性组合的相关系数称为典型系数,次大的叫做第二典型相关,其线性组合称为第二典型变量2u 。

Candisc 过程可使用的语句为:数据集选项:DATA=SAS-data-set (SAS 数据集):指定欲分析的数据集。

OUT=SAS-data-set (SAS 数据集):生成一个包含原始数据和典型变量得分的数据集。

OUTSTAT=SAS-data-set (SAS 数据集):生成一个type=corr 包含各种统计量的输出数据集。

典型变量选项:NCAN=n :指定将被计算的典型变量的个数。

n 的值必须小于或等于变量的个数。

u 能使总体单位打印选项:BCORR:类间相关系数。

PCORR:合并类内相关系数。

TCORR全样本相关系数。

WCORR每一类水平的类内相关系数。

BCOV:类间协方差。

PCOV:合并类内协方差。

TCOV:全样本协方差。

WCOV:每一类水平的类内协方差。

BSSCP:类间SSCP矩阵。

PSSCP:合并类内修正SSCP矩阵。

TSSCP:全样本修正SSCP矩阵。

WSSCP:每一类水平的类内修正SSCP矩阵。

ANOVA:检验总体中每一个变量类均值相等的假设的单变量统计量。

SIMPLE:全样本合类内的简单描述性统计量。

ALL:产生以上所有的打印选项。

NOPRINT:不打印。

一般语句By variables;By语句与Proc candisc一起使用可以对由BY变量分组的观测进行独立分析。

主成分分析、判别分析、聚类分析sas程序

主成分分析、判别分析、聚类分析sas程序

一、主成分分析1、数据引入PROC IMPORT OUT= WORK.shuruDA TAFILE= "E:\****\****\数据分析\试验\shouru.xls"DBMS=EXCEL2000 REPLACE;GETNAMES=YES;RUN;2、程序proc princomp data=shouru out=defen;var x1-x9;run;proc sort data=defen;by prin1 prin2;run;proc print data=defen;run;二、判别分析程序2.2方法1:先改变shuru 数据的结构,把待判的数据去掉,再引入数据data shouru1;input diqu $ x1-x9;cards;广东211.3 114 41.44 33.2 11.2 48.72 30.77 14.9 11.1西藏175.93 163.8 57.89 4.22 3.37 17.81 82.32 15.7 0;run;proc discrim data=shourutestdata=shouru1 method=normallist all crosslist testlist;class leixing;var x1-x9;run;方法2:原shuru数据不变,直接判别,但此法虽可判断待判的两省属于那类,但无法给出误判率;proc discrim data=shouruout=a1outstat=a2 outcross=a3method=normallist all crosslist testlist;class leixing;var x1-x9;run;程序2.3proc discrim data=shourutestdata=shouru1 method=normallist all crosslist crossvalidate testlist;class leixing;var x1-x9;priors prop;run;三、聚类分析程序proc cluster data=yjshr method=sin outtree=y1 ;/*最短距离法*/ var x1-x9;run;proc tree data=y1 nclusters=3 out=z1;run;proc print data=z1;run;proc cluster data=yjshr method=com outtree=y2 ;/*最长距离法*/ var x1-x9;run;proc tree data=y2 nclusters=3 out=z2;run;proc print data=z2;run;proc cluster data=yjshr method=ave outtree=y3 ;/*类平均距离法*/ var x1-x9;run;proc tree data=y3 nclusters=3 out=z3;run;proc print data=z3;run;proc fastclus data=yjshr out=a1maxc=3 cluster=c distance list; /*快速聚类分三类情况*/ proc plot;plot x2*x1=c;run;。

SPSS操作方法:判别分析例题

SPSS操作方法:判别分析例题

实验指导之二判别分析的SPSS软件的基本操作[实验例题]为研究1991年中国城镇居民月平均收入状况,按标准化欧氏平方距离、离差平方和聚类方法将30个省、市、自治区.分为三种类型。

试建立判别函数,判定广东、西藏分别属于哪个收入类型。

判别指标及原始数据见表9-4。

1991年30个省、市、自治区城镇居民月平均收人数据表单位:元/人 x1:人均生活费收入 x6:人均各种奖金、超额工资(国有+集体) x2:人均国有经济单位职工工资 x7:人均各种津贴(国有+集体)x3:人均来源于国有经济单位标准工资 x8:人均从工作单位得到的其他收入x4:人均集体所有制工资收入 x9:个体劳动者收入x5:人均集体所有制职工标准工资贝叶斯判别的SPSS操作方法:1. 建立数据文件2.单击Analyze→Classify→Discriminant,打开Discriminant Analysis判别分析对话框如图1所示:图1 Discriminant Analysis判别分析对话框3.从对话框左侧的变量列表中选中进行判别分析的有关变量x1~x9进入Independents 框,作为判别分析的基础数据变量。

从对话框左侧的变量列表中选分组变量Group进入Grouping Variable 框,并点击Define Range...钮,在打开的Discriminant Analysis: Define Range 对话框中,定义判别原始数据的类别数,由于原始数据分为3类,则在Minimum(最小值)处输入1,在Maximum(最大值)处输入3(见图2)。

选择后点击Continue按钮返回Discriminant Analysis主对话框。

图2 Define Range对话框4、选择分析方法✧Enter independent together 所有变量全部参与判别分析(系统默认)。

本例选择此项。

✧Use stepwise method 采用逐步判别法自动筛选变量。

SAS系统的判别分析和逐步判别分析

SAS系统的判别分析和逐步判别分析
8.2864.348.0022.2220.0615.120.7222.89
12.4776.395.5211.2414.5222.005.4625.50
;
proc discrim data=consum testdata=consumdis testlist;
class type;
var x1-x8;
6.98
0.0140
1.0000
x5
0.0153
0.39
0.5389
1.0000
x6
0.2706
9.28
0.0054
1.0000
x7
0.0392
1.02
0.3223
1.0000
x8
0.3524
13.61
0.0011
1.0000
将输入变量x2。
已输入的变量
x2
多元统计量
统计量

F值
分子自由度
分母自由度
run;
具体操作
SAS系统
STEPDISC过程
选择变量的方法为STEPWISE
总样本大小
27
分析中的变量
8
分类水平
2
将包括的变量
0
输入变量的显著性水平
0.15
保留变量的显著性水平
0.15
读取的观测数
27
使用的观测数
27
分类水平信息
type
变量
名称
频数
权重
比例
1
_1
20
20.0000
0.740741
2
20
74.07
7
25.93
27
100.00
先验

《SAS中判别分析》课件

《SAS中判别分析》课件

II. 判别分析的扩展方法
针对非线性数据,可以使用核判别分析和支持向量 机等方法进行扩展和改进。
总结
1 判别分析的应用前景
随着大数据时代的到来, 判别分析在各个领域的应 用前景越来越广泛。
2 判别分析的优缺点
判别分析具有高效性和解 释性,但对数据假设敏感 且对异常值敏感。
3 判别分析的发展趋势
判别分析将结合机器学习 和深度学习等技术,实现 更精准和自动化的分类本原理
通过寻找最佳的线性组合,将数据映射到一条直线, 实现不同类别的最大可分性。
模型假设
假设数据符合多元正态分布,各个类别具有相同协 方差矩阵。
模型求解
通过最大化类间散布矩阵与类内散布矩阵的比值, 计算得到判别函数。
II. 二次判别分析
基本原理
通过寻找最佳的二次曲面,将数据映射到一个超曲 面,实现不同类别的最大可分性。
判别分析的输出结果
分类变量分布情况
统计每个类别的频数和百分比,分析不同类别 的样本分布情况。
判别函数
通过判别函数将样本映射到不同类别,得出分 类结果。
变量的判别能力
计算每个变量对判别的贡献程度,评估变量在 判别中的重要性。
判别分析案例分析
使用实际数据案例演示判别分析的过程和解读 结果的方法。
判别分析的评价方法
模型假设
假设数据符合多元正态分布,各个类别具有不同协 方差矩阵。
模型求解
通过最大化类间散布矩阵与类内散布矩阵的比值, 计算得到判别函数。
SAS中的判别分析
1 判别分析的数据准备
将数据整理成样本矩阵形式,包含自变量和分类变量。
2 使用PROC DISCRIM分析数据
通过PROC DISCRIM过程进行判别分析,可以预定义分类变量、自动选择变量或指定变量。

SASdiscrim 距离判别和贝叶斯判别法

SASdiscrim 距离判别和贝叶斯判别法

距离判别和贝叶斯判别法SAS/STAT (DISCRIM )过程部分语句说明一、 D ISCRIM 过程语句SAS/STAT (DISCRIM )产生线性判别函数并进行分类,主要的语句如下:二、程序实例及解释例:某年为了研究某年全国各地农民家庭收支的分布情况,对全国28个地区进行了抽样调查。

食品1x ,衣着2x ,燃料3x ,住房4x ,生活用品及其他5x 和文化服务支出6x 。

data a;input type x1-x6;cards;数据行;run;data b;input x1-x6; cards;190.33 43.77 9.73 60.54 49.01 9.04 221.11 38.64 12.53 115.65 50.82 5.89 182.55 20.52 18.32 42.40 36.97 11.68 ;PROC DISCRIM DATA=a TESTDATA=b out=c crossvalidate method=normal TESTLIST testout=d; priors proportional; CLASS TYPE; VAR x3 x5 x6; proc print data=d; RUN;PROC DISCRIM DATA=a 指定对数据集a 中的数据进行判别分析; TESTDATA=b 指定欲分类观测的样品所在的数据集;crossvalidate 要求做交叉核实。

交叉核实的想法是,为了判断对观测i 的判别正确与否,用删除第method=normal 或npar 确定导出分类准则的方法,却上缺省值为method=normal 。

当指定method=normal 时,基于类内服从多员正态分布,并产生的判别函数是线性函数或二次判别函数; ALL 规定打印出所有的结果;TESTLIST 规定列出TESTDATA=b 中的全部的分类结果;testout=d 生成一个新的数据集,该数据集包括TESTDATA=b 中的所有数据,后验概率和每个样品被分的类。

SAS数据分析应用实例及相关程序DOC

SAS数据分析应用实例及相关程序DOC

SAS数据分析应用实例及相关程序正态性检验及T检验【例1】已知玉米单交种群105的平均穗重为300g。

喷药后,随机抽取9个果穗,其穗重分别为:308,305,311,298,315,300,321,294,320g。

问喷药后与喷药前的果穗平均重量之间的差别是否具有统计学意义?2.配对T检验【例2】对血小板活化模型大鼠以ASA进行实验性治疗,以血浆TXB2(ng/L)为指标,其结果如表2-1,试进行统计分析。

表2-1 2的变化(ng/L)3. 秩和检验【例3】探讨正己烷职业接触人群生化指标特征,用气相色谱法检测受检者尿液2,5-己二酮浓度(mg/L),为该人群的健康监护寻找动态观察依据。

正己烷职业接触组(A组)为广州市印刷行业彩印操作位作业人员64 人,其均在同一个大的车间轮班工作,工作强度相当;对照组(B组)选同厂其他车间工人53 人。

两组人员除接触正己烷因素不同外,生活水平、生活习惯、劳动强度、吸烟、饮酒情况基本相同。

问两组间尿液中2,5-己二酮浓度(mg/L)平均含量之间的差别是否有统计学意义?数据如下所示。

正己烷职业接触组:2.89、1.85、2.27、2.07、1.62、1.77、2.53、2.02、2.07、2.07、1.93、3.01、1.93、1.88、1.55、1.36、2.23、2.55、1.73、2.65、1.95、2.45、1.41、2.46、2.38、1.55、2.16、2.01、1.37、2.16、2.00、2.07、2.57、2.11、2.37、1.39、2.18、2.33、1.46、2.16、2.03、2.96、2.21、2.00、2.58、2.19、2.41、1.68、1.93、1.93、1.93、1.87、1.74、2.70、1.83、2.17、2.52、2.09、2.28、1.65、1.19、1.58、0.89、1.65对照组:0.27、0.36、0.26、0.16、0.49、0.58、0.16、0.45、0.22、0.25、0.66、0.05、0.31、0.12、0.51、0.30、0.37、0.14、0.28、0.33、0.36、0.51、0.37、0.36、0.47、0.34、0.72、0.39、0.55、0.17、0.27、0.33、0.30、0.26、0.50、0.17、0.22、0.18、0.17、0.62、0.27、0.26、0.34、0.17、0.61、0.42、0.39、0.28、0.36、0.43、0.24、0.15、0.194.两独立正态总体的检验【例4】一个小麦新品种经过6代选育,从第5代(A组)中抽出10株,株高为:66、65、66、68、62、65、63、66、68、62(cm),又从第6代(B组)中抽出10株,株高为:64、61、57、65、65、63、62、63、64、60(cm),问株高性状是否已经达到稳定?5.单因素K(K≥3)水平方差分析【例5】从津丰小麦4个品系中分别随机抽取10株,测量其株高(cm),数据如下所示,问不同品系津丰小麦的平均株高之间的差别是否具有统计学意义?品系0-3-1:63、65、64、65、61、68、65、65、63、64品系0-3-2:56、54、58、57、57、57、60、59、63、62品系0-3-3:61、61、67、62、62、60、67、66、63、65品系0-3-4:53、58、60、56、55、60、59、61、60、596. 双因素无重复试验的方差分析【例6】某医生欲研究回心草各单体成分对试验性心肌缺血血流动力学的影响,选取健康新西兰家兔若干只,体重(2.0±0.3)kg,雌雄不计,将其随机分成9组:胡椒碱高剂量组(100nmol/L)、胡椒碱中剂量组(10nmol/L)、胡椒碱低剂量组(1nmol/L)、胡椒酸甲酯高剂量组(100nmol/L)、胡椒酸甲酯中剂量组(10nmol/L)、胡椒酸甲酯低剂量组(1nmol/L)、咖啡酸甲酯高剂量组(100nmol/L)、咖啡酸甲酯中剂量组(10nmol/L)、咖啡酸甲酯低剂量组(1nmol/L)。

SAS例题及程序输出2

SAS例题及程序输出2

已知某研究对象分为三类,每个样品考察4项指标,各类的观测样品数分别为7,4,6;类外还有3个待判样品(所有观测数据见表2)。

假定样本均来自正态总体。

表2 判别分类的数据(1)试用马氏距离判别法进行判别分析,并对3个待判样品进行判别归类。

(2)使用其他的判别法进行判别分析,并对3个待判样品进行判别归类,然后比较之。

问题求解1判别分析及判别归类使用SAS软件中的DISCRIM过程进行判别归类,SAS程序及结果如下。

data d510;input x1-x4 group @@;cards;6 -11.5 19 90 1-11 -18.5 25 -36 390.2 -17 17 3 2-4 -15 13 54 10 -14 20 35 20.5 -11.5 19 37 3-10 -19 21 -42 30 -23 5 -35 120 -22 8 -20 3-100 -21.4 7 -15 1-100 -21.5 15 -40 213 -17.2 18 2 2-5 -18.5 15 18 110 -18 14 50 1-8 -14 16 56 10.6 -13 26 21 3-40 -20 22 -50 3-8 -14 16 56 .92.2 -17 18 3 .-14 -18.5 25 -36 .;proc print;run;proc discrim data=d510 simple pcov wsscp psscp wcovdistance list;class group;var x1-x4;run;从结果来看,样本2、3类之间的马氏距离为d 212=1.34,检验(2)(3)0:H μμ= 的F 统计量为0.63177,相应的p =0.651>0.10,故在显著性水平=0.10α时量总体2、3类的均值向量没有显著差异,即认为对讨论样本分为2、3类的判别问题是没有太大意义的。

此外,判别结果中两个样本被判错归类:1类中8号样本应属于2类,2类中9号样本应属于1类;且待判得三个样本分别属于1,2,3类。

判别分析实验报告SPSS

判别分析实验报告SPSS

一、实验目的及要求:1、目的用SPSS软件实现判别分析及其应用。

2、内容及要求用SPSS对实验数据利用Fisher判别法和贝叶斯判别法,建立判别函数并判定宿州、广安等13个地级市分别属于哪个管理水平类型。

二、仪器用具:三、实验方法与步骤:准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS 数据文件中,同时,由于只有当被解释变量是属性变量而解释变量是度量变量时,判别分析才适用,所以将城市管理的7个效率指数变量的变量类型改为“数值(N)”,度量标准改为“度量(S)”,以备接下来的分析。

四、实验结果与数据处理:表1 组均值的均等性的检验Wilks 的Lambda F df1 df2 Sig.综合效率标准指数.582 23.022 2 64 .000 经济效率标准指数.406 46.903 2 64 .000 结构效率标准指数.954 1.560 2 64 .218 社会效率标准指数.796 8.225 2 64 .001 人员效率标准指数.342 61.645 2 64 .000 发展效率标准指数.308 71.850 2 64 .000 环境效率标准指数.913 3.054 2 64 .054表1是对各组均值是否相等的检验,由该表可以看出,在0.05的显著性水平上我们不能拒绝结构效率标准指数和环境效率标准指数在三组的均值相等的假设,即认为除了结构效率标准指数和环境效率标准指数外,其余五个标准指数在三组的均值是有显著差异的。

表2 对数行列式group 秩对数行列式1 6 -33.4102 6 -33.1773 6 -40.584汇聚的组内 6 -32.308 打印的行列式的秩和自然对数是组协方差矩阵的秩和自然对数。

表3 检验结果箱的M 140.196F 近似。

2.498df1 42df2 1990.001Sig. .000 对相等总体协方差矩阵的零假设进行检验。

以上是对各组协方差矩阵是否相等的Box’M检验,表2反映协方差矩阵的秩和行列式的对数值。

某实验报告材料八-SAS聚类分析报告与判别分析报告

某实验报告材料八-SAS聚类分析报告与判别分析报告

实验报告实验项目名称聚类分析与判别分析所属课程名称统计分析及SAS实现实验类型验证性实验实验日期2016-12-19班级数学与应用数学学号姓名成绩图8.1 聚类谱系图图8.1为proc cluster过程不得出的谱系图,为更方便直观,我们利用proc tree过程步得出图8.2。

②利用proc tree过程步得出聚类谱系图。

过程步:proc tree data=Lmf.tree1 horizontal;id region;run;结果:The TREE ProcedureWard's Minimum Variance Cluster Analysis图8.2 聚类谱系图由表8.2、图8.2得出,分为三类较合适,第一类为北京、天津、上海,第二类为河北、山东、河南、内蒙、江苏、浙江、山西、湖北、四川、福建、江西、湖南、海南、广东、新疆、广西、吉林、黑龙江、辽宁、陕西,第三类为安徽、宁夏、贵州、云南、甘肃、青海、西藏。

【练习8-2】有6个铅弹头,用“中子活化”方法测得7种微量元素含量数据。

表 7种微量元素含量数据Num Ag Al Cu Ca Sb Bi Sn10.05798 5.515347.121.918586174261.6920.08441 3.97347.219.7179472000244030.07217 1.15354.85 3.05238601445949740.1501 1.702307.515.0312290146163805 5.744 2.854229.69.657809912661252060.2130.7058240.313.91898028204135①试用多种系统聚类分析方法对6个铅弹头和7种微量元素进行分类,并进行分类结果。

②试用VARCLUS过程对7中微量元素进行分类。

【解答】①通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,对6个铅弹头进行分类。

判别分析的一般步骤及SPSS实现

判别分析的一般步骤及SPSS实现
比较三个值,可以看出第一个待判样品应该属于第三组。
判别分析的SPSS实现
表7.3 Bayes判别法的输出结果
C l as si fic ati on Fu ncti o n C oe ffi ci e n ts
GROUP
1.00
X1
-14 3.85 1
X2
15 3.13 6
6
2
2 1.000
.469 9.674
.231
7
2
2 1.000
.868 8.332 -.613
8
2
2 1.000
5.98 5 10 .1 28 -2.51 8
9
2
2 1.000
4.793 8.342 1.760
10
2
2 1.000
.101 9.491 -.145
11
3
3 1.000
.139 -6.687 -.394
Dist a nce t o Funct ion Funct ion
Cent roid
1
2
.297 -2.177 1.364
2
1
1 1.000
.236 -2.270 1.375
3
1
1 1.000
.117 -2.741 1.323
4
1
1 .998
.507 -3.199
.638
5
1
1 1.000
.418 -2.582
标准化的典型判别函数是由标准化的自变量通过Fisher判别法得到的,所以 要得到标准化的典型判别得分,代入该函数的自变量必须是经过标准化的。
2. Canonical Discriminant Function Coefficients(给出未标准化的典型判别 函数系数)

判别分析法(数学建模相关习题)

判别分析法(数学建模相关习题)
i 1
1 1 2 , a 1 1 2 2
W x a ' x
举例
2、μ1 ≠ μ2,∑1 ≠ ∑2
d 2 x,1 x 1 1 x 1
'
d 2 x, 2 x 2 1 x 2
化简
d 2 x, 1 d 2 x, 2 2 x
x 1 , 若d 2 x, 1 d 2 x, 2 x 2 , 若d 2 x, 1 d 2 x, 2
1 2
2
1 ' 1 2 2x a 2a x '
0.0784 0.0647 0.0197 0.0217 总体样本离差矩阵 s1 0.0647 0.1350 s2 0.0217 0.0389
平均协方差阵的估计ˆ V
0.0075 0.0066 1 s1 s2 0.0066 0.0134 n1 n2 2
1
2
例题:对28名一级和25名健将级标枪运动员测试了6个 影响标枪成绩的训练指标; 30米跑(x1)、 投小铅球( x2 )、 挺举重量( x3 )、
抛实心球( x4 )、前抛铅球( x5 )、 五级跳( x6 )。
编号 组别 x1
Hale Waihona Puke x24.30 4.10 : 4.20 4.00
4.30
x3
82.3 87.48 : 89.20 103.00
平均 y=0.9625x+0.6065 用它来判定发现不好 2、心型平分线 取Af和Apf的中心(1.41,1.80), (1.22,1.93),垂直平分线方程是 y=1.52576x-0.1485

实验3 判别分析指导

实验3 判别分析指导

实验项目三:判别分析实验指导一、实验目的:通过判别分析的实验教学,使学生熟悉判别分析问题的提出、解决问题的思路、方法和技能,会调用SAS 软件判别分析过程命令,根据计算机计算的结果,训练学生分析和解决判别分析问题的能力。

二、预备知识:解决判别分析问题的思路、理论方法和步骤。

三、实验内容:判别分析问题的数据。

四、实验仪器与材料:计算机与SAS 软件。

五、实验步骤:调用判别分析过程命令输入数据求得判别函数、回判结果、判别新样品类别(方法:贝叶斯判别法)。

六、结果的分析与应用(有关表图要有序号、中英文名、表的上下线为粗线、表的内线为细线、表的左右边不封口、表图不能跨页、表图旁不能留空块,引用结论要注明参考文献):1、给出判别函数系数表2、判别函数;2、给出回判结果分析表3、相应回判结果分析的文字说明; 3、给出新样品具体判别结果的表4、相应新样品具体判别结果的文字说明;4.实验程序。

七、布置判别分析实验作业(一星期内交)。

判别分析实验程序例:实验内容:判别分析问题的数据-人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。

该报告建议,目前对人文发展的衡量应当以人生的三大要素为重点,衡量人生三大要素的指标采用X 1-出生时的预期寿命、X 2-成人识字率和X 3-实际人均GDP ,将以上三个指标的数字合成一个复合指数,即为人文发展指数。

今从1995年世界各国人文发展指数的排序中,选取高发展水平、中等发展水平的国家各五 数据选自《世界经济统计研究》1996年第一期 个作为样品,另选4个国家作为待判样品作贝叶斯判别分析。

表1 人生三大要素指标数据实验仪器与材料:计算机与SAS 软件。

实验步骤:调用判别分析过程命令输入数据求得判别函数、回判结果、判别新样品类别(方法:贝叶斯判别法)。

结果的分析与应用调用判别分析过程命令输入数据求得表2-4. 从表2得判别函数:Y(1/x)=-323.21568+5.79107x 1+0.26498x 2+0.03407x 3Y(2/x)=-236.03823+5.14034x 1+0.2 5167x 2+0.02533x 3 从表3得相应回判结果:原各组样品回判判对率为100%,判别函数效果相当好。

聚类判别分析SPSS练习题

聚类判别分析SPSS练习题

聚类判别分析SPSS练习题1. 现有22名⽩⾎病病⼈的九种基因表达的cDNA微阵列扫描数据(X1~X9),根据X1~X9 的变量信息,对该22名⽩⾎病病⼈予以分类。

(具体数据见下表1)采⽤SPSS软件进⾏操作并回答以下问题:(个体聚类。

变量聚类)此题为个体聚类(1)采⽤什么分析⽅法?写出该⽅法在SPSS软件中的路径;聚类分析classify——hierarchical(2)该分析⽅法中采⽤什么统计指标进⾏度量的?个体聚类⽤⽤欧式距离平⽅。

距离越远就不可能聚类。

指标聚类⽤相关系数⼤⼩(3)根据结果中的什么图从⽽将该22名⽩⾎病病⼈分成3类?同时写出归为同⼀类的个体序号。

第⼀类8、21、1、4.第⼆类6、11 第三类剩下的《资料的表现形式是⽆序的、》聚类之后可以判别、、表1 ⽩⾎病⼈的九种基因表达序号X1X2X3X4X5X6X7X8X91 2.57403 2.53782 2.53403 2.12710 2.00000 2.00000 2.00000 2.53656 2.445602 2.87448 2.80686 2.88366 2.74036 2.00000 2.00000 2.30320 3.26623 3.432813 2.55991 2.00000 2.56820 2.00000 2.56348 2.00000 2.45637 2.98543 3.386504 2.65031 2.27646 2.37291 2.01703 2.00000 2.10721 2.00000 2.45637 2.586595 3.12352 2.53656 2.65128 2.34830 2.26482 2.17026 2.43775 3.15746 3.808956 3.14551 2.72263 3.02857 2.00000 3.18724 2.00000 2.85248 3.11327 3.178987 2.77452 2.01703 2.52504 2.22011 2.77452 2.00000 2.00000 2.83442 3.786118 3.05231 2.60097 2.43297 2.16435 2.31597 2.22789 2.65992 2.95182 2.000009 2.97497 2.34044 2.77452 2.35025 2.00000 2.00000 2.00000 2.87448 3.3163910 3.00817 2.81291 2.65992 2.00000 2.03743 2.00000 2.57519 3.02078 3.2195811 2.95617 2.88138 2.61700 2.00000 2.71600 2.00000 2.51188 3.00689 3.3442012 3.01578 2.41996 2.59879 2.22789 2.00000 2.29226 2.34439 2.80209 3.7668613 2.72263 2.41664 2.16137 2.00000 2.60314 2.00000 2.44716 2.87622 3.0751814 2.98046 2.99211 2.69810 2.00000 2.00000 2.16435 2.55751 2.96379 3.3546815 2.95665 2.41996 2.48430 2.00000 2.13354 2.00000 2.00000 2.72916 3.1711416 3.04297 2.37658 2.29885 2.36736 2.30750 2.00860 2.10380 2.78319 3.4026117 2.62221 2.54033 2.54777 2.00000 2.70329 2.00000 2.00000 2.65896 3.1309818 3.13481 2.00000 2.47129 2.08279 2.04139 2.46687 2.66087 2.79029 3.2953519 2.98767 2.47129 2.78032 2.00000 2.09691 2.00000 2.68931 2.77232 2.8561220 2.92993 2.30103 2.58659 2.03743 2.00000 2.02119 2.00000 2.79518 3.2372921 3.05231 2.60097 2.43297 2.16435 2.31597 2.22789 2.65992 2.95182 2.0000022 3.02325 2.83569 2.77525 2.61490 2.00000 2.00000 2.47857 3.46419 3.51322 2. 为明确诊断出⼩⼉肺炎三种类型, 某研究单位测得30名结核性、12名化脓性和18细菌性肺炎患⼉共60名的6项⽣理、⽣化指标(具体数据见下表2), 试进⾏判别分析。

SAS判别分析实验报告

SAS判别分析实验报告

判别分析一:实验目的通过实验掌握使用SAS进行判别分析的几种常用方法:距离判别,贝叶斯判别,费希尔判别。

二:实验内容1.用DISCRIM过程作贝叶斯判别。

2.用DISCRIM过程作费希尔判别。

三:程序代码及结果分析练习1(1)程序代码(2)结果及分析表1.1-对14名未定级运动员作贝叶斯判别表1.1 表明了在先验概率相同的前提下,对14名未定级运动员作贝叶斯判别的结果。

其中8,9,11,12,14均判给第二组,其余9个均判给第一组。

表1.2交叉验证法对误判概率作估计表1.2表明交叉验证法对误判概率做出的估计。

其中40,48号运用交叉验证法得出是误判的。

均是误判给了第一组。

而在全样品中是没有被误判的。

表1.3各组误判概率及平均误判概率表1.3表明把第一组误判的概率为0,将第二组误判给第一组的概率为0.08.平均误判概率为0.04..表1.4先验概率不同情况下的贝叶斯判别表1.4为在先验概率p1=0.8,p2=0.2的情况下运动员归属的判别。

其中9,11,12,14判给第二组,其余均判给第一组。

由表可以看出先验概率不同得到的判别是不同的。

例如第60号(第8个未定级)运动员判给了第一组,而在概率相同时时判给了第二组。

练习2(1)程序代码(2)结果及分析表2.1费希尔判别系数费希尔判别式为xxxxxxxxy87654321103687468.0195246015.0202200109.0420281838.1 00763493.0837675738.0369109646.0022344104.0-+++ --+=xxxxxxxxy876543212026966644.0235306430.0203863959.0039957871.1006017311.0386499597.0332405063.0045417606.0+++-++++-=表2.2判别式得分散点图表2.2中1代表通用牛奶厂商,2代表克罗格厂商,3代表夸克厂商。

6_SAS中判别分析 共32页

6_SAS中判别分析 共32页

练习一、书p213,5-9题。用距离判别法判断最后一行待判 数据含不含矿。实验报告只写结果是含矿,还是不含矿。
type cu
ag
bi
1 2.58
0.9 0.95
1
2.9 1.23
1
1 3.55 1.15
1
1 2.35 1.15 0.79
1 3.54 1.85 0.79
1
2.7 2.23
1.3
1
2.7
贝叶斯判别
书p192,表5.2,胃癌检验的生化指标
Obs group x1 x2 x3 x4
1 1 228 134 20 11 2 1 245 134 10 40 3 1 200 167 12 27 4 1 170 150 7 8 5 1 100 167 20 14 6 2 225 125 7 14 7 2 130 100 6 12 8 2 150 117 7 6 9 2 120 133 10 26 10 2 160 100 5 10 11 3 185 115 5 19 12 3 170 125 6 4 13 3 165 142 5 3 14 3 135 108 2 12 15 3 100 117 7 2
用SAS进行判别分析
距离判别 贝叶斯判别 典型判别(fisher判别) 逐步判别
距离判别
书p182,表5.1,盐泉的特征数值
Obs x1 x2 x3 x4 group
1 13.85 2.79 7.80 49.60 A 2 22.31 4.67 12.31 47.80 A 3 28.82 4.63 16.18 62.15 A 4 15.29 3.54 7.50 43.20 A 5 28.79 4.90 16.12 58.10 A 6 2.18 1.06 1.22 20.60 B 7 3.85 0.80 4.06 47.10 B 8 11.40 0.00 3.50 0.00 B 9 3.66 2.42 2.14 15.10 B 10 12.10 0.00 5.68 0.00 B 11 8.85 3.38 5.17 26.10 12 28.60 2.40 1.20 127.00 13 20.70 6.70 7.60 30.20 14 7.90 2.40 4.30 33.20 15 3.19 3.20 1.43 9.90 16 12.40 5.10 4.43 24.60 17 16.80 3.40 2.31 31.30 18 15.00 2.70 5.02 64.00

sas考题

sas考题

1.正态性检验会写代码,读懂输出Proc univariate data=数据集名normal;run;Pr < W 0.3072〉0.05落在接受域,接受原假设,原假设为服从正态分布。

2.聚类分析干啥用有哪些检验,输出看,原假设是啥样。

Cluster过程样本聚类q聚类分几类合适写代码,由输出判断分几类,说明理由,看例子。

快速聚类不看method=average|ward|centroid|single|complete|median|flexible|mcquitty(分别指类平均法,ward 法,重心法,最短距离法,最长距离法,中间距离法,可变法,可变类平均法)proc cluster data=consume method=average std(为消除聚类变量不同量纲对聚类分析的影响,可在cluster过程中用选项‘std’将原始数据标准化为零均值,单位方差然后cluster过程从标准化数据入手进行聚类分析)rsquare(输出r方和半偏r方统计量,R^2值越大越好,说明k个类区分得越开,对聚类分析问题来说就是聚类效果越好。

半偏R^2的值是上一步r方与该步r方值的差值,半偏r方统计量可以用来衡量一次并类效果,若某步半偏r方值较大,说明本次并类效果不好,应当考虑是否聚类过程该到上一步停止。

仅对average,centriod 法有效)pseudo(输出伪F和伪t方统计量,伪F统计量值越大,表示n个样本为k个类的分类效果越好,伪t方统计量值较大,本次并类效果不好,应考虑是否聚类过程到上一步停止。

仅对average,centriod,ward法有效)outtree=ocons1生成一个输出数据集,储存cluster过程的聚类历史,可被tree过程调用p=8(指定cluster history显示的分类数);var x1-x3; id area; run;proc tree data=ocons horizontal(要求tree过程画水平的谱系聚类图,缺省画竖直聚类图)ncl=99(指定最终分类数为99)out=resulta vaxis=axis1 maxheight=99(指定坐标轴最大值) page=1;axis1label=(angle=-90rotate=90);copy x1-x3; run;data consume;input class$ group$ x1-x6;cards;Beijing 北京190.33 43.77 9.73 60.54 49.01 9.04tianjin 天津135.20 36.40 10.47 44.16 36.49 3.94hebei 河北95.21 22.83 9.30 22.44 22.81 2.80shanxi 山西104.78 25.11 6.40 9.89 18.17 3.25neimeng 内蒙128.41 27.63 8.94 12.58 23.99 3.27laoning 辽宁145.68 32.83 17.79 27.29 39.09 3.47jilin 吉林159.37 33.38 18.37 11.81 25.29 5.22heilong 黑龙江116.22 29.57 13.24 13.76 21.75 6.04shangha 上海221.11 38.64 12.53 115.65 50.82 5.89jiangsu 江苏144.98 29.12 11.67 42.60 27.30 5.74zejiang 浙江169.92 32.75 12.72 47.12 34.35 5.00anhui 安徽153.11 23.09 15.62 23.54 18.18 6.39fujian 福建144.92 21.26 16.96 19.52 21.75 6.73Jiangxi 江西140.54 21.50 17.64 19.19 15.97 4.94sandong 山东115.84 30.26 12.20 33.61 33.77 3.85henan 河南101.18 23.26 8.46 20.20 20.50 4.30;proc cluster data=consume method=average standard rsquare pseudo outtree=ocons;var x1-x6; id group; run;proc tree data=ocons horizontal ncl=4 out=resulta; run;proc cluster data=consume method=ward std nonorm rsquare pseudo outtree=ocons1 p=5;var x1-x6; id group; run;proc tree data=ocons1 horizontal ncl=4 out=resultb; run;proc printdata=resulta; run;proc print data=resultb; run;聚类分析是研究对样品进行分类的一种多元统计方法,不知样品应分几类,建立一种归类准则,按归类准则把样品分类,并确定合理的分类数系统聚类方法:按类间距离最小原则,将类间距离最近的两类合并成一类,并计算新类与其它类之间的距离,得到新的类间距离阵,对新类间距离阵重复此步骤,直到所有样品合并成为一类为止3.判别分析,stepdisc逐步判别discrim ,要服从正态分布。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

判别分析例题某医院眼科研究糖尿病患者的视网膜病变情况, 视网膜病变分轻、中、重三型。

研究者用年龄(age)、患糖尿病年数(time)、血糖水平(glucose)、视力(vision)、视网膜电图中的a波峰时(at)、a波振幅(av)、b波峰时(bt)、b波振幅(bv)、qp波峰时(qpt)及qp波振幅(qpv)等指标建立判别视网膜病变的分类函数, 以判断糖尿病患者的视网膜病变属于轻、中、重中哪一型。

为此观察131例糖尿病患者,要求其患眼无其他明显眼前段疾患, 眼底无明显其他视网膜疾病和视神经、葡萄膜等疾患,测定了他们的以上各指标值,并根据统一标准诊断其疾患类型,记分类指标名为group。

见表1 (表中仅列出前5例)。

试以此为训练样本, 仅取age,vision,at,bt和qpv 等指标, 求分类函数, 并根据王××的信息: 38岁, 视力1.0, 视网膜图at=14.25, bv=383.39, qpv=43.18判断其视网膜病变属于哪一型。

表1 131例糖尿病患者各指标实测记录(前5例)──────────────────────────────────例号年龄患病血糖视力a波a波b波b波qp波pq波视网膜年数峰时振幅峰时振幅峰时振幅病变程度──────────────────────────────────1 49 2.00 191 1.5 12.25 235.40 52.50 417.57 78.5 27.43 A12 49 2.00 191 1.2 13.50 225.15 52.00 391.20 78.5 46.69 A13 63 4.00 200 1.0 14.25 318.92 53.25 616.35 77.5 35.38 A14 63 4.00 200 0.6 14.00 361.90 55.00 723.30 77.0 47.01 A15 54 10.00 137 0.6 13.75 269.59 55.50 451.27 78.0 33.70 A2──────────────────────────────────解假定样本系从总体中随机抽取,则样本中三种疾患类型的样本量可近似地反映先验概率, 利用SAS的Discrim过程可得分类函数Y1=-181.447+0.473(age)+60.369(vision)+17.708(at)+0.048(bv)+0.364(qpv)Y2=-165.830+0.472(age)+49.782(vision)+17.658(at)+0.034(bv)+0.325(qpv)Y3=-189.228+0.178(age)+43.974(vision)+20.447(at)+0.040(bv)+0.265(qpv)以王××的观察值代入分类函数, 得Y1=-181.447+0.473×38+60.369×1.0+17.708×14.25+0.048×383.39+0.364×43.18 =183.36同样可算得:Y2=180.58, Y3=179.66其中最大者为Y1, 故判断为轻度病变。

由上例见, Y1, Y2, Y3的数值相差不多,单纯凭分类函数值的大小作决策有时易出偏差。

这时, 分别估计该个体属于各总体的概率却能客观地反映该个体的各种可能归属, 而避免武断。

令Y*=179, 从而有P(Y1|X1,X2,…,X5)=e(183.36-180)/(e(183.36-180)+e(180.58-180)+e(179.66-180))=e4.36/(e4.36+e1.58+e0.66)=0.9202类似地, 可得:P(Y2|X1,X2,…,X5)=0.0571 P(Y3|X1,X2,…,X5)=0.0227 由此可见王××为轻度病变的概率为0.9202,因此把他判断为轻度病变可靠性较大。

判别分析SAS程序(STEPDISC + DISCRIM)一.STEPDISC过程的使用1. 功能STEPDISC过程用于逐步判别分析中对变量的剔选。

本过程不能计算判别函数。

用剔选后得到的变量再调用DISCRIM过程计算判别函数等。

2. 语句PROC STEPDISC 选择项…;CLASS 变量;VAR 变量;BY 变量;FREQ 变量;WEIGHT 变量;3. 语句说明(1)PROC STEPDISC语句中的选择项如下:DATA=SAS数据集名指定用于分析的SAS数据集,即训练样本SLENTRY=P值指定选入方程的显著性水平,α选,默认值为0.15SLSTAY=P值指定剔出方程的显著性水平,α剔,默认值为0.15START=n值指定VAR语句中前n个变量先进入方程,然后再开始剔选INCLUDE=n值指定VAR语句中前n个变量必须包含在方程中SIMPLE 打印各变量总的及每一类内的简单描述性统计量(2)CLASS语句指定判别分析用的分类变量名,该变量可以是数字型, 也可以是字符型。

(3)VAR语句指定判别分析用的各指标的变量名。

二.DISCRIM过程的使用1. 功能DISCRIM过程用于判别分析,计算判别函数,进行组内,组外考核等,该过程不能剔选变量。

如欲剔选变量必须先调用STEPDISC过程。

2. 语句PROC DISCRIM 选择项…;CLASS 变量;VAR 变量…;PRIORS 选择项;TESTCLASS 变量;TESTFREQ 变量;3. 语句说明(1)PROC DISCRIM语句中的选择项如下:DATA=SAS数据集名指定用于训练样本的SAS数据集TESTDAT=SAS数据集名指定用于组外考核的SAS数据集SIMPLE 打印训练样本中各变量总的及各类别的简单描述性统计量THRESHOLD=P值指定判别分类时最小的可接受的事后概率P,默认值为0 LIST 对每个训练样品打印分类结果(即组内考核结果)LISTERR 仅对每个分类错误的训练样品打印分类结果CROSSLIST 对每个训练样品打印刀切法分类结果CROSSLISTERR 仅对分类错误的样品打印刀切法分类结果CROSSVALIDATE 要求进行刀切法考核TESTLIST 打印组外考核的每例分类结果TESTLISTERR 仅打印分类错误的组外考核结果DISTANCE 打印类间的平方距离其它选择项还有TCORR,BCORR,WCORR,PCORR,TCOV,BCOV,WCOV和PCOV等。

它们和STEPDISC过程中的选择项意义相同。

(2)CLASS,VAR,BY,FREQ和WEIGHT语句和STEPDISC过程中意义相同。

(3)PRIORS语句指定各类事先概率值,可有如下选择项。

EQVAL 各类事先概率值相等,这是默认值PROP 各类事先概率值取训练样本中各类所占比例类别变量的输出格式值1=P1,值2=P2,…(4)TESTCLASS语句指定组外考核数据集中分类变量的变量名。

当训练样本数据集和组外考核数据集的分类变量名相同时,此语句可省略。

(5)TESTFREQ语句指定组外考核数据集中的频数变量名。

当不需要频数变量或训练样本数据集和组外考核数据集的频数变量名相同时,此语句可省略。

对例1的资料进行逐步判别分析,剔选变量的P值均取0.05,进行组内考核和刀切法考核,并另取一组数据进行组外考核。

例1中的资料已存放在EYE1.XLS文件中,有131例11个变量,作为训练样本。

此外,还建立了一个有31例的组外考核样本存放在EYE2.XLS文件中。

首先进行变量的选择。

剔选变量的显著性水平均取0.05。

例题SAS程序如下程序1data eye1;infile 'eye1.xls';input age time glucose vision at av bt bv qpt qpv group $;proc stepdisc data=eye1 slentry=0.05 slstay=0.05;var age time glucose vision at av bt bv qpt qpv;class group;run;程序1说明:(1)先用数据步从外部数据文件“eye1.xls”中读入数据,建立SAS数据集“eye1”;其中有11个变量,input语句指定了这11个变量的变量名。

前10个为用于判别分析的指标,最后一个变量“group”是类别变量。

(2)用SAS的stepdisc过程进行逐步判别分析。

(3)选择项“DATA=SAS数据集名”指定用于分析的SAS数据集,即训练样本。

(4)选择项“SLENTRY=P值”指定选入方程的显著性水平,α选,默认值为0.15。

选择项“SLSTAY=P值”指定剔出方程的显著性水平,α剔,默认值为0.15。

这两个选择项也可分别简写为“SLE=P值”及“SLS=P值”。

(5)在“proc stepdisc”语句后可以用的其它常用选择项有:选择项“START=n值”指定VAR语句中前n个变量先进入方程,然后再开始剔选。

选择项“INCLUDE=n值”指定VAR语句中前n个变量必须包含在方程中。

选择项“SIMPLE”要求打印各变量总的及每一类内的简单描述性统计量(6)CLASS语句指定判别分析用的分类变量名,该变量可以是数字型, 也可以是字符型。

(7)VAR语句指定判别分析用的各指标的变量名。

程序2data eye2;infile 'eye2.xls';input age time glucose vision at av bt bv qpt qpv group $;proc discrim data=eye1 testdata=eye2 list crosslist testlist;class group;var age vision at bv qpv;run;程序2说明:(1)先用数据步从外部数据文件“eye2.xls”中读入数据,建立SAS数据集“eye2”;该数据集将用于组外考核。

(2)用SAS的“discrim”过程进行判别分析。

(3)选择项”data= SAS数据集名” 定义了训练样本数据集;选择项“testdata= SAS数据集名”定义了组外考核样本数据集。

(4)选择项“list”要求列出所有训练样品的回顾性考核结果。

(5)选择项“crosslist”要求列出所有训练样品的刀切法考核结果。

(6)选择项“testlist”要求列出所有组外考核样品的前瞻性考核结果。

(7)在“proc discrim”语句后可以用的其它常用选择项有:如果不需要列出所有样品的考核结果而只想列出考核错误的样品,则上述选择项“list”,“crosslist”和“testlist”可分别改为“listerr”,“crosslisterr”及“testlisterr”。

相关文档
最新文档