距离判别 sas
SAS 聚类

1、类平均法(METHOD=AVERAGE)测量两类每对观测间的平均距离,2、重心法(METHOD=CENTROID)重心法测量两个类的重心(均值)之间的(平方)欧氏距离。
3、最长距离法(METHOD=COMPLETE)计算两类观测间最远一对的距离,4、最短距离法(METHOD=SINGLE)计算两类观测间最近一对的距离,5、密度估计法(METHOD=DENSITY)密度估计法按非参数密度来定义两点间的距离。
如果两个点和是近邻(两点距离小于某指定常数或在距离最近的若干点内)则距离是两点密度估计的倒数的平均,否则距离为正无穷。
密度估计有最近邻估计(K=)、均匀核估计(R=)和Wong 混合法(HYBRID)。
6、Ward最小方差法(或称Ward离差平方和法,METHOD=WARD)Ward方法并类时总是使得并类导致的类内离差平方和增量最小。
其它的聚类方法还有EML法、可变类平均法(FLEXIBLE)、McQuitty相似分析法(MCQUITTY )、中间距离法(MEDIAN)、两阶段密度估计法(TWOSTAGE)等。
Data d;Input name$ x;Datalines;li 56jin 58tong 59tie 61xi 62qian 65xin 89gai 95;Proc distance data=d method=euclid out=dist; var interval(x);id name;Run;Proc print data=dist;Id name;Run;proc cluster data=dist method=centroid;id name;var li--gai;run;proc tree h;id name;run;proc tree spaces=2 graphics horizontal h=n ; run;proc tree spaces=2 horizontal n=2 out=result; proc print data=result;run;proc freq data=result;table cluster;run;。
实验报告八-SAS聚类分析与判别分析

实验报告实验项目名称聚类分析与判别分析所属课程名称统计分析及SAS实现实验类型验证性实验实验日期2016-12-19班级数学与应用数学学号姓名成绩图8.1 聚类谱系图图8.1为proc cluster过程不得出的谱系图,为更方便直观,我们利用proc tree过程步得出图8.2。
②利用proc tree过程步得出聚类谱系图。
过程步:proc tree data=Lmf.tree1 horizontal;id region;run;结果:The TREE ProcedureWard's Minimum Variance Cluster Analysis图8.2 聚类谱系图由表8.2、图8.2得出,分为三类较合适,第一类为北京、天津、上海,第二类为河北、山东、河南、内蒙、江苏、浙江、山西、湖北、四川、福建、江西、湖南、海南、广东、新疆、广西、吉林、黑龙江、辽宁、陕西,第三类为安徽、宁夏、贵州、云南、甘肃、青海、西藏。
【练习8-2】有6个铅弹头,用“中子活化”方法测得7种微量元素含量数据。
表 7种微量元素含量数据Num Ag Al Cu Ca Sb Bi Sn10.05798 5.515347.121.918586174261.6920.08441 3.97347.219.7179472000244030.07217 1.15354.85 3.05238601445949740.1501 1.702307.515.0312290146163805 5.744 2.854229.69.657809912661252060.2130.7058240.313.91898028204135①试用多种系统聚类分析方法对6个铅弹头和7种微量元素进行分类,并进行分类结果。
②试用VARCLUS过程对7中微量元素进行分类。
【解答】①通过比较⑴⑵⑶三种系统聚类的方法类平均法、ward离差平方和法、最长距离法,对6个铅弹头进行分类。
SAS系统的判别分析和逐步判别分析

12.4776.395.5211.2414.5222.005.4625.50
;
proc discrim data=consum testdata=consumdis testlist;
class type;
var x1-x8;
6.98
0.0140
1.0000
x5
0.0153
0.39
0.5389
1.0000
x6
0.2706
9.28
0.0054
1.0000
x7
0.0392
1.02
0.3223
1.0000
x8
0.3524
13.61
0.0011
1.0000
将输入变量x2。
已输入的变量
x2
多元统计量
统计量
值
F值
分子自由度
分母自由度
run;
具体操作
SAS系统
STEPDISC过程
选择变量的方法为STEPWISE
总样本大小
27
分析中的变量
8
分类水平
2
将包括的变量
0
输入变量的显著性水平
0.15
保留变量的显著性水平
0.15
读取的观测数
27
使用的观测数
27
分类水平信息
type
变量
名称
频数
权重
比例
1
_1
20
20.0000
0.740741
2
20
74.07
7
25.93
27
100.00
先验
SASdiscrim 距离判别和贝叶斯判别法

距离判别和贝叶斯判别法SAS/STAT (DISCRIM )过程部分语句说明一、 D ISCRIM 过程语句SAS/STAT (DISCRIM )产生线性判别函数并进行分类,主要的语句如下:二、程序实例及解释例:某年为了研究某年全国各地农民家庭收支的分布情况,对全国28个地区进行了抽样调查。
食品1x ,衣着2x ,燃料3x ,住房4x ,生活用品及其他5x 和文化服务支出6x 。
data a;input type x1-x6;cards;数据行;run;data b;input x1-x6; cards;190.33 43.77 9.73 60.54 49.01 9.04 221.11 38.64 12.53 115.65 50.82 5.89 182.55 20.52 18.32 42.40 36.97 11.68 ;PROC DISCRIM DATA=a TESTDATA=b out=c crossvalidate method=normal TESTLIST testout=d; priors proportional; CLASS TYPE; VAR x3 x5 x6; proc print data=d; RUN;PROC DISCRIM DATA=a 指定对数据集a 中的数据进行判别分析; TESTDATA=b 指定欲分类观测的样品所在的数据集;crossvalidate 要求做交叉核实。
交叉核实的想法是,为了判断对观测i 的判别正确与否,用删除第method=normal 或npar 确定导出分类准则的方法,却上缺省值为method=normal 。
当指定method=normal 时,基于类内服从多员正态分布,并产生的判别函数是线性函数或二次判别函数; ALL 规定打印出所有的结果;TESTLIST 规定列出TESTDATA=b 中的全部的分类结果;testout=d 生成一个新的数据集,该数据集包括TESTDATA=b 中的所有数据,后验概率和每个样品被分的类。
如何用sas用马氏距离判别法进行判别分析

如何用sas用马氏距离判别法进行判别分析马氏距离是由印度统计学家马哈拉诺比斯(P. C. Mahalanobis)提出的,表示数据的协方差距离。
它是一种有效的计算两个未知样本集的相似度的方法。
与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的。
(scale-invariant),即独立于测量尺度。
对于一个均值为协方差矩阵为∑的多变量向量,其马氏距离为
马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为∑的随机变量与的差异程度。
SAS判别分析

课程:SAS判别分析部门:创新业务部-徐宝莲时间:2015/1/16内容概要:1、判别分析的简单介绍2、一般判别分析——PROC DISCRIM3、典型判别分析——PROC CANDISC4、逐步判别分析——PROC STEPDISC1、判别分析的简单介绍判别分析是一种应用性很强的统计方法。
它通常是根据已有的数据资料,来建立一种判别方法,然后再来判断一个新的样品归属哪一类。
判别分析的SAS过程所处理的数据集要求具有一个分类变量和若干个数值型变量。
SAS 中进行判别分析的具体目标可以分为以下三条:建立判别函数,以便用来判别某一新的观测值的所属类别;寻找一组数值型变量的线性组合,使得其能够很好地反映各类别之间的差别;筛选出某些能反映类别间差别的变量。
2、一般判别分析——PROC DISCRIM2.1距离判别法距离判别法是通过计算距离函数来进行判别,即样品与哪个总体之间的距离最近,则判断它属于哪个总体。
如何衡量样品与总体间的这种抽象的距离?我们一般利用马氏距离来描述。
对于两总体的情形,设G1和G2是两个P维总体,样品X到G1的距离为d2(X,G1),样品X 到G2的距离为d2(X,G2),则我们按照下面的准则对样本X进行判别归类:1)若d2(X,G1)<d2(X,G2),则判定X属于G1;2)若d2(X,G1)>d2(X,G2),则判定X属于G2;3)若d2(X,G1)=d2(X,G2),则X有待于进一步判定。
2.2Bayes判别法Bayes判别法是基于Bayes统计的思想,即假定事先对所研究的对象有一定的了解,并通过先验概率分布来进行描述,当抽取样本后,用样本来修正先验概率分布,并得到后验概率分布,然后根据后验概率分布进行各种统计推断。
Bayes判别法首先计算给定样品属于各个总体的条件概率,然后比较这些概率值的大小,将样品判归于条件概率最大的总体。
PROC DISCRIM DATA=数据集名<选项>;CLASS变量名列表;PRIORS概率值;BY 分组变量名;RUN;语句说明:1)PROC DISCRIM 语句用来调用DISCRIM 过程。
判别分析——距离判别

判别分析——距离判别
通常采⽤的距离函数为:欧⼏⾥得距离 d(x,y)=||x-y||2
但在统计分析及计算中,通常采⽤马⽒距离:马⽒距离考虑了总体的分布情况
距离:两堆沙⼦,⼀堆紧凑⼀些,⼀堆松散⼀些,判断⼀块⽯头属于哪⼀堆?
不应该只计算直线距离,也许这块⽯头在紧凑的⼀堆的沙⼦的分布中属于异常值,所以应该考虑总体的分布情况。
因此距离判别的距离函数采⽤的为马⽒距离。
马⽒距离的R函数:mahalanobis(x,center,cov,inverted=FALSE) x样本数据;center为样本中⼼(均值),cov为样本的协⽅差
主要分为两种情况:
1.两总体的协⽅差矩阵相等
2.两总体的协⽅差矩阵不相等。
SAS软件应用之判别分析

判别函数中判别能力检验
• 一个判别函数判别样本归类的功能强弱很大程度 上取决与指标的选取。如果判别函数中特异性强 的指标越多,则判别函数的判别功能也就越强。 相反,不重要的指标越多,判别函数就越不稳定, 其判别效果非但得不到改善,甚至会适得其反。 因此,要建立一个有效的判别函数,指标的选取 很重要,过多过少都不一定合适。一方面要根据 专业知识和经验来筛选指标,另一方面要借助统 计分析方法检验指标的性能。
SAS软件应用之判别分析
判别分析
• 判别分析是一种根据观测变量判断研究样本如何 分类的多变量统计方法,它对于需要根据对样本 中每个个案的观测来建立一个分组预测模式的情 况是非常适用的。分析过程基于对预测变量的线 性组合产生一系列判别函数,但是这些预测变量 应该能够充分地体现各个类别之间的差异。判别 函数是从一个每个个案所属的类别已经确定的样 本中拟合出来的,并且生成的函数能够运用于同 样进行了预测变量观测的新的样本点,以判断其 类别归属。
SAS软件应用之判别分析
FISHER判别分析法
• 根据FISHER判别分析法的基本原理,就是 要选择一组适当的系数,使得类间差异最 大且类内差异最小,即使得下式的Q值达
到最大。Q Q (c1,c2, ,ck)y( (a a) ) y( (b b ) )
• 使得Q值达到最大就是Q的一阶偏导函数等 于0的方程组的解,由
Q0,Q0, ,Q0
c1
c2
ck
SAS软件应用之判别分析
FISHER判别分析法
• 可以得到:
f11c1 f1tct f1kck d1 fs1c1 fstct fskck ds
fk1c1 fktct fkkck dk
• 其中,
SAS判别分析和聚类分析

Bayes判别法
假定事先对对象有 了解,通过先验概 率分布来描述,抽 取样本后,用样本 修正先验概率分布, 并得到后验概率分 布,然后统计推断。
4
2.一般判别分析
基本过程
语句说明2
4 1
语句说明1
2
SAS过程
例题及过程
3
5
2.一般判别分析
6
2.一般判别分析
7
2.一般判别分析
8
2.一般判别分析
根据典型变量的分类结果
19
4.逐步判别分析
最后得到的判别函数中,所有变量都是显著的
建立辨别函数
直到在可选的变量中,既没有变量被选入也没有变量被删除为止。
循环,直到不进不剔
对已有的变量也进行检验,将不显著的变量剔除
剔除
在建立判别函数时逐个引入变量,每一步选择都一个判别能力最显著的变量进入判别函数
逐个引入
4.变量聚类
2、VARCLUS过程
语句说明:
(1)PROC语句用于规定运行VARCLUS过程,并指定要分析的数据集名。 (2)VAR语句规定要进行分类的数值型变量。如果不使用该语句,则默认 对所有的数值型变量进行分类。 (3)PARTIAL语句规定了偏出变量(即固定变量),使得VARCLUS过程 将基于偏相关来进行分类。 (4)SEED语句规定的变量将作为初始分类的变量。
4.变量聚类
采用分裂聚类时,变量聚类的一般步骤是: (1)首先将所有的变量都作为一个类来处理。 (2)从当前的类中选择一个将要被分裂的类,选择的标准是用它的主成 分所解释的方差百分比最小或第二特征值最大。 (3)将选中的类分裂为两个类,具体方法是:计算出此类的第一主成分 和第二主成分,然后进行斜交旋转,再将每个变量分配到旋转后的两个主成分 对应的类中去,分配的原则是使得变量与主成分的相关系数最大。 (4)根据分裂后现有的类,对变量进行调整重新分配到这些类中去,使 得这些类的主成分解释的方差最大。 (5)重复步骤(2)-(4),直到满足某一准则时,停止聚类过程,产生 最终的变量分类结果。
试验设计与统计分析SAS实践教程课件:判别分析

C c1, c2 ,
T
cp
X X1, X 2 ,
T
Xp
其中,Y为判别函数,C为判别系数,X为属性变量集。
判别分析和聚类分析虽均为数值分类方法,但两者的分 类方法显著不同。聚类分析事先并不知道样本中的样品分成 几类,完全是根据属性变量的观测和判别准则把样品分成主 观的几类,而判别分析至少有一个已明确知道其分类的“训 练样本”,通过由它建立的判别函数依据判别准则将每个未 知样品判归已知的一个类。
判别分析可划分为多种类型。按照判别函数的内涵,可 划分为Bayes判别分析、Fisher判别分析、欧氏距离判别分析 和逐步判别分析。按照属性变量的概率分布,可划分为多元 正态型和非参数型。按照先验概率的分布类型,可划分为等 概率型(样品的先验概率均相等)、比率型(先验概率与样本中 样品的频率相等)和离散概率型(任意指定样品的先验概率)。
(2) 认为频率较高的卫星遥感观测其数值稳定性和发生 的概率亦较高,故用训练样品在样本中出现的比率(频率)作 为各个类的先验概率估计。SAS在discrim过程中设置选项 priors proportional或priors prop实现这项功能。
(3) 采用discrim过程实现Bayes判别分析。过程选项 data=指定调用训练样本sasuser.xunlian01。过程选项testdata= 指定调用检测样本sasuser.jiance01。语句class指定训练样本 中SamCrop为分类变量。语句priors proportional指定先验概 率与样品的比率成正比,缺省则指定先验概率均相等,也可 以指定一个先验概率的任意离散序列。语句var指定X1~X4 为参与计算的属性变量。缺省则为所有的数值变量。语句id 指定训练样本中Obs为标识观测的变量。语句testclass指定检 测样本中TestCrop为分类变量。语句testid指定检测样本中 TestObs为标识观测的变量。SAS程序如下:
SAS判别分析实验报告

判别分析一:实验目的通过实验掌握使用SAS进行判别分析的几种常用方法:距离判别,贝叶斯判别,费希尔判别。
二:实验内容1.用DISCRIM过程作贝叶斯判别。
2.用DISCRIM过程作费希尔判别。
三:程序代码及结果分析练习1(1)程序代码(2)结果及分析表1.1-对14名未定级运动员作贝叶斯判别表1.1 表明了在先验概率相同的前提下,对14名未定级运动员作贝叶斯判别的结果。
其中8,9,11,12,14均判给第二组,其余9个均判给第一组。
表1.2交叉验证法对误判概率作估计表1.2表明交叉验证法对误判概率做出的估计。
其中40,48号运用交叉验证法得出是误判的。
均是误判给了第一组。
而在全样品中是没有被误判的。
表1.3各组误判概率及平均误判概率表1.3表明把第一组误判的概率为0,将第二组误判给第一组的概率为0.08.平均误判概率为0.04..表1.4先验概率不同情况下的贝叶斯判别表1.4为在先验概率p1=0.8,p2=0.2的情况下运动员归属的判别。
其中9,11,12,14判给第二组,其余均判给第一组。
由表可以看出先验概率不同得到的判别是不同的。
例如第60号(第8个未定级)运动员判给了第一组,而在概率相同时时判给了第二组。
练习2(1)程序代码(2)结果及分析表2.1费希尔判别系数费希尔判别式为xxxxxxxxy87654321103687468.0195246015.0202200109.0420281838.1 00763493.0837675738.0369109646.0022344104.0-+++ --+=xxxxxxxxy876543212026966644.0235306430.0203863959.0039957871.1006017311.0386499597.0332405063.0045417606.0+++-++++-=表2.2判别式得分散点图表2.2中1代表通用牛奶厂商,2代表克罗格厂商,3代表夸克厂商。
实验报告10 距离判别.

实验十 距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析.实验内容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则;欧氏距离 ∑=-=p i i i y x d 12)()(y x, 明氏距离 m p i m i i y xd 11])([)(∑=-=y x,(1)总体G ,均值向量μ, 协方差矩阵Σ,y x,来自G211)]()[()(y x Σy x y x,--=-T d ——y x,的马氏距离211)]()[()(μx Σμx G x,--=-T d ——x 与G 的马氏距离(2)两个总体21,G G ,均值向量21,μμ,协方差矩阵均为Σ212112121)]()[()(μμΣμμG ,G --=-T d ——总体21,G G 的马氏距离1.距离判别准则21,G G 为两个p 维已知总体,均值向量21,μμ, 协方差矩阵21,ΣΣ,T p x x x ),,,(21 =x 为待判样品,距离判别准则为⎩⎨⎧>∈≤∈)()(,)()(,121221G x,G x,G x G x,G x,G x d d d d 若若2.书上5.3data examp5_1; /* 建立训练样本集 */input group $ x1 x2 x3 x4 x5 x6 x7 x8; /* 输入总体(二维)、数量指标x1 –x8 */cards;G1 8.35 23.53 7.51 8.62 17.42 10.00 1.04 11.21G1 9.25 23.75 6.61 9.19 17.77 10.48 1.72 10.51G1 8.19 30.50 4.72 9.78 16.28 7.60 2.52 10.32G1 7.73 29.20 5.42 9.43 19.29 8.49 2.52 10.00G1 9.42 27.93 8.20 8.14 16.17 9.42 1.55 9.76G1 9.16 27.98 9.01 9.32 15.99 9.10 1.82 11.35G1 10.06 28.64 10.52 10.05 16.18 8.39 1.96 10.81G1 9.09 28.12 7.40 9.62 17.26 11.12 2.49 12.65G1 9.41 28.20 5.77 10.80 16.36 11.56 1.53 12.17G1 8.70 28.12 7.21 10.53 19.45 13.30 1.66 11.96G1 6.93 29.85 4.54 9.49 16.62 10.65 1.88 13.61G1 8.67 36.05 7.31 7.75 16.67 11.68 2.38 12.88G1 9.98 37.69 7.01 8.94 16.15 11.08 0.83 11.67G1 6.77 38.69 6.01 8.82 14.79 11.44 1.74 13.23G1 8.14 37.75 9.61 8.49 13.15 9.76 1.28 11.28G1 7.67 35.71 8.04 8.31 15.13 7.76 1.41 13.25G1 7.90 39.77 8.49 12.94 19.27 11.05 2.04 13.29G1 7.18 40.91 7.32 8.94 17.60 12.75 1.14 14.80G1 8.82 33.70 7.59 10.98 18.82 14.73 1.78 10.10G1 6.25 35.02 4.72 6.28 10.03 7.15 1.93 10.39G2 10.60 52.41 7.70 9.98 12.53 11.70 2.31 14.69G2 7.27 52.65 3.84 9.16 13.03 15.26 1.98 14.57G2 13.45 55.85 5.50 7.45 9.55 9.52 2.21 16.30G2 10.85 44.68 7.32 14.51 17.13 12.08 1.26 11.57G2 7.21 45.79 7.66 10.36 16.56 12.86 2.25 11.69G2 7.68 50.37 11.35 13.30 19.25 14.59 2.75 14.87G2 7.78 48.44 8.00 20.51 22.12 15.73 1.15 16.61;run;data test5_1; /* 建立检验样本集(变量应和训练样本集一致) */input x1 x2 x3 x4 x5 x6 x7 x8;cards;7.94 39.65 20.97 20.82 22.52 12.41 1.75 7.908.28 64.34 8.00 22.22 20.06 15.12 0.72 22.8912.47 76.39 5.52 11.24 14.52 22.00 5.46 25.50;run;/* 调用判别分析的discrim过程,data=examp5_1训练样本集,testdata=test5_1检验样本集,pool=yes假定各总体的协方差矩阵相等.method=normal在各总体为正态分布的假定下通过利用训练样本估计各总体均值向量和协方差矩阵,listerr仅打印回判中判错的样品信息,crosslisterr对训练样本数据进行交叉确认回判分析.Testlist列出对检验数据集各样品的判别结果,wcov pcov 打印examp5_1 和test5_1集对应的训练样本协方差矩阵估计. */proc discrim data=examp5_1testdata=test5_1 pool=yes method=normal listerr crosslisterr testlist wcov pcov;class group; /* 分类变量group */var x1-x8; /* 参与分析的变量x1 –x8 */priors equal; /* 总体的先验概率相等 */run;样本协方差矩阵:距离及判别函数:得到两总体的马氏平方距离为:),(212G G d =24.6168 线性判别函数为:W(1)=-121.19958+7.00604X1+2.177894X2-0.38996X3-1.81803X4+5.67045X5+0.04597X 6+9.57755X7+1.91570X8;W(2)=-176.33030+8.26957X1+3.06901X2-0.70196X3+0.16259X4+4.58071X5+1.05447X6+13.46524X7+0.90915X8;(5)误判率估计——回代法和交叉确认法:以下为使用线性判别函数的回代法结果:以下为使用线性判别函数的交叉确认法结果:用交叉确认法将属于总体2G 的第17和19号样品误判为属于1G ,其余均回判正确,误判率的回代估计为: 0.0500.(6)待判样品判别结果:G 待判新样品的判别结果为:第1,2,3号样品属于23.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?表3 2005经济指标样品地区X1 X2 X3 X4 X5 X6 X7序号1 北京26.91 4.5 31.14 1.88 6.39 17.96 98.992 上海28 11.7 43.6 1.99 8.57 27.57 99.23 天津32.9 13.9 60.19 2.2 10.77 21.27 101.984 河北30.38 10.4 64.01 2.31 5.96 11.28 98.675 山西37.48 9.4 67.82 1.71 6.82 7.93 97.856 内蒙古43.44 9.8 64.32 2.08 7.94 16.34 98.237 辽宁28.76 7.5 59.33 2.15 2.78 14.19 99.868 吉林29.48 8.5 60.57 2.11 3.45 12.29 99.459 江苏24.34 11.3 59.67 2.29 4.89 15.97 99.4110 浙江24.85 13.4 57.41 2.92 5.28 24.62 99.7211 安 徽 34.54 11.2 62.83 2.18 6.15 11.77 98.89 12 福 建 28.87 11.9 56.16 2.38 5.74 15.38 99.49 13 江 西 27.21 9.7 69.38 2.01 4 8.86 99.49 14 山 东 36.59 15.8 60.18 2.55 10.83 18.17 99.06 15 河 南 31.9 10.2 65.62 2.06 5.348.8398.6116 湖 北 33.27 9.2 57.34 1.69 9.05 13.68 99.63 17 湖 南 37.13 12.7 67.23 2.07 4.24 12.71 99.52 18 广 西 31.64 10.8 62.91 2.09 5.88 10.42 99.69 19 海 南 35.44 11.7 54.23 1.97 10.95 14.26 101.3 20 重 庆 25.95 8.2 58.92 1.58 3.71 8.34 99.38 21 四 川 36.29 9.1 64.34 1.56 7.31 11.26 101.24 22 贵 州 36.45 9.7 66.39 1.52 5.77 9.52 99.06 23 陕 西 41.01 15.9 61.88 1.7 18.95 12.28 98.7624 甘 肃 25.76 9.5 59.32 2.3 3.55 9.02 98.96 25 青 海 38.77 12.2 68.56 1.38 22.44 17 97.9 26 宁 夏 33.62 5.6 60.94 1.46 3.37999.3827 黑龙江 50.1 35.4 54.5 2.42 39.49 19.81 97.71 28 云 南 44.76 20.1 47.44 1.5 13.41 22.54 100.13 29 新 疆 45.21 23.9 50.58 3.15 27.1 24.83 99.93 1 广 东 26.51 13 53.21 2.39 6.7 24.34 98.71 2西 藏55.734.725.480.9711.86.3193.684.波士顿房价问题为了了解波士顿地区的住房状况,Harrison 收集了1978年波士顿大区每个调查行政区的506各观察值。
SAS期末论文-聚类分析-判别分析

《统计软件》课程期末论文系(院):理学院专业:数学与应用数学班级:学生姓名:学号:指导教师:耿兴波开课时间:2012-2013 学年一学期目录题目: (2)1.聚类分析 (2)2.判别分析 (2)要求: (2)SAS软件介绍 (2)一、概述 (2)二、SAS系统的特点 (3)聚类分析 (4)基本原理: (4)使用的程序 (5)运行结果 (5)指令介绍 (8)结果分析 (8)判别分析 (9)基本原理: (9)使用的程序 (9)运行结果 (10)指令介绍 (20)结果分析 (22)总结 (22)感谢 (22)参考文献 (23)1题目:1.聚类分析某网站键鼠频道为广大职业玩家及游戏爱好者策划了一次全面的游戏鼠标横向测试,通过专家和消费者打分的形式,收集到了13款游戏鼠标的重要参数,即外观及手感、芯片及微动、功能及驱动、兼容性、游戏性等数据,(数据见Mouse_Cluster.sas7bdat)。
要求以这些指标为依据对所收集的样本进行聚类分析。
2.判别分析在上述聚类分析中,取Ward法聚类结果把13个鼠标分为3类。
假定这13个鼠标的样本来自于已有类别的总体(即已知具体鼠标类别的训练样本)。
现又有两款鼠标的测评数据(Mouce_Discrim.sas7bdat),试利用判别分析的方法把两款鼠标归入对应的类别。
要求:1.介绍SAS软件。
2.介绍聚类分析的基本原理3.介绍使用了哪些命令。
4.介绍题目,结果及最后的分析。
SAS软件介绍一、概述SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。
SAS现在的版本为9.0版,大小约为1G。
经过多年的发展,SAS已被全世界120多个国家和地区的近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
距离判别一、实验目的和要求掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS 过程解决有关实际问题.实验要求:编写程序,结果分析. 实验容:要求:1题必做,2,3,4题可选1-2题1.写出几种距离公式,两总体距离判别准则; 一.几种距离公式:1. 欧氏距离2121])([),(jk ik pk j i x x d -=∑=x x2. 绝对距离∑=-=pk jk ik j i x x d 1),(x x3. Minkowski 距离mpk m jk ik j i x x d 11]||[),(∑=-=x x其中1≥m .Minkowski 距离又称m L 距离,2L 距离即欧氏距离,1L 距离即绝对距离. 4. Chebyshev 距离jk ik pk j i x x d -=≤≤1m ax ),(x xChebyshev 距离是Minkowski 距离当+∞→m 时的极限.以上距离与各变量的量纲有关.为消除量纲的影响,可对数据进行标准化,然后用标准化数据计算距离.标准化数据即p k n i s x x x k kik ik ,...,2,1;,...,2,1,*==-=其中∑∑==--==n i n i k ik k ik k x x n s x n x 1122)(11,1. 5. 方差加权距离21122])([),(∑=-=pk kjk ik j i sx x d x x易证,标准化数据*ik x 的欧氏距离既是方差加权距离. 6. 马氏距离211)]()),(j i T j i j i d x x S x [(x x x --=-其中S 是由样品n x x x ,...,,21算得的样本协方差矩阵:∑=---=ni T i i n 1))((11x x x x S , 其中.11∑==ni i n x x令nxn ij j i ij d D d d )(),,(==x x 形成n 个样品n x x x ,...,,21两两之间的距离矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=00021221112 n n n n d d d d d d D 其中ij d =ji d二.两个总体的距离判别准则1.距离判别准则21,G G 为两个p 维已知总体,均值向量21,μμ, 协方差矩阵21,ΣΣ,T p x x x ),,,(21 =x 为待判样品,距离判别准则为⎩⎨⎧>∈≤∈)()(,)()(,121221G x,G x,G x G x,G x,G x d d d d 若若 (5.1)说明:马氏距离思想——极大似然思想一般p 维总体,),(~),,(~2211ΣμΣμp p N G N G ,协方差矩阵同为Σ,概率密度为⎭⎬⎫⎩⎨⎧-∑--∑=-)()(21exp )2(11112121μx μx T p f π⎭⎬⎫⎩⎨⎧-∑--∑=-)()(21exp )2(12122122μx μx T p f π则 )()(21G x,G x,d d ≤⇔)()()()(212111μx μx μx μx -∑-≤-∑---T T )()(21x x f f ≥⇔距离判别准则转化为⎪⎪⎩⎪⎪⎨⎧<∈≥∈1)()(,1)()(,21221x x G x x x G x 1f f f f 若若 与似然比准则一致. 2.ΣΣΣ==21情形(1)线性判别函数样品x 到总体21,G G 的马氏平方距离之差)()(1222G x,G x,d d -)()()()(111212μx μx μx μx -∑---∑-=--T T)2()2(111111212121μΣμx Σμx Σx μΣμx Σμx Σx ------+--+-=T T T T T T]21[2]21[21111121212μΣμx ΣμμΣμx Σμ-----+--=T T T T )]()([212x x W W --=其中 ⎪⎩⎪⎨⎧+=+=----2122212222111111111121b ,)(21b ,)(μΣμμΣa x a x μΣμμΣa x a x T T T T b W b W =-,==-,= (5.2) )(),(21x x W W 称为x 的线性判别函数.距离判别准则化为线性判别准则⎩⎨⎧<∈≥∈)()(,)()(,21221x x G x x x G x 1W W W W 若若 (5.3) 另一方面)()(1222G x,G x,d d -111212121)(2μμμμx μμ---∑-∑+∑-=TT T 112111*********)(2μμμμμμμμx μμ-----∑-∑-∑+∑+∑-=TTTTT)()()(221121121μμμμx μμ+∑--∑-=--T T)()(2121μx μμ-∑-=-T )(2)(21x μx a W T=-=其中)(2121μμμ+=,)(211μμΣa +-=,而)()(1μx a x -=T W 为x 的线性判别函数.判别准则化为线性判别准则 ⎩⎨⎧<∈≥∈0)(,0)(,2x G x x G x 1W W 若若 (5.4))(),(),(21x x x W W W 皆为x 的线性判别函数,简单易求.(2)样品判别函数实际中21,μμ, 协方差矩阵Σ未知,设)1()1(2111,,,n x x x )(和)2()2(2212,,,n x x x )(来自总体21,G G 的训练样本,则21,μμ,Σ的估计为∑∑======211)2()1(221)1()1(111ˆ,1ˆn i i n i i n n xx μx x μ2)1()1(ˆ212111-+-+-==n n n n S S ΣS ——为Σ的联合估计 其中 T in i i n )()(11)1()1(1)1()1(111x x x x S ---=∑=T in i i n )()(11)2()2(1)2()2(222x x x x S ---=∑= 分别为21,G G 的样本协方差矩阵,由此得线性判别函数)(),(),(21x x x W W W 的估计⎪⎪⎪⎩⎪⎪⎪⎨⎧+=--=+=+=-----)(21)(ˆ),(ˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)(21b ˆ,ˆˆ)(ˆ)2()1()2()1(1)2(1)2(2)2(12222)1(1)1(1)1(11111x x x x x S a x x a x x S x x S a x a x x S x x S a x a x ,=其中=-,=其中=-,=其中T T T T T W b W b W (5.5) 两个总体的距离判别准则为⎩⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,21221x x G x x x G x 1W W W W 若若 (5.6) 或 ⎩⎨⎧<∈≥∈0)(ˆ,0)(ˆ,2x G x x G x 1W W若若 (5.7)3.21ΣΣ≠的情形)()()(11121μx Σμx x 1--=-T d)()()(212222μx Σμx x --=-T d 为x 的二次函数,称为二次判别函数距离判别准则⎩⎨⎧>∈≤∈)()(,)()(,222122221x x G x x x G x 1d d d d 若若 (5.8)以)2(2)1(1ˆ,ˆx μx μ==,2211ˆ,ˆS ΣS Σ==估计21,μμ及21,ΣΣ可得样品判别函数: )()()(ˆ)1(11)1(21x x S x x x --=-T d )()()(ˆ)2(12)2(22x x S x x x --=-T d样品判别准则 ⎪⎩⎪⎨⎧<∈≥∈)(ˆ)(ˆ,)(ˆ)(ˆ,212222122x x G x x x G x 1d d d d 若若 2.书上5.33.为了研究2005年全国各地区及国有控股工业企业的经营状况,数据见表1:2005经济指标:其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/人.年),X7—产品销售率(%)(1)请用一种聚类分析方法将29个省市分为3种类型(、除外); (2)利用距离判别建立判别函数,判定、分别属于哪个发展类型?表3 2005经济指标样品地区X1 X2 X3 X4 X5 X6 X7序号1 北京26.91 4.5 31.14 1.88 6.39 17.96 98.992 上海28 11.7 43.6 1.99 8.57 27.57 99.23 天津32.9 13.9 60.19 2.2 10.77 21.27 101.984 河北30.38 10.4 64.01 2.31 5.96 11.28 98.675 山西37.48 9.4 67.82 1.71 6.82 7.93 97.856 43.44 9.8 64.32 2.08 7.94 16.34 98.237 辽宁28.76 7.5 59.33 2.15 2.78 14.19 99.868 吉林29.48 8.5 60.57 2.11 3.45 12.29 99.459 江24.34 11.3 59.67 2.29 4.89 15.97 99.4110 浙江24.85 13.4 57.41 2.92 5.28 24.62 99.7211 安徽34.54 11.2 62.83 2.18 6.15 11.77 98.8912 福建28.87 11.9 56.16 2.38 5.74 15.38 99.4913 江西27.21 9.7 69.38 2.01 4 8.86 99.4914 山东36.59 15.8 60.18 2.55 10.83 18.17 99.0615 河南31.9 10.2 65.62 2.06 5.34 8.83 98.6116 湖北33.27 9.2 57.34 1.69 9.05 13.68 99.6317 湖南37.13 12.7 67.23 2.07 4.24 12.71 99.5218 广西31.64 10.8 62.91 2.09 5.88 10.42 99.6919 海南35.44 11.7 54.23 1.97 10.95 14.26 101.320 重庆25.95 8.2 58.92 1.58 3.71 8.34 99.3821 四川36.29 9.1 64.34 1.56 7.31 11.26 101.2422 贵州36.45 9.7 66.39 1.52 5.77 9.52 99.0623 陕西41.01 15.9 61.88 1.7 18.95 12.28 98.7624 甘肃25.76 9.5 59.32 2.3 3.55 9.02 98.9625 青海38.77 12.2 68.56 1.38 22.44 17 97.926 宁夏33.62 5.6 60.94 1.46 3.37 9 99.3827 50.1 35.4 54.5 2.42 39.49 19.81 97.7128 云南44.76 20.1 47.44 1.5 13.41 22.54 100.1329 新疆45.21 23.9 50.58 3.15 27.1 24.83 99.931 广东26.51 13 53.21 2.39 6.7 24.34 98.712 西藏55.73 4.7 25.48 0.97 11.8 6.31 93.68 (1)代码:用谱系聚类中的最长距离法将29个省市分为三类data examp3;input province $ x1-x7;cards;26.91 4.5 31.14 1.88 6.39 17.96 98.9928 11.7 43.6 1.99 8.57 27.57 99.232.9 13.9 60.19 2.2 10.77 21.27 101.9830.38 10.4 64.01 2.31 5.96 11.28 98.6737.48 9.4 67.82 1.71 6.82 7.93 97.8543.44 9.8 64.32 2.08 7.94 16.34 98.2328.76 7.5 59.33 2.15 2.78 14.19 99.8629.48 8.5 60.57 2.11 3.45 12.29 99.4524.34 11.3 59.67 2.29 4.89 15.97 99.4124.85 13.4 57.41 2.92 5.28 24.62 99.7234.54 11.2 62.83 2.18 6.15 11.77 98.8928.87 11.9 56.16 2.38 5.74 15.38 99.4927.21 9.7 69.38 2.01 4 8.86 99.4936.59 15.8 60.18 2.55 10.83 18.17 99.0631.9 10.2 65.62 2.06 5.34 8.83 98.6133.27 9.2 57.34 1.69 9.05 13.68 99.6337.13 12.7 67.23 2.07 4.24 12.71 99.52广西 31.64 10.8 62.91 2.09 5.88 10.42 99.6935.44 11.7 54.23 1.97 10.95 14.26 101.325.95 8.2 58.92 1.58 3.71 8.34 99.3836.29 9.1 64.34 1.56 7.31 11.26 101.2436.45 9.7 66.39 1.52 5.77 9.52 99.0641.01 15.9 61.88 1.7 18.95 12.28 98.7625.76 9.5 59.32 2.3 3.55 9.02 98.9638.77 12.2 68.56 1.38 22.44 17 97.933.62 5.6 60.94 1.46 3.37 9 99.3850.1 35.4 54.5 2.42 39.49 19.81 97.7144.76 20.1 47.44 1.5 13.41 22.54 100.1345.21 23.9 50.58 3.15 27.1 24.83 99.93 run;proc cluster data=examp3 method= nonorm nosquare outtree=tree1; var x1-x7;id province;run;proc tree data=tree1 graphics horizontal out=c1 nclusters=3;id province;run;proc print data=c1;run;运行结果:分类结果谱系图:有上图可得,根据x1-x7变量将以上省份分为三类的结果为:,和为一类,这三个地区的工业增加率比较低,但其他比率却并不低,说明这一类地区前期工业很发达,但现在已经在向其他产业方向发展,属于早期工业发达地区,记为第三类;,和为一类,这类地区的工业增加率很高,总资产贡献率和全员劳动生产率也较高,可归属于正大力发展的工业地区,记为第二类;其他省份为一类,属于一般的工业地区,记为第一类。