判别分析与聚类分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
一. SAS判别分析相关过程基本语法
(2) CLASS语句 该语句在PROC DISCRIM中不可省略,分类变量的不同 值决定判别分析的组。类水平由 CLASS 变量的格式化值决 定,指定的变量可以是数值的或字符的。 (3) PRIORS语句 指定各组中成员出现的先验概率。若觉得各类别可能出现的 概率相等,则使用PRIORS EQUAL语句。若规定先验概率为 各组样本出现的比例,则使用PRIORS PROPORTIONAL (或PRIORS PROP语句)。若知道各个组的先验概率,则可 以在此指令中列出各类别的概率。 注:概率的总和必须是1。
一. SAS判别分析相关过程基本语法 3. CANDISC过程语法(典型判别)
一. SAS判别分析相关过程基本语法
一. SAS判别分析相关过程基本语法
一. SAS判别分析相关过程基本语法
4. GPLOT过程语法 (作图过程)
GPLOT过程的一般格式: PROC GPLOT DATA = <数据集名>; PLOT <纵轴变量> * <横轴变量> [= <变量>][/<选项>]; [SYMBOLn <选项>;] RUN;
一. SAS判别分析相关过程基本语法
NOCLASSIFY:不对DATA=输入数据集进行重新分类。 6》交叉确认分类选项 CROSSLIST:对每个观测输出交叉确认的分类结果 CROSSLISTERR:只对错误分类的观测输出交叉确认的结果。 CROSSVALIDATE:只对DATA=的输入数据集进行交叉确认 分类。 7》检验数据分类选项 TESTLIST:列出TESTDATA=的输入数据集中全部观测的分 类结果。 TESTLISTERR:仅当使用TESTCLASS语句给出检验集中各 观测所属类别时,该选项要求列出TESTDATA=数据集中错误 分类的观测。
二、 判别分析实例
距离判别 贝叶斯判别 Fisher判别或典型判别
1、两总体距离判别实例 例1(盐泉含钾性判别) 某地区经勘探
证明A盆地是一个钾盐矿区,B盆地是一个 钠盐矿区,其他盐盆地是否含钾盐有待作 出判断.今从A,B两盆地各抽取5个盐泉样 品;从其他盆地抽得8个盐泉样品, 18个盐 泉的特征数值见表5.1.试对后8个待判盐 泉进行含钾性判别.
proc GPLOT DATA=<数据集名>; SYMBOL1<选项>; SYMBOL2 <选项>; plot <纵轴变量>*<横轴变量>=1/<选项> ; plot2 <纵轴变量>*<横轴变量>=2/ <选项> ; RUN;
双纵坐标画图:在sas 中画一个线图,横轴为 时间,纵轴有两组数据 ,数量级不一样。
一. SAS判别分析相关过程基本语法
2. STEPDISC过程简介
针对具有一个分类变量和若干数值型变量(指标变 量)的数据集,STEPDISC过程执行逐步判别分析 (stepwise discriminant analysis):从指定的指标变 量(VAR变量)中筛选出一组变量,以用于随后的判别 分析。逐步判别分析要求指标变量在各组内服从多元 正态分布,并且具有相同的协方差矩阵。STEPDISC 过程选择变量的方法包括前进法(forward selection)、后退法(backward elimination)以及 逐步法(stepwise selection)等。 在使用DISCRIM过程进行判别分析之前,一般情 况下均需先调用STEPDISC过程对指标变量进行筛选, 以避免无关变量对判别分析结果的影响或指标变量过 多导致判别结果的不稳定。
一. SAS判别分析相关过程基本语法
8》控制输出选项 输出相关阵选项:BCORR、PCORR、TCORR、WCORR。 输出协差阵选项:BCOV(类间)、PCOV(合并)、TCOV(总)、 WCOV(类内)。 输出离差矩阵选项:BSSCP、PSSCP、TSSCP、WSSCP。 输出其它选项:ALL、ANOVA、DIATANCE、MANOVA、 SIMPLE、STDMEAN。 限制输出选项:NOPRINT、SHORT。
一. SAS判别分析相关过程基本语法 symbol语句是全局语句:
恢复symbol的默认值: goptions reset =symbol; *关于图形的设置恢复到默认值; goptions reset =global; *所有全局语句的设置恢复到默认值;
一. SAS判别分析相关过程基本语法
语句格式:
一. SAS判别分析相关过程基本语法
SYMBOL语句用来控制表示点的符号和点间的连线。其中n 是不同SYMBOL语句的序号,可以是1-99,缺省为1。选 项见下表。
SYMBOL语句的选项
选项 V = 符号 C = 颜色 CV =颜色 H = n<单位> POINTLABEL i = 连线方式 CI = 颜色 L = n W = n 意义 表示点使用的符号 表示点的符号的颜色及连线的 颜色 专指点的符号的颜色 指名符号的大小 在点的附近表明Y轴变量的值 指明连线的方式 专指连线的颜色 n为线型的序号 n表示线的宽度 0 – 空白线,1 - 实线,2 – 虚线 none, join, spline, needle 单位有:cell, cm, pct, pt, in 取值 plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circle black, red, green, blue, cyan, magenta, gray, pink, orange, brown, yellow
例:描述各总体类别的变量“GRADE”取A,B,C,D四个值,各总体先验概率分 布为0.1,0.3,0.5和0.1,则 PRIORS A=0.1 B=0.3 C=0.5 D=0.1;
一. SAS判别分析相关过程基本语法
(4) VAR语句 列出所有判别分析可能用到的变量名称。若此语句省略, 则数据集中未在其他语句中使用的全部数值型变量被作为 VAR变量来使用。 (5)TESTCLASS variable; 其中“variable”是描述检验数据集中的各总体类别的变 量名,它可以和原训练样本数据集中类别变量相同,也 可以不同,但二者必须是同类型的(即同为数值或非数 值变量)。若变量采用格式化输入,则二者的输入格式 也应相同。
一. SAS判别分析相关过程基本语法
STEPDISC过程语法 STEPDISC过程简化的格式如下:
PROC STEPDISC <选项列表>; CLASS <变量>; BY <变量列表>; VAR <变量列表>; RUN;
其中PROC STEPDISC语句和CLASS语句为 STEPDISC过程运行所必需的语句,其余语句均为可 选项。
PROC DISCRIM <选项列表>; CLASS <变量>; BY <变量列表>; ID <变量>; /*指定用于区别输出的标识*/ PRIORS <先验概率值>; TESTCLASS <变量>; TESTID <变量>; VAR <变量列表>; RUN;
其中PROC DISCRIM语句和CLASS语句是 DISCRIM过程的必选语句,其它均为可选项。
一. SAS判别分析相关过程基本语法
(1) PROC DISCRIM语句常用选项 PROC DISCRIM语句为调用DISCRIM过程的开始,语 句中可设置的选项如下: 1》输入数据集选项 Data=SAS-data-set: 指定欲进行分析的数据集; TESTDATA=SAS-data-set:指定检验数据集;该数据集 中定量变量名需与DATA=的输入数据集一致。 2》输出数据集选项 OUTSTAT=SAS-data-set: 生成一个输出SAS数据集,包 含各种统计量,如均值、标准差、相关阵及判别统计量等; OUT=SAS-data-set:生成一个输出数据集,包含输入数据, 后验概率和每个观测重新被归入的类。
DATA comp; INPUT day dhe meth@@; CARDS; 1 18 127 2 16 130 3 15 116 4 17 128 5 16 144 6 14 123.75 7 14 130 8 12 153.81 9 8 181 10 9 150 11 7 160 12 5 170 ; run; proc GPLOT DATA=comp; SYMBOL1 C=red V=dot I=spline; SYMBOL2 C=blue V=square I=join; plot dhe*day=1; RUN; */ vaxis=1 to 20 by 2; plot2 meth*day=2; */ vaxis=100 to 200 by 10 ;
一. SAS判别分析相关过程基本语法
1) PROC STEPDISC语句 PROC STEPDISC语句为调用STEPDISC过程的开 始,语句中可设置的选项及其功能与DISCRIM过程 类似。 2) CLASS语句 CLASS语句为STEPDISC过程所必需的语句,其语 法与前述的DISCRIM过程的同名语句完全相同。 3) VAR语句 指定筛选变量的范围,需要考察的变量必须全部在 VAR语句中指定,且须为数值型变量。如果忽略VAR 语句,则数据集中未在其他语句中使用的全部数值型 变量将被作为VAR变量来使用。
一. SAS判别分析相关过程基本语法
OUTCROSS=SAS-data-set:生成一个输出数据集,包含输 入数据,后验概率和每个观测通过交叉确认被归入的类。 OUTD=SAS-data-set:生成一个包含输入数据和每一个观 测的组密度估计的数据集; TESTOUT=SAS-data-set:生成一个输出SAS数据集,包含 检验数据集中的所有数据,后验概率和每个观测被归入的类。 TESTOUTD=SAS-data-set:生成一个输出SAS数据集,包 含检验数据集中的所有数据和对每一观测的组密度估计数据 集。 3》选择判别分析的方法选项 METHOD=NORMAL|NPAR:确定导出分类准则的方法,指 定为NORMAL时,假定各类样本服从多元正态分布,并导出 线性或二次判别函数;指定为NPAR时,采用非参数方法, 必须指定选项K=或R=中的一个。
第七讲:判别与聚类
王沛
河南大学数学与信息科学学院
E-mail: wp0307@126.com
1
内容提要
判别分析
SAS判别分析相关过程基本语法 判别分析实例
聚类分析
ቤተ መጻሕፍቲ ባይዱ
SAS聚类分析相关过程基本语法 聚类分析实例
判别分析
一. SAS判别分析相关过程基本语法
1、 DISCRIM过程语法 DISCRIM过程语句格式如下:
一. SAS判别分析相关过程基本语法
POOL=NO|TEST|YES:确定计算平方距离是根据合并样本协 方差阵还是组内协差阵,缺省为YES,采用样本合并协方差阵 导出线性判别函数。NO选项指定采用组内样本协方差阵得出 二次判别函数;TEST选项要求对组内协差阵的齐性进行检验, 根据检验结果建立线性或非线性判别函数进行判别归类。 SLPOOL=p:指定齐性检验的显著性水平,只有POOL=TEST 时才有此选项,缺省为0.10. 4》有关非参数判别的选项 K=k: 为k最近临准则指定一个k值。观测样品分入哪个组是基 于与样品最近邻的k个样品得到的信息。 R=r: 为核密度估计指定半径r. 两个选项不能同时用。 5》重新分类选项(仅当DATA=为一般SAS数据集时使用) LIST:对每个观测输出根据判别准则重新分类的结果。 LISTERR:只输出错误归类的观测的分类结果。
PLOT语句的选项
选项 FRAM | NOFRAM CFRAM = 颜色 AUTOHREF(AUTOV EREF) NOAXIS CAXIS = 颜色 CTEXT = 颜色 HAXIS = 值列举 VAXIS = 值列举 overlay 意义 在图形四周加入或不加入边框 边框内的颜色 在水平(垂直)轴的每个主刻度处 加入水平(垂直)参考线 取消坐标轴及相关的图形元素 设定轴的颜色 设定与轴相关字符的颜色 设定水平轴主刻度的值 设定垂直轴主刻度的值 多个图共坐标 说明 缺省为 加入 缺省为 白色