SAS典型判别过程

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

典型判别分析

SAS/STAT/Candisc 过程

典型判别分析的思路从几何的概念来说,是将高维空间的样本点投影到低维空间,利用低维空间的变量做判别分析,从而使分析更加直观,即对原始数据进行坐标变换,寻求能使总体尽可能分开的方向。

从代数的概念来说,就是根据一个分类变量和几个定量变量,通过典型判别过程得出典型变量,典型变量是定量变量的线性组合。典型判别分析得出与组有最大可能多重相关的变量的线性组合,最大的多重相关叫做第一典型相关,其线性组合称为第一典型变量1u ,线性组合的相关系数称为典型系数,次大的叫做第二典型相关,其线性组合称为第二典型变量2u 。

Candisc 过程可使用的语句为:

数据集选项:

DATA=SAS-data-set (SAS 数据集):指定欲分析的数据集。

OUT=SAS-data-set (SAS 数据集):生成一个包含原始数据和典型变量得分的数据集。

OUTSTAT=SAS-data-set (SAS 数据集):生成一个type=corr 包含各种统计量的输出数据集。

典型变量选项:

NCAN=n :指定将被计算的典型变量的个数。n 的值必须小于或等于变量的个数。

u 能使总体单位

打印选项:

BCORR:类间相关系数。

PCORR:合并类内相关系数。

TCORR全样本相关系数。

WCORR每一类水平的类内相关系数。

BCOV:类间协方差。

PCOV:合并类内协方差。

TCOV:全样本协方差。

WCOV:每一类水平的类内协方差。

BSSCP:类间SSCP矩阵。

PSSCP:合并类内修正SSCP矩阵。

TSSCP:全样本修正SSCP矩阵。

WSSCP:每一类水平的类内修正SSCP矩阵。

ANOVA:检验总体中每一个变量类均值相等的假设的单变量统计量。

SIMPLE:全样本合类内的简单描述性统计量。

ALL:产生以上所有的打印选项。

NOPRINT:不打印。

一般语句

By variables;

By语句与Proc candisc一起使用可以对由BY变量分组的观测进行独立分析。

Class variable;

Class变量的值定义分析的组,类水平由有格式的Class变量的值确定。Class变量可以是数字变量也可以是字符变量。

Var variables;

Var语句指定分析中包括的定量变量。如果省略Var语句,分析包括未在其他语句中列出的全部变量。

程序示例:该例是Fisher的Iris数据进行典型判别分析。数据从三种刚毛弋尾花品种各采集了50各样本。测量其萼片长度、萼片宽度、花瓣长度和花瓣宽度。做典型判别分析并观察第一和第二个典型变量的散点图,是否与原始数据的结果相符。

data iris;

input sepallen sepalwid petallen petalwid species @@;

label sepallen='Sepal Length in mm.'

sepalwid='Sepal Width in mm.'

petallen='Petal Length in mm.'

petalwid='Petal Width in mm.';

cards;

数据行;

proc candisc data=iris ncan=2 out=outcan distance anova;

class species;

var sepallen sepalwid petallen petalwid;

proc print data=outcan;

run;

proc plot;

plot can2*can1=species;run;

输出结果:

Plot of Canonical Variables

Canonical Discriminant Analysis

150 Observations 149 DF Total

4 Variables 147 DF Within Classes

3 Classes 2 DF Between Classes

类水平信息:包括分类变量取值,每类的频数、频率和权重

Class Level Information

SPECIES Frequency Weight Proportion

1 50 50.0000 0.333333

2 50 50.0000 0.333333

3 50 50.0000 0.333333

类间的马氏平方距离 Pairwise Squared Distances Between Groups

)(cov )()/(12j i j i x x x x j i D -'-=-

Squared Distance to SPECIES

From SPECIES 1 2 3

1 0 89.86419 179.38471

2 89.86419 0 17.20107

3 179.38471 17.20107 0

F Statistics, NDF=4, DDF=144 for

Squared Distance to SPECIES

From SPECIES 1 2 3

1 0 550.18889 1098

2 550.18889 0 105.31265

3 1098 105.31265 0

Prob > Mahalanobis Distance for

Squared Distance to SPECIES

From SPECIES 1 2 3

1 1.0000 0.0001 0.0001

2 0.0001 1.0000 0.0001

3 0.0001 0.0001 1.0000

单变量检验的统计量,当F p r >的值小于5%,则说明每个变量在类间的差异是非常显著的。

Univariate Test Statistics

F Statistics, Num DF= 2 Den DF= 147

Total Pooled Between RSQ/

Variable STD STD STD R-Squared (1-RSQ) F Pr > F

SEPALLEN 8.2807 5.1479 7.9506 0.618706 1.6226 119.2645 0.0001

SEPALWID 4.3587 3.3969 3.3682 0.400783 0.6688 49.1600 0.0001

PETALLEN 17.6530 4.3033 20.9070 0.941372 16.0566 1180.1612 0.0001

PETALWID 7.6224 2.0465 8.9673 0.928883 13.0613 960.0071 0.0001

Average R-Squared: Unweighted = 0.7224358 Weighted by Variance = 0.8689444

相关文档
最新文档