Iris数据判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Iris数据判别分析

一、提出问题

R.A.Fisher在1936年发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。x1:萼片长,x2:萼片宽,x3:花瓣长,x4:花瓣宽。取自3个种类G1,G2,G3,每个种类50个样品,共150个样品。数据如下表所示。

(1)进行Bayes判别,并用回代法与交叉确认法判别结果;

(2)计算每个样品属于每一类的后验概率;

(3)进行逐步判别,并用回代法与交叉确认法验证判别结果。

二、判别分析

用距离判别法,假定总体G1,G2,G3的协方差矩阵。计算各个总体之间的马氏平方距离形成的矩阵,其中

线性判别函数是

2.1 Bayes判别

假定。先验概率按比例分配,即

求得的线性判别函数,,中关于变量的系数以及常数项均与上面结果相同。

广义平方距离函数

后验概率

以下是SPSS软件判别分析结果。

分析觀察值處理摘要

未加權的觀察值N 百分比

有效150 100.0

已排除遺漏或超出範圍群組代碼0 .0

至少一個遺漏區別變數0 .0

遺漏或超出範圍群組代碼及

0 .0

至少一個遺漏區別變數

總計0 .0

總計150 100.0

分類處理摘要

已處理150 已排除遺漏或超出範圍群組代碼0 至少一個遺漏識別變數0 已在輸出中使用150

群組的事前機率

类别在前分析中使用的觀察值未加權加權

1 .333 50 50.000

2 .33

3 50 50.000

3 .333 50 50.000

總計 1.000 150 150.000 Bayes判别(用回代法)的结果见下表。

下表是Bayes判别(交叉确认法)的结果。

2.2 逐步判别

逐步判别的主要计算步骤如下:

第一步:输入原始数据矩阵

第二步:计算变量的总均值、组均值、总离差、组内离差。

第三步:给定挑选变量F—检验门坎值(临界值)。

第四步:逐步挑选变量。逐步挑选变量的思想与逐步回归中一样,现假设迭代已进行了S步,引进了r个变量,这r个变量号构成的集合为,剩下的m-r个变量号构成的集合为。

第五步:求判别函数。设迭代h步后,挑选变量结束,共选入r个变量进入判别式。

其中,q k为第k个总体的先验概率。判别系数的计算为

其中,表示为k个总体的第i个变量的均值。

第六步:判别归类。将已知样本进行回判,并算出错判概率,然后将待判样本进行归类。

得到结果如下表:

148 2 2 .336 4 .692 4.557 3 .308 6.178

149 3 3 .035 4 1.000 10.334 2 .000 47.405

150 1 1 .882 4 1.000 1.176 2 .000 95.890

三、结果分析

由结果可以看出,在进行判别分析时,选择挑选主要变量进行判别分析,还是用全部变量进行判别分析,要根据不同的情况来定。判别分析是一种有效的多元数据分析方法,他能科学地判断得到的样品属于什么类型,在纷繁的数据中揭示内在的规律,使我们对所研究的问题做出正确的判断。

欢迎您的下载,

资料仅供参考!

致力为企业和个人提供合同协议,策划案计划书,学习资料等等

打造全网一站式需求

相关文档
最新文档