Iris数据判别分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Iris数据判别分析
一、提出问题
R.A.Fisher在1936年发表的Iris数据中,研究某植物的萼片长、宽及花瓣长、宽。x1:萼片长,x2:萼片宽,x3:花瓣长,x4:花瓣宽。取自3个种类G1,G2,G3,每个种类50个样品,共150个样品。数据如下表所示。
(1)进行Bayes判别,并用回代法与交叉确认法判别结果;
(2)计算每个样品属于每一类的后验概率;
(3)进行逐步判别,并用回代法与交叉确认法验证判别结果。
二、判别分析
用距离判别法,假定总体G1,G2,G3的协方差矩阵。计算各个总体之间的马氏平方距离形成的矩阵,其中
线性判别函数是
2.1 Bayes判别
假定。先验概率按比例分配,即
求得的线性判别函数,,中关于变量的系数以及常数项均与上面结果相同。
广义平方距离函数
,
后验概率
,
以下是SPSS软件判别分析结果。
分析觀察值處理摘要
未加權的觀察值N 百分比
有效150 100.0
已排除遺漏或超出範圍群組代碼0 .0
至少一個遺漏區別變數0 .0
遺漏或超出範圍群組代碼及
0 .0
至少一個遺漏區別變數
總計0 .0
總計150 100.0
分類處理摘要
已處理150 已排除遺漏或超出範圍群組代碼0 至少一個遺漏識別變數0 已在輸出中使用150
群組的事前機率
类别在前分析中使用的觀察值未加權加權
1 .333 50 50.000
2 .33
3 50 50.000
3 .333 50 50.000
總計 1.000 150 150.000 Bayes判别(用回代法)的结果见下表。
下表是Bayes判别(交叉确认法)的结果。
2.2 逐步判别
逐步判别的主要计算步骤如下:
第一步:输入原始数据矩阵
第二步:计算变量的总均值、组均值、总离差、组内离差。
,
第三步:给定挑选变量F—检验门坎值(临界值)。
第四步:逐步挑选变量。逐步挑选变量的思想与逐步回归中一样,现假设迭代已进行了S步,引进了r个变量,这r个变量号构成的集合为,剩下的m-r个变量号构成的集合为。
第五步:求判别函数。设迭代h步后,挑选变量结束,共选入r个变量进入判别式。
,
,
,
其中,q k为第k个总体的先验概率。判别系数的计算为
,
,
其中,表示为k个总体的第i个变量的均值。
第六步:判别归类。将已知样本进行回判,并算出错判概率,然后将待判样本进行归类。
得到结果如下表:
148 2 2 .336 4 .692 4.557 3 .308 6.178
149 3 3 .035 4 1.000 10.334 2 .000 47.405
150 1 1 .882 4 1.000 1.176 2 .000 95.890
三、结果分析
由结果可以看出,在进行判别分析时,选择挑选主要变量进行判别分析,还是用全部变量进行判别分析,要根据不同的情况来定。判别分析是一种有效的多元数据分析方法,他能科学地判断得到的样品属于什么类型,在纷繁的数据中揭示内在的规律,使我们对所研究的问题做出正确的判断。
欢迎您的下载,
资料仅供参考!
致力为企业和个人提供合同协议,策划案计划书,学习资料等等
打造全网一站式需求