判别分析的理论依据以及SPSS实现方法
SPSS-判别分析
SPSS---Discriminant
.
Discriminant
➢ Analyze Classifly Discriminant …
.
三种情形下的判别分析
➢ 使用SPSS默认选项进行判别分析 ➢ 使用选择项进行判别分析 ➢ 进行逐步判别分析
.
SPSS中使用的判别方法
➢ SPSS的Discriminant过程中默认情况下使用的是 Fisher判别,给出的是标准化的Fisher判别函数 的系数
剩余判别指标
---Wilks’ Lambda
➢ 当资料来源于一个样本,计算出判别函数而又想推断 它在判别总体案例时的情况涉及到的统计显著性问题。
➢ “剩余”的含义:在之前计算的判别函数已经提取过 原始信息后,剩余的变量信息对于判别分组的能力
➢ 间接地进行判别函数的显著性检验,其值越小表示越 高的判别力
根据判别系数可以写出判别函数的具体形式。若有了 判别变量值代入后,即可得到样品在空间中的位置
.
Bayes判别系数
➢ Bayes分组便是判别分组
.
结构系数 ---structural cofficient
➢ 结构系数又称为判别负载(discriminant loading),实际上 是某个判别变量xi与判别值y之间的相关系数,它表达了 两者之间的拟合水平:绝对值很大(接近+1或-1),这 个函数表达的信息与这个变量表达的信息几乎完全相同, 接近0,两者之间几乎没什么共同之处
.
使用默认值进行判别分析
➢ 选用数据文件8.sav ➢ 将x1, x2,…, x7移入Independents框 ➢ 将Group移入Grouping Variables框 ➢ 对输出结果的认识
SPSS数据分析—判别分析
判别分析作为一种多元分析技术应用相当广泛,和其他多元分析技术不同,判别分析并没有将降维作为主要任务,而是通过建立判别函数来概括各维度之间的差异,并且根据这个判别函数,将新加入的未知类别的样本进行归类,从这个角度讲,判别分析是从另一个角度对数据进行归类。
判别分析由于要建立判别函数,因此和回归分析类似,也有因变量和自变量,并且因变量应为分类变量,这样才能够最终将数据进行归类,而自变量可以是任意尺度变量,分类变量需要设置为哑变量。
既然和回归分析类似,那么判断分析也有一定的适用条件,这些适用条件也和回归分析类似1.自变量和因变量的关系符合线性假定违反时,可以使用曲线直线化、二次判别分析等方法2.因变量取值是独立的,并且必须事先就已确定这个很好理解,既然最终要归类,就要实现确定归为哪几类3.自变量服从多元正态分布违反时影响不大4.自变量各组间方差齐性,协方差矩阵齐违反时,可使用经典判别分析、非参数判别分析、距离判别分析5.自变量间不存在共线性违反时可以采用类似于线性回归中对共线性的处理,如逐步判别分析,岭判别分析等,和线性回归一样,共线性可以使判别函数的系数发生变化,但是对于判别结果则影响不大判别分析根据不同的判别准则可以分为经典判别分析、贝叶斯判别分析、非参数判别分析等,SPSS中将其和聚类共用一个过程,下面我们来介绍这几种方法在SPPS中的应用一、经典判别分析收集了一些鸢尾花的数据,其中spno为类别,有三个水平,其余四个为变量,想通过此数据进行判别分析,建立判别函数以对花进行区分,数据组成如下分析—分类—判别二、贝叶斯判别分析贝叶斯体系的主要思想是根据先验概率去推证后验概率也就是实验结果,将其引入判别分析之后,就变成计算后验概率及错判率,用最大后验概率来进行判别,并使错判率最小。
在SPSS中,贝叶斯判别和经典判别只是设置上稍有不同。
spss教程_13-1(判别分析)
y
( ) i
ax
'
k n
( ) i
, 1,2, k , i 1,2, n ,
Hale Waihona Puke ( ) iS 总 ( y
1 i 1
K
y )( y
( ) i
y ) a Ta,
' '
S 类间 n ( y
1
k
( )
y )( y y
( )
( )
判别分析
分类: 1、按判别的组数来分,有两组判别分析和多 组判别分析 2、按区分不同总体所用的数学模型来分,有 线性判别和非线性判别 3、按判别对所处理的变量方法不同有逐步判 别、序贯判别。 4、按判别准则来分,有费歇尔判别准则、贝 叶斯判别准则
判别分析
判别分析和前面的聚类分析有什么不同呢? 主要不同点就是,在聚类分析中一般人们事 先并不知道或一定要明确应该分成几类,完 全根据数据来确定。 而在判别分析中,至少有一个已经明确知道 类别的“训练样本”,利用这个数据,就可 以建立判别准则,并通过预测变量来为未知 类别的观测值进行判别了。
费歇尔判别法
费歇尔判别方法是历史上最早提出的判别方 法之一,也叫线性判别法 费歇尔判别的思想是通过将多维数据投影到 某个方向上,投影的原则是将类与类之间尽 可能的分开,然后再选择合适的判别准则, 将待判的样本进行分类判别。
费歇尔判别法
一、判别原理 设有k个总体G1,G2,…,Gk,每类中含有样本数 分别为n1,n2,…,nk 假定所建立的判别函数为
ax ax (k ) ax ax (l )
则x属于第k组
逐步判别分析
一、逐步判别原理 逐步判别分析从模型没有变量开始,每一步 都对模型进行检验,把模型外对模型的判别 力贡献最大的变量加到模型中,同时考虑已 经在模型中但又不符合留在模型中条件的变 量从模型中剔除。
spss判别分析
判别的思想
判别分析:根据一批分类明确的 样本在若干指标上的观察值,建 立一个关于指标的判别函数和判 别准则,然后根据这个判别函数 和判别准则对新的样本进行分类, 并且根据回代判别的准确率评估 它的实用性。
判别函数(discriminant function):指的是一 个关于指标变量的函数。每一个样本在指 标变量上的观察值代入判别函数后可以得 到一个确定的函数值。
2、判别方法
SPSS系统提供的判别方法有马氏距离判别法、贝 叶斯概率判别法以及费氏多类判别模型法。 ⑴马氏(Mahalamobis)距离判别法 马氏距离判别法的思想就是建立马氏距离,当被 判断个案距离哪个总体中的马氏距离最小,该个案就 隶属于这个总体。假定有A、B两个总体,则: X∈A 若d(x,A)<d(x,B) X∈B 若d(x,A)>d(x,B) 待判 若d(x,A)=d(x,B)
从聚类方法的选择上
1、看数据的类型,如果参与分类的变量是连续变 量,层次聚类法、K-均值聚类法、以及两步聚类法 都是适用的。如果变量中包括离散变量(计数变量), 则需要将先对离散变量进行连续化处理。当数据量 较少时(比如小于100),两种方法都可以选用,当数 据量较多时(比如大于1000),则应该考虑选用K-均 值聚类法 2、要看分类的对象。如果是对样本分类,两种方 法都可用;如果是对变量分类则应选择层次聚类法 (至少SPSS的程序是这样)
注意对分类结果的检验
分类结果是否合理取决于它是否 “有用”,但分类结果是否可靠和稳定, 则需要反复聚类和比较。 一般来说,在所分的类别中,各类 所包含的对象(样本或变量)的数量应该 大致相当。至少这从表面上看更漂亮一 些。
问题
1、什么时候用快速聚类? 2、什么时候用分层聚类?
SPSS数据分析实用教程13 判别分析
—《SPSS数据分析教程》
第13章判别分析
本章要求
了解判别分析的基本概念; 掌握判别分析的应用范围; 了解判别分析的应用条件和限制; 了解Fisher判别分析法和Mahalanobis判别分析法; 掌握SPSS判别分析的应用。
13.1 判别分析简介
在科学试验、疾病诊断、考古、地质勘探、天 气预报、社会调查、植物分类等工作中,往往 要对当前研究的对象与以前已经得到的资料或 者知识进行比较,以便获知该对象是否是我们 已经掌握的对象中的某一种。 例如:
“统计量(S)”选项,
分类选择
保存选项
组统计量
组统计量
有效的 N(列表状态)
Response 0 Months
均值 12.73
标准差 8.107
未加权的 917
已加权的 917.000
Artbooks
.33
.607
917
917.000
1
Months
9.41
5.951
83
83.000
Artbooks
马式距离判别法:2个总体
利用待判断的个体到各个总体的马式距离的远 近来判断其归属。 用 表示总体1,其均值 1和协方差矩阵V1已知 ;用 表示总体2,其均值 2和协方差矩阵V2 已知。
马氏距离法判别规则
如果 ,则X 被归为类 G1,否则X归为类 G2
逐步判别分析(Step wise)
一般应用Box检验来对各个类别的协方差矩阵 是否相等进行检验。Box检验的统计量如下:
当分组协方差矩阵相等或者近似时,B等于或 者接近为0
判别分析方法与SPSS分析
F 0.67 x 0.266 x 0.672 x 0.115x
* 1 * 2 * 3
* 4
典型判别函rix Function 1 短 期支 付 能 力( 流 动 资 产 /流 动负 债 ) 总 负债 率 ( 现 金收 益 /总 负债 ) 收 益性 指 标 ( 纯 收入 /总 财产 ) 生 产效 率 性 指标 ( 流 动 资产 /纯 销售 额 ) .846 .751 .255 .031
关于逐步判别的选项。
下面来观察输出结果
一、首先做全模型 要求: 所有本来均进入; 先验概率相等; 输出判别函数; 做交叉核实; 画分类散点地图; 保存后验概率,判类结果和判别函数得分。
标准化的典型变量的函数
Standardized Canonical Discriminant Function Coefficients Function 1 总 负 债率 ( 现 金 收益 /总 负 债) 收 益 性指 标 ( 纯 收 入 /总 财 产) 短 期 支付 能 力 ( 流 动 资 产 /流 动 负债 ) 生 产 效率 性 指 标( 流 动 资 产 /纯 销 售额 ) .670 -.266 .672 -.115
关于协方差矩阵的要求。
第五步:选择判类的一些前提条件和输出。
Prior—对先验概率的要求,上一个选项是先验概率相等,后一个是以样本 的频率为先验概率; Display-对输出数据的要求。Casewise result——所有个案的结果; Summary table——判别结果的表格; Leave-out-classification——交叉核实。 Use Covariance—利用什么矩阵计算判别函数。组内的协方差矩阵,还是分组协 方差矩阵; Plot—对典型变量进行分组,画直方图。 分类区域散点图。
判别分析的SPSS实现
●Smallest F ratio.使任何两类间的最小的F值最大化 法.
●Rao' V 使 RaoV统计量最大化.可以对一个要加入到 模型中的变量的V值指定一个最小增量.选择此种方 法后,应该在该项下面的"V to dntce'"后的矩形框中输 这个增量的指定值.
②选择逐步判别停止的判据
选择逐步判别停止的判据在criteria组的矩形框中进 行.可供选择的判据有:
Indepents对话框
数据变量 输入框
数据判别分析
完成前面四步骤的操作即可使用各种系统默认值对工作数据 集的数据进行判别分析了.可以使用的方法有两种: 1直接运行:在主对话框中按用鼠标单击"Ok"按钮
2生成SPSS命令程序后再运行:在主对话框中按"Paste"按钮, 激活"Syntax"窗,在该窗中按"Run"按钮执行该语句窗中的程 序.
运行带有选择项的判别分析过程
运行Descriminant过程有两种方法: 1在主对话框中按"Ok"按钮,直接运行Descriminant过程. 2 在 主 对 话 框 中 按 "Paste" 按 钮 , 将 以 上 操 作 结 果 转 换 成 Descriminant过程的命令程序,显示在"Syntax"窗中.
5缺失值处理方式 在classification子对话框的最下面有一
个选择项,用以选择对缺失值的处理方法.
Replace missing value with mean用 该变量的均值代替缺失值.该选择项前面 的小矩形框中出现"x"时表示选定所示的 处理方法. 以上五项都给予了确定的选择 后,单击"continue"按钮,返回主对话框.
判别分析方法与SPSS
判别分析方法与SPSS判别分析(Discriminant Analysis)是一种常用的统计方法,用于分析两个或多个已知样本分类的特征,确定如何将新样本分配到已知分类中的方法。
该方法通常用于判别样本的所属类别或进行预测分类,并且可以应用于多个学科领域,如市场研究、医学、生物学等。
SPSS(Statistical Package for the Social Sciences)是一种常用的统计软件,广泛应用于社会科学领域的数据分析。
SPSS提供了丰富的统计方法和数据分析工具,包括描述统计、相关分析、回归分析等,同时也提供了判别分析方法。
在SPSS中,进行判别分析需要先导入数据集并选择“分类”方法。
在分类方法中,可以选择“线性鉴别法”或者“二次鉴别法”,通常选择线性鉴别法。
选择线性鉴别法后,可以选择“反向排序”和“选择必备输入变量”。
反向排序是指将判别函数的变量排序方式从最大向最小递减排序的方式转变为最小向最大递增排序。
选择必备输入变量是指程序会自动选择在判别分析中具有最大判别力的变量。
在SPSS中执行判别分析后,可以得到一些结果,其中最重要的是判别函数。
判别函数用于预测未知样本的类别,可以提供样本的判别得分,判别得分越高表示属于该类别的可能性越大。
判别分析的结果也包括统计指标,如Wilks' Lambda、标准化判别函数系数等。
Wilks' Lambda是判别分析的一个重要统计量,用于衡量所有判别函数的总效应,其值介于0和1之间,越接近0表示判别函数越有效。
标准化判别函数系数用于表示各个变量对判别函数的贡献,系数绝对值越大表示对判别函数的影响越大。
总之,判别分析是一种常用的统计方法,可用于分类和预测。
SPSS 是一种常用的统计软件,提供了判别分析方法和相关的数据分析工具,可以方便地进行判别分析并解释结果。
判别分析的一般步骤及SPSS实现
判别分析的SPSS实现
由此表可知,两个Fisher判别函数分别为: y 1 7 4 .9 9 1 .8 6 1 X 1 1 .6 5 6 X 2 0 .8 7 7 X 3 0 .7 9 8 X 4 0 .0 9 8 X 5 1 .5 7 9 X 6 y 2 2 9 .4 8 2 0 .8 6 7 X 1 1 .1 5 5 X 2 0 .3 5 6 X 3 0 .0 8 9 X 4 0 .0 5 4 X 5 0 .6 9 X 6
1
4
40.17 13.45 1.43 13.88 101.2 66.2
1
5
50.06 23.03 2.83 23.74 112.52 63.3
1
6
33.24 6.24 1.18 22.9 160.01 65.4
2
7
32.22 4.22 1.06 20.7 124.7 68.7
2
8
41.15 10.08 2.32 32.84 172.06 65.85
X 4 : 55岁组死亡概率 X5 : 80岁组死亡概率 X6 : 平均预期寿命
表7.1 各地区死亡概率表
X1
X2
X3
X4
X5
X6
类别
1
34.16 7.44 1.12 7.87 95.19 69.3
1
2
33.06 6.34 1.08 6.77 94.08 69.7
1
3
36.26 9.24 1.04 8.97 97.3 68.8
比较三个值,可以看出第一个待判样品应该属于第三组.
判别分析的SPSS实现
表7.3 Bayes判别法的输出结果
Classification Fu nction Coe fficie n ts
SPSS判别分析
SPSS判别分析SPSS(Statistical Package for the Social Sciences)是一款广泛使用的统计分析软件,也提供了强大的判别分析功能。
本文将介绍SPSS中判别分析的步骤、应用以及结果的解读。
一、判别分析的步骤1.数据准备:首先,将已知类别的样本数据录入SPSS中,每个样本对应一个实例,每个实例有一组预测变量和一个类别变量。
2.变量选择:选择要作为预测变量的特征或属性,并将其加入模型。
通常,只有连续型或分类型的自变量(预测变量)可以用于判别分析。
3.数据分割:将已知类别的样本数据分为训练集和测试集,一般按照70%的比例划分。
4.判别模型:使用SPSS中的判别分析功能建立判别模型。
在SPSS中,可以通过路径“分析-分类-判别”打开判别分析对话框。
5.模型评估:使用测试集来评估模型的准确性和性能。
可以查看分类结果的混淆矩阵,计算预测准确率、召回率、F1值等指标。
6.结果解读:根据模型的解读提示,分析各个预测变量对判别结果的重要性,找出主要影响判别的变量。
二、判别分析的应用领域判别分析广泛应用于各个领域,包括社会科学、医学、市场营销等。
以下是几个常见的应用案例:1.疾病诊断:通过患者的生物特征(如血液检测结果、基因表达谱等)来判断是否患有其中一种疾病。
2.风险评估:用于评估贷款申请者的信用风险,根据一些个人特征(如年龄、收入、居住地等)来预测违约概率。
3.市场细分:根据消费者的特征(如年龄、性别、购买行为等)将市场区分为不同的细分市场,以制定更精准的市场营销策略。
4.情感识别:通过分析文本数据(如社交媒体评论、产品评论等)来判断用户的情感倾向,以评估产品或服务的满意度。
三、结果解读判别分析的结果包括判别函数、判别系数和预测结果。
判别函数可以看作是一组线性加权的预测变量,用于将实例划分到不同的类别中。
判别系数表示了每个预测变量对判别结果的贡献程度,可以用于解释影响判断的主要变量。
SPSS判别分析
判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。
分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。
判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。
判别分析的基本原理[1]可以表述为:在一个P维空间R中,有K个已知的总体G1,G2,G3,…,GK,同时有样本点X(X1,X2,X3,…,XP),它属于且仅属于这K个总体中的一个,判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。
实际上判别分析的过程[2]分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。
同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。
判别分析的方法中较常使用的有Bayes判别和Fisher判别。
Bayes判别[3] [4]是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也需要知道样本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。
当某个样本点的判别得分为D时,则它属于第i个类别的概率为:P(Gi|D)=P(D|Gi)P(Gi)/ΣP(D|Gi)P(Gi)式中P(Gi)为先验概率,P(D|Gi)为在第i组判别得分D的条件概率,而P(Gi|D)为在第i组判别得分D的后验概率。
判断某个样本点是否属于某个类别,则需要判断属于该组的概率是否最大。
Fisher判别是依据方差分析原理建立起来的另外一种判别分析方法。
Fisher判别的基本思路[5] [6]就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):y(x)= ΣCjxj然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。
spss进行判别分析步骤_spss判别分析结果解释_spss判别分析案例详解
spss进⾏判别分析步骤_spss判别分析结果解释_spss判别分析案例详解1.Discriminant Analysis判别主对话框如图 1-1 所⽰图 1-1 Discriminant Analysis 主对话框(1)选择分类变量及其范围在主对话框中左⾯的矩形框中选择表明已知的观测量所属类别的变量(⼀定是离散变量),按上⾯的⼀个向右的箭头按钮,使该变量名移到右⾯的Grouping Variable 框中。
此时矩形框下⾯的Define Range 按钮加亮,按该按钮屏幕显⽰⼀个⼩对话框如图1-2 所⽰,供指定该分类变量的数值范围。
图 1-2 Define Range 对话框在Minimum 框中输⼊该分类变量的最⼩值在Maximum 框中输⼊该分类变量的最⼤值。
按Continue 按钮返回主对话框。
(2)指定判别分析的⾃变量图 1-3 展开 Selection Variable 对话框的主对话框在主对话框的左⾯的变量表中选择表明观测量特征的变量,按下⾯⼀个箭头按钮。
把选中的变量移到Independents 矩形框中,作为参与判别分析的变量。
(3)选择观测量图 1-4 Set Value ⼦对话框如果希望使⽤⼀部分观测量进⾏判别函数的推导⽽且有⼀个变量的某个值可以作为这些观测量的标识,则⽤Select 功能进⾏选择,操作⽅法是单击Select 按钮展开Selection Variable。
选择框如图1-3 所⽰。
并从变量列表框中选择变量移⼊该框中再单击Selection Variable 选择框右侧的Value按钮,展开Set Value(⼦对话框)对话框,如图1-4 所⽰,键⼊标识参与分析的观测量所具有的该变量值,⼀般均使⽤数据⽂件中的所有合法观测量此步骤可以省略。
(4)选择分析⽅法在主对话框中⾃变量矩形框下⾯有两个选择项,被选中的⽅法前⾯的圆圈中加有⿊点。
这两个选择项是⽤于选择判别分析⽅法的l Enter independent together 选项,当认为所有⾃变量都能对观测量特性提供丰富的信息时,使⽤该选择项。
第六讲判别分析(SPSS应用)
二、判别分析的基本要求: 1、分组类型在两组以上; 2、第一阶段每组样本(或案例)个数至少一个以上; 3、解释变量必须是可测量的
三、判别分析与聚类分析的比较: 1、判别分析是在已知研究对象分成若干类型并已取得各种类 型的一批已知样本的观测数据,在此基础上根据某些准则建 立判别式,然后对未知类型的样本进行判别分类。 2、聚类分析则是对研究对象的类型未知的情况下,对其进行 分类的方法。
类别 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2
2013-8-9
.38 .19 .32 .31 .12 -.02 .22 .17 .15 -.10 .14 .14 -.33 .48 .56 .20 .47 .17 .58 .04 -.06
.11 .05 .07 .05 .05 .02 .08 .07 .05 -1.01 -.03 .07 -.09 .09 .11 .08 .14 .04 .04 .01 -.06
2013-8-9
21 cxt
变量
均值向量
优秀 一般
协方差矩阵
资金利润率
劳动生产率 产品净值率
13.5
40.7 10.7
5.4
29.8 6.2
68.39
40.24 21.41
40.24
54.58 11.67
21.41
11.67 7.90
2013-8-9
22 cxt
线性判别函数:
y 0.60581x1 0.25362 x2 1.83679 x3 18.7359
利用已知类别的样本信息求判别函数,根 据判别函数对未知样本所属类别进行判别
如何判断(判断依据)?
SPSS判别分析
该病人应归入哪一类?
a Box's Test of Equality of Covariance Matrices
Box's M F df1 df2 Sig.
7.268 1.003 6 1907.441 .421
Tests the null hypothesis that the observed covariance matrices of the dependent variables are equal across groups. a. Design: Intercept+V1
(3).各组变量的协方差阵相等。判别分析最简单
和最常用的形式是线性判别函数,它们是判别变量
的简单线性组合。在各组协方差阵相等的假设条件
下,可以用简单的公式来计算判别函数和进行显著
性检验。 (4).各判别变量之间具有多元正态分布. 2 距离判别分析
一 两总体情况
设有两个总体G1和G2,x是一个p维样品。若能定 义两总体G1和G2的距离d(x,G1)和d(x,G2),则可用如 下的规则进行判别:若样品x到总体G1的距离小于到总
G V ) 0 , j i i ,若 ij (x x 待 判 , 若 某 个 V ) 0 ij (x
这时的判别规则为
ˆ 当未 , . . . , , , . . . , 知 时 , 的 估 计 与 协 方 差 阵 相 同 时 1 k 1 k a
的估计是一致的,而
k
a 1
A a , 式 中 n n 1 ... n k ,
na
j 1
( x (j a ) x ( a ) )( x (j a ) x ( a ) ) '
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4/35
判别分析内容很丰富,方法很多。判断分析按判别的总体
数来区分,有两个总体判别分析和多总体判别分析;按区分 不同总体所用的数学模型来分,有线性判别和非线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判别等。 判别分析可以从不同角度提出问题,因此有不同的判别准则, 如马氏距离最小准则、Fisher准则、平均损失最小准则、最 小平方准则、最大似然准则、最大概率准则等等,按判别准 则的不同又提出多种判别方法。本章仅介绍常用的几种判别 分析方法:距离判别法、Fisher判别法、Bayes判别法和逐 步判别法。
X2
7.44 6.34 9.24 13.45 23.03 6.24 4.22 10.08 25.74 11.2 5.41 3.02 15.02 25.03 2.01 6.66 7.33 6.22 15.36
X3
1.12 1.08 1.04 1.43 2.83 1.18 1.06 2.32 4.06 6.07 0.07 0.09 1.08 2.11 0.07 1.08 1.11 1.12 1.07
的概率分别为 q1 , q 2 ,,q k (先验概率) qi 0 , ,
q
i 1
k
i
1。
假设已知若将本来属于 Gi 总体的样品错判到总体 G j 时造成 的损失为 C ( j | i) , i, j 1,2,, k 。在这样的情形下,对于 新的样品 X 判断其来自哪个总体。
14/35
这样我们将会发现,判别分析问题实质上就是在某种意义
上,以最优的性质对p维空间R p构造一个“划分”,这个 “划分”就构成了一个判别规则。这一思想将在后面的各节 中体现的更加清楚。
第三节 贝叶斯(Bayes)判别法
11/35
一 Bayes判别的基本思想
二 Bayes判别的基本方法
12/35
从上节看距离判别法虽然简单,便于使用。但是该方法也有
第五节 实例分析与计算机实现
这一节我们利用SPSS对Fisher判别法和Bayes判别法进行计
18/35
算机实现。 为研究某地区人口死亡状况,已按某种方法将15个已知地区 样品分为3类,指标含义及原始数据如下。试建立判别函数, 并判定另外4个待判地区属于哪类? X1 : 0岁组死亡概率 X 2 :1岁组死亡概率 X 4 : 55岁组死亡概率 X5 : 80岁组死亡概率
8/35
2、多个总体的距离判别问题
设有 k 个总体 G1 , G2 ,,G k ,其均值和协方差矩阵分别是 问题:
μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 , , Σ k ,而且 Σ1 Σ 2 Σ k Σ 。 对于一个新的样品 X ,要判断它来自哪个总体。
X 3 : 10岁组死亡概率
X6 : 平均预期寿命
19/35
表4.1 各地区死亡概率表
X1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 待判 待判 待判 待判 34.16 33.06 36.26 40.17 50.06 33.24 32.22 41.15 53.04 38.03 34.03 32.11 44.12 54.17 28.07 50.22 34.64 33.42 44.02
它明显的不足之处。 第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。Bayes判别 法就是为了解决这些问题而提出的一种判别方法。
一、Bayes判别的基本思想
13/35
问题:设有 k 个总体 G1 , G2 ,,G k ,其各自的分布密度函数
f1 (x), f 2 (x), , f k (x) 互不相同的,假设 k 个总体各自出现
从 k 个总体中抽取具有
17/35
p 个指标的样品观测数据,借助方
差分析的思想构造一个线性判别函数
U ( X) u1 X 1 u2 X 2 u p X p uX
(4.19)
其中系数 u (u1 , u 2 ,, u p ) 确定的原则是使得总体之间 区别最大,而使每个总体内部的离差最小。有了线性判别 函数后,对于一个新的样品,将它的 p 个指标值代入线性 判别函数(4.19)式中求出 U ( X) 值,然后根据判别一定 的规则,就可以判别新的样品属于哪个总体。
定义点 X 到总体 G 的马氏距离为
Σ1 ( X μ) (4.3) D ( X, G) ( X μ) 这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离
2
的情形。
二、距离判别的思想及方法
1、两个总体的距离判别问题 问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是1和 2,对于一个新的样品X,要判断它来自哪个总 体。 一般的想法是计算新样品X到两个总体的马氏距离D2(X, G1)和D2(X,G2),并按照如下的判别规则进行判断
第四章 判别分析
第一节
第二节 第三节 第四节 第五节
1/35
引言
距离判别法 贝叶斯(Bayes)判别法 费歇(Fisher)判别法 实例分析与计算机实现
第一节
引言
2/35
在我们的日常生活和工作实践中,常常会遇到判别分析问题,
即根据历史上划分类别的有关资料和某种最优准则,确定一 种判别方法,判定一个新的样本归属哪一类。例如,某医院 有部分患有肺炎、肝炎、冠心病、糖尿病等病人的资料,记 录了每个患者若干项症状指标数据。现在想利用现有的这些 资料找出一种方法,使得对于一个新的病人,当测得这些症 状指标数据时,能够判定其患有哪种病。又如,在天气预报 中,我们有一段较长时间关于某地区每天气象的记录资料 (晴阴雨、气温、气压、湿度等),现在想建立一种用连续 五天的气象资料来预报第六天是什么天气的方法。这些问题 都可以应用判别分析方法予以解决。
h j (x) qi C ( j | i ) f i (x))
i 1
k
j 1,2,, k
(4.16)
然后再比较这 k 个误判平均损失 h1 (x), h2 (x), , hk (x) 的大小, 选取其中最小的,则判定样品 X 来自该总体。
第四节 费歇(Fisher)判别法
15/35
该问题与两个总体的距离判别问题的解决思想一样。计算新样品 X 到每一个总体的距离,即
D 2 ( X, G ) ( X μ )Σ1 ( X μ )
XΣ 1X 2μ Σ 1X μ Σ 1μ
1
XΣ X 2(I X C ) 1 1 这里 I Σ μ , C μ Σ 1μ , 1,2,, k 。 2
Fisher’s:给出Bayes判别函数的系数。(注意:这个选项不是
要给出Fisher判别函数的系数。这个复选框的名字之所以为 Fisher’s,是因为按判别函数值最大的一组进行归类这种思想 是由Fisher提出来的。这里极易混淆,请读者注意辨别。) Unstandardized:给出未标准化的Fisher判别函数(即典型判 别函数)的系数(SPSS默认给出标准化的Fisher判别函数系 数)。
X4
7.87 6.77 8.97 13.88 23.74 22.9 20.7 32.84 34.87 27.84 5.2 3.14 15.15 25.15 3.02 22.54 7.78 22.95 16.45
X5
95.19 94.08 97.3 101.2 112.52 160.01 124.7 172.06 152.03 146.32 90.1 85.15 103.12 110.14 81.22 170.6 95.16 160.31 105.3
7/35
X G1 , X G2 ,
如果 如果
D 2 ( X, G1 ) D 2 ( X, G2 ) D ( X, G1 ) D ( X, G2 )
2 2
(4.4)
这个判别规则的等价描述为:求新样品X到G1的距离与到G2
的距离之差,如果其值为正,X属于G2;否则X属于G1。
X6
69.3 69.7 68.8 66.2 63.3 65.4 68.7 65.85 63.5 66.8 69.5 70.8 64.8 63.7 68.3 65.2 69.3 68.3 64.2
类别 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 . . . .
20/35
(一) 操作步骤 1. 在SPSS窗口中选择Analyze→Classify→Discriminate,调 出判别分析主界面,将左边的变量列表中的“group”变量选 入分组变量中,将—变量选入自变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判 别分析。
第二节 距离判别法
5/35
一 马氏距离的概念
二 距离判别的思想及方法
三 判别分析的实质
6/35
为此 , 我们引入一种由印度著名统计学家马哈拉诺比斯
(Mahalanobis, 1936)提出的“马氏距离”的概念。 设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定 义为 (4.2) D2 (X, Y) (X Y)Σ1 ( X Y)
这样,我们以 Bayes 判别的思想得到的划分 R ( R1 , R2 ,, Rk )
为
Ri {x | hi ( x) min h j ( x)}
1 j k
i 1,2,, k
(4.15)
具体说来,当抽取了一个未知总体的样本值 X ,要判断它属于哪 个总体,只要前计算出 k 个按先验分布加权的误判平均损失
22/35
单击Continue按钮,返回主界面。