第15讲 判别分析
判别分析
判别分析(discriminant analysis)什么是判别分析判别分析产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法。
近年来,判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。
判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。
当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。
判别分析按照判别的组数来区分,可以分为两组判别分析和多组判别分析。
判别分析的方法判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。
根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。
选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。
对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。
贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。
所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。
它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。
即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
例:世界经济统计研究(1995年)人文指数反映国家综合水平人文发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。
第15讲 判别分析
0.03 0.09
0.068 0.18
0.22
0.039
0.084 0.066 0.029 0.32
0.012 0.041
0.085 0.076 0.019 0.3
0.01
0.04
0.064 0.072 0.02
0.25
0.028 0.038
0.054 0.065 0.022 0.28
0.021 0.04
距离判别法:首先根据已知分类的数据,分别计算各 类的重心,计算新个体到每类的距离,确定最短的距 离(欧氏距离、马氏距离)。 Fisher判别法:利用已知类别个体的指标构造判别 式(同类差别较小、不同类差别较大),按照判别 式的值判断新个体的类别。 Bayes判别法:计算新给样品属于各总体的条件概率, 比较概率的大小,然后将新样品判归为来自概率最 大的总体。
数学建模与数学实验
第15讲 判别分析
后勤工程学院数学教研室
实验目的
1.了解判别分析的基本内容。 2.掌握用数学软件求解判别问题。
实验内容
1.判别问题引例及基本理论。 2.用数学软件求解判别问题。 3.应用实例 4.实验作业。
一、判别分析概述
判别分析是根据观测到的某些指标对所研究的 对象进行分类的一种多元统计分析方法。
5
35 1 9 1 34 5.00 0.40 1.30
6
37 1 1 3 24 15.10 1.80 1.82
7
29 1 13 1 42 7.40 1.46 1.65
’linear’
即各组的先验分布均为协方差矩阵相同的 p 元正态分布,此时由
‘quadratic’ ‘mahalanobis’
样本得出协方差矩阵的联合估计 二次判别分类,假定各组的先验分布均为 p 元正态分布,但
判别分析
2. Fisher判别法(先进行投影)
• Fisher判别法就是一种先投影的方法。 • 考虑只有两个(预测)变量的判别问题。 • 假定只有两类。数据中的每个观测值是二维空间的一个点。见图。 • 这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44
个点(用“*”表示)。按原来变量(横坐标和纵坐标),很难将这两种点分开。
• 从该表看,我们的分类能够100%地把训练数据的每一个观测值分到其本来的类。 • 该表分成两部分;上面一半(Original)是用从全部数据得到的判别函数来判断每一个
点的结果(前面三行为判断结果的数目,而后三行为相应的百分比)。 • 下面一半(Cross validated)是对每一个观测值,都用缺少该观测的全部数据得到的
1
30
3.00
0
0
30
30
%
1.00
100.0
.0
.0
100.0
2.00 3.00
6.7
90.0
3.3
100.0
.0
.0
100.0
100.0
a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all
开始就知道这些训练数据的各个观测值的归属,但即使是这些训练样本的观测值(企业)
按照这里推导出的分类函数来分类,也不一定全都能够正确划分。
Disc.txt例子
• 下面就是对我们的训练样本的分类结果(SPSS):
判别分析的基本原理
判别分析的基本原理和模型一、判别分析概述 (一)什么是判别分析判别分析是多元统计中用于判别样品所属类型的一种统计分析方法,是一种在已知研究对象用某种方法已经分成若干类的情况下,确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时,通常要给出用来衡量新样品与各已知组别的接近程度的指标,即判别函数,同时也指定一种判别准则,借以判定新样品的归属。
所谓判别准则是用于衡量新样品与各已知组别接近程度的理论依据和方法准则。
常用的有,距离准则、Fisher 准则、贝叶斯准则等。
判别准则可以是统计性的,如决定新样品所属类别时用到数理统计的显著性检验,也可以是确定性的,如决定样品归属时,只考虑判别函数值的大小。
判别函数是指基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的函数式或描述指标。
(二)判别分析的种类按照判别组数划分有两组判别分析和多组判别分析;按照区分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有距离准则、费舍准则与贝叶斯判别准则。
二、判别分析方法 (一)距离判别法1.基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,距离判别准则是对于任给一新样品的观测值,若它与第i 类的重心距离最近,就认为它来自第i 类。
因此,距离判别法又称为最邻近方法(nearest neighbor method )。
距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。
2.两组距离判别两组距离判别的基本原理。
设有两组总体B A G G 和,相应抽出样品个数为21,n n ,n n n =+)(21,每个样品观测p 个指标得观测数据如下,总体A G 的样本数据为:()()()()()()()()()A x A x A x A x A x A x A x A x A x p n n n p p 111212222111211该总体的样本指标平均值为:()()()A x A x A x p 21,总体B G 的样本数据为:()()()()()()()()()B x B x B x B x B x B x B x B x B x p n n n p p 222212222111211该总体的样本指标平均值为:()()()B x B x B x p 21,现任取一个新样品X ,实测指标数值为X =(p x x x ,,,21 ),要求判断X 属于哪一类?首先计算样品X 与A G 、B G 两类的距离,分别记为()A G X D ,、()B G X D ,,然后按照距离最近准则判别归类,即样品距离哪一类最近就判为哪一类;如果样品距离两类的距离相同,则暂不归类。
判别分析
1
x 2
2
若 x 1 , 则显然判 x 1 , 若 x 2 , 则显然判 x 2 , 下面讨论 1 x 2 , 此时有
d ( x, 1 ) d ( x, 2 ) x 1
1
2 x 1 2 (x * ) , 2 1 2
i i i i
由此得:
ˆ1
ˆ
n1
1 1 n1 1 ˆ2 xj ˆ x 1 , n2 n1 j 1
x x ห้องสมุดไป่ตู้
j 1
2 j 2
n2
1 (W1 W2 ) n1 n2 2
n2
其中 W1 ( xj1 x 1 )( xj1 x 1 )T , W2 ( xj2 x 2 )( xj2 x 2 )T 。
从而 u ( x) ~ N (0.5 2 , 2 ) ,所以
0 0.5 2 P(2 1) P(u ( x) 0 x 1 ) (0.5)
同理得: P(1 2) P( u ( x) 0 x 2 ) (0.5) 例 1 设判别因子只有一个, 即 p 1, 且假定 i ~ N ( i , 2 ) (i 1, 2) , 则判别函数为:
记 2 ( 1 2 )T 1 ( 1 2 ) ,则
aT ( 1 2 ) ( 1 2 )T 1 ( 1 2 ) 2
a T a ( 1 2 )T 1 1 ( 1 2 )
( 1 2 )T 1 ( 1 2 ) 2
判别分析
§1. 引言 在生产、 科学研究及日常生活中经常遇到需要对某一研究对象属于哪种情况 作出判断。如在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代, 由采样分析出的多种成份来判别此地是有矿还是无矿,是铜矿还是铁矿。在市场 预测中,根据以往调查所得的种种指标,判断下季度产品是畅销、平销或滞销。 在医疗诊断中,根据患者的不同症状和化验结果来诊断其患病类型等等。 从概率观点看,判别问题可以归结为如下模型:设共有 G 个总体:
判别分析
(1) 1 n1 (1) X i X (1) n1 i 1
( 2)
X ( 2)
(1) ( 2) 1 X X ( (1) ( 2 ) ) , 2 2 1 ( S1 S2 ), n1 n2 2
其中Si ( X
数学建模培训课件
判别分析
邱国新
qiugx02@
Def :判别分析是在已知研究对象分成若干类型(或 组别)并已取得各种类型的一批已知样品观测 数据,在此基础上根据某些准则建立判别式, 然后对未知类型的样品进行分类.
判别分析和聚类分析往往联合起来使用,当 总体分类不清楚时,可先用聚类分析对原来的一批 样品进行分类,然后再用判别分析建立判别式以对 新样品进行判别. 按照判别准则的不同,判别方法又分为距离判别 法,Fisher判别法,Bayes判别法和逐步判别法.
(1)当 (1) ( 2 ) 时, D 2 ( X , G2 ) D 2 ( X , G1 ) 2[ X
1 (1) 令 ( ( 2 ) ), 2
(1) ( 2 )
2
] 1 ( (1) ( 2 ) )
W ( X ) ( X ) 1 ( (1) ( 2 ) )
G2总体
X 1( 2 ) (2) X2 (2) Xn 2
( 2) X 11 ( 2) X 21 ( 2) Xn 21 ( 2) X 12 ( 2) X 22 ( 2) Xn 22 ) X 1( 2 p ( 2) X2p ( 2) Xn 2p
1
15
where
n1
( 1) ( 2) d k xk xk ,
判别分析Discriminant Analysis
(1)有无某种疾病 例:计算机用于胃癌普查,用于中风预报. (2)疾病的鉴别诊断 例:计算机用于对肺癌,肺结核和肺炎进行鉴别诊断. (3)患有某疾病中的哪一种或哪一型 例:鉴别诊断单纯性或绞窄性肠梗阻. 鉴别诊断阑尾炎中的卡他性,蜂窝织炎, 坏疽性和腹膜炎.
用一个实例来说明判别分析的基本思想
2. 判别分析步骤 欲用显微分光光度计对病人细胞进行检查以判断 病人是否患有癌症. (1)根据研究目的确定研究对象(样本)及所用指标 例:110例癌症病人和190例正常人. 指标:X1,X2和X3. X1: 三倍体的得分,X2: 八倍体的得分,X3: 不 整倍体的得分.(0-10分)
考虑事前概率可适当提高判别的敏感性. 事前概率可据于文献报道或以往的大样本研 究.但是困难在于事前概率往往不容易知道; 如果训练样本是从所研究的总体中随机抽取 的,则可用训练样本中各类的发生频率Q(Yj) 来估计各类别的事前概率q(Yj).如果事前概 率未知,而又不可以用Q(Yj)来估计q(Yj),就 只能将事前概率取为相等值,即取q(Yj)=1/g.
训练样本的数据内容与符号 ——————————————————————————————————— 解释变量 个体号 ——————————————————————— 类别变量(Y) X1 X2 … Xj … XP ——————————————————————————————————— 1 X11 X12 … X1j … X1P y1 2 X22 X22 … X2j … X2P y2 … … … … … … … … i Xi1 Xi2 … Xij … XiP y3 … … … … … … … … n Xn1 Xn2 … Xnj … XnP yP ————————————————————————————————————
判别分析
第9章判别分析判别分析是一种常用的统计分析方法。
判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。
例如,我们积累了某种病虫害各种发生状态的若干历史资料样本),希望从中总结出分类的规律性(即判别公式,在以后的工作中遇到新的发生状态(样本)时。
只要根据总结出来的判别公式判断它所属的类就行了。
动物、植物分类等都可以用判别分析来解决。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
判别函数一般形式是: Y = a1X1+a2X2+a3X3...+a n X n其中: Y为判别分数(判别值);X1,X2,X3:…Xn为反映研究对象特征的变量,a1、a2、a3…an为各变量的系数,也称判别系数。
可以看出我们这里所讲的是线性判别函数。
SPSS 对于分为m类的研究对象,建立m个线性判别函数。
对于每个个体进行判别时,把测试的各变量值代入判别函数,得出判别分数,从而确定该个体属于哪一类。
或者计算属于各类的概率,从而判断该个体属于哪—类。
还可建立标准化和未标准化的典则判别函数。
SPSS提供的判别分析过程是Discriminant过程。
[例子9-1]表9-1 浙江北部地区1950~1982年小麦赤霉病发生程度与气象因子数据表X1 X2 X3 X4 X5 y14.3 107.3 140.0 105.3 6.9 146.5 129.1 154.1 91.3 11.9 143.0 143.1 83.9 157.4 13.0 271.2 280.5 82.5 317.4 13.9 3.7 69.3 145.6 69.5 11.3 1123.9 297.3 64.6 307.2 13.7 385.4 115.4 39.4 144.7 11.1 138.4 77.3 94.6 143.2 13.9 279.6 96.8 85.4 99.0 9.6 233.4 74.7 129.5 103.4 9.9 148.1 95.9 155.3 92.0 10.5 17.7 116.3 158.2 148.1 15.1 18.9 225.3 104.2 195.5 13.8 134.8 150.7 165.0 124.6 11.9 144.4 147.2 88.3 158.7 12.7 274.2 232.7 94.1 154.6 13.5 3.1 80.9 148.8 81.3 11.0 1119.6 208.0 70.9 217.8 13.8 394.0 130.2 49.2 176.2 11.0 232.9 83.6 115.3 135.7 13.8 265.5 88.1 126.9 102.5 9.7 131.3 59.3 105.1 82.9 10.0 152.3 93.3 173.7 91.2 10.0 17.2 98.2 154.3 120.7 15.0 15.3 245.8 100.4 200.2 13.7 1128129浙江北部地区1950~1982年小麦赤霉病发生程度与气象因子研究,总结出上年12月将与(x1)、上年10月下旬至11月中旬和当年1~2月总降雨(x2)、上年10月下旬至11月上旬日照时数(x3)、上年10月下旬至12月中旬和当年2月总雨量(x4)以及当年3月中旬平均高文(x5)等5个因子,并将赤霉病情分为轻中重三级(y ,分别用1、2、3表示)。
判别分析完整课件
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di
判别分析方法
判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:y mxmd2 =(X-Y)样本X与G,之间的马氏距离定义为X与类重心间的距离,即:9护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k附注:1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来给定判别规则,有:如/(y, J2(y, G2),<yeGp 如〃2(y, G2)<d2(y9 Gj待判,如=〃2(y,G2)沪(y,Gj=(y 2)' "(y 2)(y J' L(y J=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)= 2[y —丫》-“2)2令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p yW(y) = (y - p)U = a f(y一p.)= a1(y1-/z1) + --- + a p(y p-/7p)= a'y _a'ji则前面的判别法则表示为y w Gp 如W (y) > 0,y e G2,如FT (y ) < 0o待判,如W(Y) = 0当忙“2和刀已知时, "1 2)是一个已知的P维向量,W (y)是y的线性函数,称为线性判别函数。
判别分析精讲
判别分析判别分析是一种常用的统计分析方法,根据观察或测量到若干变量值,判别研究对象属于哪一类的方法。
进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。
判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小。
线性判别函数一般形式是1122...n n y a x a x a x =+++,y 为判别分数(判别值),n x 为反映研究对象特征的变量,n a 为各变量的判别系数。
典则判别分析:建立典则变量代替原始数据文件中指定的自变量。
典则变量是原始自变量的线性组合。
用少量的典则变量代替原始的多个变量可以比较方便地描述各类之间的关系。
实验:实验数据见:判别分析2010.sav .例1:一个城市的居民家庭,按其有无割草机可分为两组,有割草机的记为一组为1π,没有割草机的一组记为2π,割草机工厂欲判断一些家庭是否购买割草机。
从1π和2π分别随机抽取12个样品,调查两项指标:1x =家庭收入,2x =房前屋后土地面积。
用y 作为二元被解释变量,有割草机的家庭用1表示,没有割草机的家庭用0表示,12,x x 作为解释变量。
实验步骤:打开判别分析2010.sav ,之后选择判别分析。
选择变量,定义范围分组变量:必须是离散变量,设置分类变量的范围选择变量:选择一部分符合条件的观测量进行判别函数的推导,而且有一个变量的某个值可以作为这些观测量的标识。
例如:新设一个变量group,选择group=1,则只有group=1的观测量参与判别函数的推导。
一起输入自变量:判别分析过程使用所有的自变量进行判别分析,建立全模型。
使用步进式方法:筛选能对观测量的特性提供丰富的信息的自变量进入判别分析。
在“方法”栏中作相应选择Wilks’lambda:每步都是Wilk的lambda统计量最小的进入判别函数。
未解释方差:每步都是各类不可解释的方差和最小的变量进入判别函数。
判别分析
P273
• 4、classify的设定
用于分类的先 验概率
选择计算时的 协方差矩阵 输出判别分析正确 或错误分组的个数 交叉验证
• 结果:
标准化的典型判别函数的系数
Fisher线性判别函数
关于不同判别函 数的作用
• 例:有一个样本,四个自变量的取值分别为 50、33、14,2,判定它到底归属于哪一类。 • 第一种:非标准化的辨别函数: • Step1: • D1=-2.526-0.063 x50-0.155 x33+0.196 x 14+0.299 x2=-7.499 • D2=-6.987+0.007 x50+0.218 x33-0.089 x 14+0.271 x2=-0.147 • Step2:领域图
逐步分析方法。当认为不是 所有自变量都能对观测量特 性提供信息时,选择该项, 因此需要判别贡献的大小再 进行选择。选中该单选按钮 时,“Method”按钮被激活, 可以进一步选择判别分析方 法。
• 3、statistic的设定
自变量的分组及平均数 与标准差 自变量的单因素方差分析 组间协方差矩阵的检验
判别分析
• §1. 基本原理 • §2. 基本步骤 • §3. 实例分析
§1. 基本原理
• 定义:判别分析先根据已知类别的事物的性质 (自变量),建立函数式(自变量的线性组合, 即判别函数),然后对未知类别的新事物进行 判断以将之归入已知的类别中。 • 判别分析是一种有效的对个案进行分类分析的 方法。和聚类分析不同的是,判别分析时,组 别的特征已知。 有学者在研究中提出,可以利 用判别分析来对聚类分析结果的准确性进行检 验。聚类
• 练习:iris.Sav
• 作业:4-26.sav
判别分析的原理及其操作
判别分析的原理及其操作1 判别分析的原理1.1 判别分析的涵义判别分析(Discriminant Analysis,简称DA)技术是由费舍(R.A.Fisher)于1936年提出的。
它是根据观察或测量到的若干变量值判断研究对象如何分类的方法。
具体地讲,就是已知一定数量案例的一个分组变量(grouping variable)和这些案例的一些特征变量,确定分组变量和特征变量之间的数量关系,建立判别函数(discriminant function),然后便可以利用这一数量关系对其他已知特征变量信息、但未知分组类型所属的案例进行判别分组。
沿用多元回归模型的称谓,在判别分析中称分组变量为因变量,而用以分组的其他特征变量称为判别变量(discriminant variable)或自变量。
判别分析技术曾经在许多领域得到成功的应用,例如医学实践中根据各种化验结果、疾病症状、体征判断患者患的是什么疾病;体育选材中根据运动员的体形、运动成绩、生理指标、心理素质指标、遗传因素判断是否选入运动队继续培养;还有动物、植物分类,儿童心理测验,地理区划的经济差异,决策行为预测等。
1.2 判别分析的假设条件判别分析的基本条件是:分组变量的水平必须大于或等于2,每组案例的规模必须至少在一个以上;各判别变量的测度水平必须在间距测度等级以上,即各判别变量的数据必须为等距或等比数据;各分组的案例在各判别变量的数值上能够体现差别。
判别分析对判别变量有三个基本假设。
其一是每一个判别变量不能是其他判别变量的线性组合。
否则将无法估计判别函数,或者虽然能够求解但参数估计的标准误很大,以致于参数估计统计性不显著。
其二是各组案例的协方差矩阵相等。
在此条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
其三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。
1.3 判别分析的过程1.3.1 对已知分组属性案例的处理此过程为判别分析的第一阶段,也是建立判别分析基本模型的阶段,即分析和解释各组指标特征之间的差异,并建立判别函数。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
硫化氢 0.084 0.055 0.074 0.05 0.13 0.11 0.095 0.09 0.066 0.076 0.072 0.065 0.089 0.092
二氧化碳 0.031 0.1 0.041 0.11 0.079 0.07 0.058 0.068 0.029 0.019 0.02 0.022 0.062 0.072
21 4 2
解 利用matlab软件包中的classify函数编程求解:
training=[50
33
14
2
67
31
56
24
89
31
51
23
46
36
10
2
65
30
52
20
58
27
51
19
57
28
45
13
63
33
47
16
49
254517源自703247
14
48
31
16
2
63
25
50
19
49
36
14
1
44
32
气体 样品 1 样品 2 样品 3 样品 4
氯 0.052 0.041 0.03 0.074
硫化氢 0.084 0.055 0.112 0.083
二氧化碳 0.0211 0.11 0.072 0.105
碳4 0.037 0.11 0.16 0.19
环氧氯丙烷 0.0071 0.021 0.056 0.02
2.判别分析的假设条件
判别分析对判别变量有三个基本假设。 其一是变量之间没有显著的相关。否则将无法 估计判别函数,或者虽然能够求解但参数估计的标 准误很大,以致于参数估计统计性不显著。 其二是各组案例的协方差矩阵相等。在此条件 下,可以使用很简单的公式来计算判别函数和进行 显著性检验。 其三是各判别变量之间具有多元正态分布,即 每个变量对于所有其它变量的固定值有正态分布。
目前信用 客户序
好坏
号 X1 X2 X3 X4 X5 X6 X7 X8
1 23 1 7 2 31 6.60 0.34 1.71
已履行还 贷责任
未履行还 贷责任
2 34 1 17 3 59 8.00 1.81 2.91 3 42 2 7 23 41 4.60 0.94 .94 4 39 1 19 5 48 13.10 1.93 4.36 5 35 1 9 1 34 5.00 0.40 1.30
判别分析(Discriminant Analysis,简称DA)技术 是由费舍(R.A.Fisher)于1936年提出的。
1.判别分析法
判别分析是一种有效的对个案进行分类分析的方 法,和聚类分析不同的是,判别分析时组别的特征已 知。 如:银行为了对贷款进行管理,需要预测那些类 型的客户可能不会按时归还贷款。已知过去几年中, 900个客户的贷款归还信誉度,据此可以将客户分成两 组:可靠客户和不可靠客户。再通过收集客户的一些 资料,如年龄、工资收入、教育程度、存款等,将这 些资料作为自变量,建立判别函数。那么,如果有150 个新的客户提交贷款申请,就可以利用创建好的判别 函数,对客户进行分析,从而判断客户是属于可靠客 户类还是属于不可靠客户类。故判别分析就是先根据 已知类别事物的性质,利用某种技术建立函数式,然 后对未知类别的新事物进行判断以将之归入已知类别 中。
序号
1
2
3
4
5
已
6
7
分
8
9
类
10
11
样
12
13
本
14
15
16
17
18
19
1
样品
2
3
花萼宽 1 3 3 1 3 3 2 2 3 2 1 3 1 1 2 3 2 1 1
花瓣长 50 67 89 46 65 58 57 63 49 70 48 63 49 44 58 63 50 51 50
64 51 49
环已烷 0.022 0.0073 0.021
1
污染分类
求它们的污染分类。
解利用matlab软件包中的classify函数编程求解:
clc,clear
training=[0.056 0.084 0.031 0.038 0.0081 0.022
0.04 0.055 0.1
0.11
0.022 0.0073
[class,err]=classify(sample,training,group,'linear') %线性判别法分类
计算结果:
class = 1 1 2 2
err = 0
即样品1、2为一类污染,样品3、4为二类污染, 出错概率为0。
例2 鸢尾花的分类
本例使用的数据是统计学家 Fisher 当年对鸢尾花观 测的数据(如下表)。其中蓝色箭头表示的量为分类变 量,含有三个水平,分别为 1、2、3,代表刚毛鸢尾花、 变色鸢尾花和弗吉尼亚鸢尾花。红框内的四个变量是测 量的变量值,分别表示花萼长、宽和花瓣长、宽。我们 的目的,就是通过这四个数值型变量,对未知的两种鸢 毛花进行判别分类。
sample=[0.052 0.084 0.0211 0.037 0.0071 0.022
0.041 0.055 0.11
0.11 0.021 0.0073
0.03 0.112 0.072 0.16
0.056 0.021
0.074 0.083 0.105 0.19
0.02 1]; %待判别的样本数据矩阵
碳4 0.038 0.11 0.048 0.1 0.17 0.16 0.16 0.18 0.32 0.3 0.25 0.28 0.26 0.2
环氧氯丙烷 0.0081 0.022 0.071 0.025 0.058 0.05 0.2 0.22 0.012 0.01 0.028 0.021 0.038 0.035
花瓣宽 33 31 31 36 30 27 28 33 25 32 31 25 36 32 26 27 23 38 30
28 38 30
花瓣长 14 56 51 10 52 51 45 47 45 47 16 50 14 13 40 49 33 16 16
56 19 14
花瓣宽 2 24 23 2 20 19 13 16 17 14 2 19 1 2 12 18 10 2 2
( ex1 )
0.048 0.089 0.062 0.26
0.038 0.036
0.045 0.092 0.072 0.2
0.035 0.032
0.069 0.087 0.027 0.05
0.089 0.021];
%用于构造判别函数的训练样本数据矩阵
group=[1;1;1;1;2;2;1;1;2;2;2;2;2;2;1]; %参数group是与training相应的分组变量
13
2
58
26
40
12
63
27
49
18
50
23
33
10
51
38
16
2
50
30
16
2]; %训练样本数据矩阵
group=[1;3 ; 3 ; 1; 3; 3; 2; 2; 3; 2; 1; 3; 1; 1; 2; 3 ; 2; 1 ; 1]; %分组变量
sample=[64
28
56 21
51
38
19 4
距离判别法:首先根据已知分类的数据,分别计算各 类的重心,计算新个体到每类的距离,确定最短的距 离(欧氏距离、马氏距离)。 Fisher判别法:利用已知类别个体的指标构造判别 式(同类差别较小、不同类差别较大),按照判别 式的值判断新个体的类别。 Bayes判别法:计算新给样品属于各总体的条件概率, 比较概率的大小,然后将新样品判归为来自概率最 大的总体。
3.判别分析的过程 1) 对已知分组属性案例的处理; 2)判别分析的基本模型及其估计过程 ; 3)建立判别函数的方法 ; (1)全模型法; (2)向前选择法; (3)向后选择法; (4)逐步选择法 。
4.判别分析的常用方法
判别分析的主要方法有距离判别方法、费希 尔 (Fisher)判别方法、贝叶斯(Bayes)判别方法:
其中sample是待判别的样本数据矩阵,training是用 于构造判别函数的训练样本数据矩阵,它们的每一行对 应一个观察,每一列对应一个变量,sample和training具 有相同的列数。
参数说明
表 9-3 classify 函数支持的判别函数类型
type 参数的可能取值
说明
线性判别分类(默认),假定 Gi : N p (ui , ),i 1, 2,L , k ,
0.05 0.074 0.041 0.048 0.0071 0.02
0.045 0.05
0.11
0.1
0.025 0.0063
0.038 0.13
0.079 0.17
0.058 0.043
0.03 0.11
0.07
0.16
0.05
0.046
0.034 0.095 0.058 0.16
0.2
0.029
计算结果:
class = 3 1 1
1err = 0
即样品1为弗吉尼亚鸢尾花,样品2、3为刚毛 鸢尾花,出错概率为0 。
二、作业
银行的贷款部门需要判别每个客户的信用好坏 (是否未履行还贷责任),以决定是否给予贷款。 可以根据贷款申请人的年龄(X1)、受教育程度 (X2)、现在所从事工作的年数(X3)、未变更住 址的年数(X4)、收入(X5)、负债收入比例 (X6)、信用卡债务(X7)、其它债务(X8)等来 判断其信用情况。下表是从某银行的客户资料中抽 取的部分数据,和某客户的如上情况资料为(53,1, 9,18,50,11.20,2.02,3.58),根据样本资料分 别用马氏距离判别法、线性判别法、二次判别法对 其进行信用好坏的判别。