数学建模-判别分析

合集下载

第15讲 判别分析

第15讲 判别分析

0.03 0.09
0.068 0.18
0.22
0.039
0.084 0.066 0.029 0.32
0.012 0.041
0.085 0.076 0.019 0.3
0.01
0.04
0.064 0.072 0.02
0.25
0.028 0.038
0.054 0.065 0.022 0.28
0.021 0.04
距离判别法:首先根据已知分类的数据,分别计算各 类的重心,计算新个体到每类的距离,确定最短的距 离(欧氏距离、马氏距离)。 Fisher判别法:利用已知类别个体的指标构造判别 式(同类差别较小、不同类差别较大),按照判别 式的值判断新个体的类别。 Bayes判别法:计算新给样品属于各总体的条件概率, 比较概率的大小,然后将新样品判归为来自概率最 大的总体。
数学建模与数学实验
第15讲 判别分析
后勤工程学院数学教研室
实验目的
1.了解判别分析的基本内容。 2.掌握用数学软件求解判别问题。
实验内容
1.判别问题引例及基本理论。 2.用数学软件求解判别问题。 3.应用实例 4.实验作业。
一、判别分析概述
判别分析是根据观测到的某些指标对所研究的 对象进行分类的一种多元统计分析方法。
5
35 1 9 1 34 5.00 0.40 1.30
6
37 1 1 3 24 15.10 1.80 1.82
7
29 1 13 1 42 7.40 1.46 1.65
’linear’
即各组的先验分布均为协方差矩阵相同的 p 元正态分布,此时由
‘quadratic’ ‘mahalanobis’
样本得出协方差矩阵的联合估计 二次判别分类,假定各组的先验分布均为 p 元正态分布,但

判别分析数学建模

判别分析数学建模

1
26.673a
99.0
99.0
.982
2
.262a
1.0 100.0
.456
a.First 2 canonical discriminant fun analysis.
前面说过,投影的重要性是和特征值的贡献率有关。该表说明
第一个函数的贡献率已经是99%了,而第二个只有1%。当然
,二维图要容易看一些。投影之后,再根据各点的位置远近
PRRBiblioteka .086.029MS
.355
.743
MSR
.368
.173
CS
7.531
5.220
(Constant)
-57.521
-53.704
Fisher's linear discriminant functions
3.00 .554
41.616 .811
-.001 1.203
.081 2.742 -96.084
该数据有90个企业(90个观测值),其中30个属于上升型,
30个属于稳定型,30个属于下降型。这个数据就是一个 “训练样本”。
第4页,此课件共39页哦
Disc.sav数据
第5页,此课件共39页哦
根据距离的判别(不用投影)
Disc.sav数据有8个用来建立判别标准(或判别函数)的
(预测)变量,另一个(group)是类别。 因此每一个企业的打分在这8个变量所构成的8维空间中
下面一半(Cross validated)是对每一个观测值,
都用缺少该观测的全部数据得到的判别函数来判断的 结果。
这里的判别结果是100%判别正确,但一般并不一
定。
第16页,此课件共39页哦

判别分析

判别分析

(1) 1 n1 (1) X i X (1) n1 i 1

( 2)
X ( 2)
(1) ( 2) 1 X X ( (1) ( 2 ) ) , 2 2 1 ( S1 S2 ), n1 n2 2
其中Si ( X
数学建模培训课件
判别分析
邱国新
qiugx02@
Def :判别分析是在已知研究对象分成若干类型(或 组别)并已取得各种类型的一批已知样品观测 数据,在此基础上根据某些准则建立判别式, 然后对未知类型的样品进行分类.
判别分析和聚类分析往往联合起来使用,当 总体分类不清楚时,可先用聚类分析对原来的一批 样品进行分类,然后再用判别分析建立判别式以对 新样品进行判别. 按照判别准则的不同,判别方法又分为距离判别 法,Fisher判别法,Bayes判别法和逐步判别法.
(1)当 (1) ( 2 ) 时, D 2 ( X , G2 ) D 2 ( X , G1 ) 2[ X
1 (1) 令 ( ( 2 ) ), 2
(1) ( 2 )
2
] 1 ( (1) ( 2 ) )
W ( X ) ( X ) 1 ( (1) ( 2 ) )
G2总体
X 1( 2 ) (2) X2 (2) Xn 2
( 2) X 11 ( 2) X 21 ( 2) Xn 21 ( 2) X 12 ( 2) X 22 ( 2) Xn 22 ) X 1( 2 p ( 2) X2p ( 2) Xn 2p
1
15
where
n1
( 1) ( 2) d k xk xk ,

数学建模-判别分析

数学建模-判别分析


data rainfall; input year x1-x4 species; cards; 1951 0.58 82.0 44.0 40.6 1 1952 0.40 83.0 18.0 43.0 2 1953 0.55 85.0 36.0 30.7 2 1954 0.40 85.0 36.0 40.7 2 1955 0.48 88.0 49.0 43.0 2 1956 0.41 82.0 35.0 78.6 3 1957 0.65 80.0 29.0 33.2 1 1958 0.45 82.0 32.0 33.1 3 1959 0.39 81.0 27.0 46.5 3 1960 0.34 85.0 28.0 41.7 3 1961 0.42 84.0 38.0 20.4 3 1962 0.52 86.0 38.0 0.2 1 1963 0.46 88.0 25.0 56.7 2 1964 0.48 83.0 46.0 13.6 1 1965 0.53 84.0 41.0 32.3 1 1966 0.65 81.0 31.0 28.9 1 1967 0.66 83.0 38.0 46.6 1 1968 0.53 80.0 42.0 93.1 3 1969 0.56 85.0 18.0 16.3 3 1970 0.45 83.0 37.0 23.9 3 1971 0.34 80.0 42.0 26.3 3 1972 0.41 79.0 38.0 40.8 3 1973 0.53 83.0 23.0 61.3 3 1974 0.48 84.0 19.0 23.2 2 1975 0.30 85.0 27.0 17.5 2 1976 0.42 81.0 21.0 52.2 . 1977 0.52 81.0 38.0 45.8 . 1978 0.36 82.0 34.0 34.9 . 1979 0.43 84.0 34.0 60.5 . ; proc discrim out=wu list; class species; var x1-x4; id year; run; proc discrim out=wu simple wcov distance list; class species; var x1-x4; id year; run;

数学建模优秀课件聚类分析与判别分析

数学建模优秀课件聚类分析与判别分析


备注

在计算时,各种点间距离和类间距离的选 择是通过统计软件的选项实现的。不同的 选择的结果会不同,但一般不会差太多。

另外还有一些和距离相反但起同样作用的 概念,比如相似性等,两点越相似度越大, 就相当于距离越短。
相似性的度量 (样本点间距离的计算方法)
Euclidean距离 Squared Euclidean距离
1、点间距离的计算方法主要有: 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离
样品聚类:
对观测量(Case)进行聚类(不同的目的选 用不同的指标作为分类的依据,如选拔运动员 与分课外活动小组)。
变量聚类:
找出彼此独立且有代表性的自变量,而又 不丢失大部分信息。在生产活动中不乏有变量 聚类的实例,如:衣服号码(身长、胸围、裤 长、腰围)、鞋的号码。变量聚类使批量生产 成为可能。
2 G8 1 G6 1.5 G7 3.5 G9
第三部分 聚类分析的SPSS过程

在AnalyzeClassify下:
1、快速聚类(K-Means Cluster): 观测量 快速聚类分析过程。 2、分层聚类(Hierarchical Cluster):分层 聚类(进行观测量聚类和变量聚类的过程。
类和类之间的距离
由一个点组成的类是最基本的类;如 果每一类都由一个点组成,那么点间的距 离就是类间距离。但是如果某一类包含不 止一个点,那么就要确定类间距离。 类间距离是基于点间距离定义的:比如两 类之间最近点之间的距离可以作为这两类 之间的距离,也可以用两类中最远点之间 的距离作为这两类之间的距离;当然也可 以用各类的中心之间的距离来作为类间距 离。

判别分析建模(DNA序列)

判别分析建模(DNA序列)
f j ( x) = 1 ( 2π ) p / 2 | Σ |1 / 2 1 exp{− ( x − µ j )T Σ −1 ( x − µ j )}, j = 1, 2 2
上式两边取自然对数得
p 1 1 lnf j ( x) = − ln( 2π ) − ln | Σ | − ( x − µ j ) T Σ −1 ( x − µ j ) 2 2 2
解: apf=[1.14,1.78; 1.18,1.96;1.20,1.86;1.26,2.;1.28,2;1.30,1.96];
af=[1.24,1.72;1.36,1.74;1.38,1.64;1.38,1.82;1.38,1.90; 1.40,1.70;1.48,1.82;1.54,1.82;1.56,2.08]; x= [1.24,1.8;1.28,1.84; 1.4,2.04]; p1=6/(6+9)=0.4; p2=9/(6+9)=0.6; m1=mean(apf);m2=mean(af);s1=cov(apf);s2=cov(af); S=(5*s1+8*s2)/13; for i=1:3, d(i,:)=log(0.4)-0.5*((x(i,:)-m1)*inv(S)* (x(i,:)-m1)')- (log(0.6)0.5*((x(i,:)-m2)*inv(S)* (x(i,:)-m2)')); end
判别分析建模方法
德州学院数学系
STATISTICS & APPLIED MATHEMATICS

马氏距离判别分析

BAYES判别分析 判别分析 贴近度判别分析 判别分析的误差估计 DNA序列的处理方法 序列的处理方法
目 录
六 五

判别分析讲解

判别分析讲解

判别分析1.判别分析的适用条件(1)自变量和因变量间的关系符合线性假设。

(2)因变量的取值是独立的,且必须是事先就己经确定。

(3)自变量服从多元正态分布。

(4)所有自变量在各组间方差齐,协方差矩阵也相等。

(5)自变量间不存在多重共线性。

2.违背条件时的处理方法(1)当样本的多元正态分布假设不能满足的时候采取的措施和方法如下:<>如果数据的超平面是若干分段结构的话,采用分段判别分析。

<>如果数据满足方差和协方差的齐次性可以采用距离判别分析、经典判别分析、贝叶斯判别分析中的任何一种,因为此时三者是等价的,建议使用经典判别分析。

<>如果数据不满足方差和协方差的齐次性,则采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。

<>进行变量变换。

(2)方差和协方差的齐次性不能满足的时候可以采取的措施如下:<>增加样本,这有时可以使其影响减小。

<>慎重的进行变量变换。

<>采用经典判别分析、非参数判别分析、距离判别分析,这些方法无此适用条件。

<>在合乎总体实际情况的前提下,保证各个分组的样本量一样,判别分析中分组之间样本量一样可以带来以下几个好处:使得结果与方差齐次性假设不会偏离得太大;F检验时第二类错误(实际上为虚假的条件下正确的拒绝了原假设的概率)得到减小;使得均值更加容易比较和检验。

<>要是样本服从多元正态分布,采用二次判别,但是应该注意到二次判别分析没有计算判错率和统计检验的公式。

(3)存在多重共线性时可以采取的措施如下:<>增加样本量。

<>使用逐步判别分析。

<>采用岭判别分析。

<>对自变量进行主成分分析,用因子代替自变量进行判别分析。

<>通过相关矩阵结合实际的理论知识删去某些产生共线性的自变量。

显然,上述措施和线性回归中对共线性的处理方式是非常类似的。

数学建模 四大模型总结

数学建模 四大模型总结

四类基本模型1 优化模型1.1 数学规划模型线性规划、整数线性规划、非线性规划、多目标规划、动态规划。

1.2 微分方程组模型阻滞增长模型、SARS 传播模型。

1.3 图论与网络优化问题最短路径问题、网络最大流问题、最小费用最大流问题、最小生成树问题(MST)、旅行商问题(TSP)、图的着色问题。

1.4 概率模型决策模型、随机存储模型、随机人口模型、报童问题、Markov 链模型。

1.5 组合优化经典问题● 多维背包问题(MKP)背包问题:n 个物品,对物品i ,体积为i w ,背包容量为W 。

如何将尽可能多的物品装入背包。

多维背包问题:n 个物品,对物品i ,价值为i p ,体积为i w ,背包容量为W 。

如何选取物品装入背包,是背包中物品的总价值最大。

多维背包问题在实际中的应用有:资源分配、货物装载和存储分配等问题。

该问题属于NP 难问题。

● 二维指派问题(QAP)工作指派问题:n 个工作可以由n 个工人分别完成。

工人i 完成工作j 的时间为ij d 。

如何安排使总工作时间最小。

二维指派问题(常以机器布局问题为例):n 台机器要布置在n 个地方,机器i 与k 之间的物流量为ik f ,位置j 与l 之间的距离为jl d ,如何布置使费用最小。

二维指派问题在实际中的应用有:校园建筑物的布局、医院科室的安排、成组技术中加工中心的组成问题等。

● 旅行商问题(TSP)旅行商问题:有n 个城市,城市i 与j 之间的距离为ij d ,找一条经过n 个城市的巡回(每个城市经过且只经过一次,最后回到出发点),使得总路程最小。

● 车辆路径问题(VRP)车辆路径问题(也称车辆计划):已知n 个客户的位置坐标和货物需求,在可供使用车辆数量及运载能力条件的约束下,每辆车都从起点出发,完成若干客户点的运送任务后再回到起点,要求以最少的车辆数、最小的车辆总行程完成货物的派送任务。

TSP 问题是VRP 问题的特例。

● 车间作业调度问题(JSP)车间调度问题:存在j 个工作和m 台机器,每个工作由一系列操作组成,操作的执行次序遵循严格的串行顺序,在特定的时间每个操作需要一台特定的机器完成,每台机器在同一时刻不能同时完成不同的工作,同一时刻同一工作的各个操作不能并发执行。

用判别分析的方法判定DNA序列的类别_数学建模论文

用判别分析的方法判定DNA序列的类别_数学建模论文

用判别分析的方法判定DNA序列的类别摘要判别分析法是多元统计分析中的重要内容之一。

近年来,人们用判别分析的方法解决了不少在生产科研和日常生活中的实际问题。

本文用Fisher判别的思想,从变量检验入手,给出了对DNA序列进行不同分类的理论依据,并探讨错判概率与判别效率之间的关系。

通过对检验样本的回报情况分析可知,本文所建立的模型分辨率高(95%),错判率低(<1%),简单而易于运行,适合于各种长度的DNA序列的分类,因此实用性强,有较高的理论价值,为多元统计分析方法在生物信息学领域中应用的又一典型实例。

关键词:DNA序列、Fisher判别法、判别函数、错判率。

一、问题提出1.背景人类基因组计划中的DNA全序列图是一本记录着人类自生老病死及遗传进化的全部信息的“天书”。

这本大自然写成的“天书”是由4个字符A、C、G、T按一定的顺序排成的长约30亿的序列,其中没有断句,也没有标点符号,除了这4个字符表示4种碱基以外,人们对它包含的内容知之甚少,难以读懂,破译这部世界上最巨量信息的“天书”是二十世纪最重要的任务之一。

在这个目标中,研究DNA全序列具有什么结构,由这4个字符排成看似随机的序列中隐藏着什么规律,又是解读这部天书的基础,是生物信息学最重要的课题之一。

对DNA序列的逐步认识让人们相信DNA序列中存在着局部的和全局的结构,充分发掘序列的结构对理解DNA全序列是十分有意义的。

2.问题有20个已知类别的人工序列:A类,B类。

1. 从中提取特征,构造模型,找出合适的分类方法,并用该法对另20个给出的未知类别的人工序列进行分类,要求详述方法及给出计算程序。

2..对另给出的182个自然序列进行分类。

二.问题的分析本题重在从已知类别的DNA序列中提取某些特征,构造分类方法,提取的某些特征应满足以下条件:1)来源于已知样本。

2)具有给予未知类别的DNA序列分类的功能。

3)能较好的接受检验样本的检验。

全部地考虑各种因素(如碱基的排列组合,碱基间的键强及键长等等),无法得到分类方法。

判别分析(数学建模)资料讲解

判别分析(数学建模)资料讲解
Unstandardized coefficients
Function 1
.035 3.283 .037 -.007 .068 -.023 -.385 -3.166
2 .005 .567 .041 .012 .048 .044 -.159
-4.384
根据这两个函数,从任何一个观测值(每个观测值都有 7个变量值)都可以算出两个数。把这两个数目当成该 观测值的坐标,这样数据中的150个观测值就是二维平 面上的150个点。它们的点图在下面图中。
Disc.sav例子
利用SPSS软件的逐步判别法淘汰了不显著的流动 资金比例(cp),还剩下七个变量is,se,sa,prr, ms , msr , cs , 得 到 两 个 典 则 判 别 函 数 (Canonical Discriminant Function Coefficients):
0.035IS+3.283SE+0.037SA-0.007PRR+0.068MS-0.023MSR-0.385CS-3.166 0.005IS+0.567SE+0.041SA+0.012PRR+0.048MS+0.044MSR-0.159CS-4.384
Disc.sav数据
根据距离的判别(不用投影)
Disc.sav数据有8个用来建立判别标准(或判别函 数)的(预测)变量,另一个(group)是类别。 因此每一个企业的打分在这8个变量所构成的8维 空间中是一个点。这个数据有90个点, 由于已经知道所有点的类别了,所以可以求得每 个类型的中心。这样只要定义了如何计算距离, 就可以得到任何给定的点(企业)到这三个中心 的三个距离。 显然,最简单的办法就是离哪个中心距离最近, 就属于哪一类。通常使用的距离是所谓的 Mahalanobis距离。用来比较到各个中心距离的 数学函数称为判别函数(discriminant function).这 种根据远近判别的方法,原理简单,直观易懂。

数学建模判别分析模型

数学建模判别分析模型

对另外20个未标明类别 的DNA序列进行分类 对182个自然DNA 序列进行分类
如果将每个DNA序列都看作样本,那么 该问题就进一步提炼成一个纯粹的数学
问题:设有两个总体(类) 和 , G1 G2 其分布特征(来自各个总体的样本)已 知,对给定的新品 ,我们需要判 X 断其属于哪个总体(类)。 对于上面的数学问题,可以用很多成 熟的方法来解决,例如:
2
和 d ( X , G2 ) : 2 2 如果 d ( X , G1 ) d ( X , G2 ) 则判定 X G1 ; 2 2 反之,如果 d ( X , G1 ) d ( X , G2 ) 则判定 X G2 : 即 2 2
X G1 , if:d ( X , G1 ) d ( X , G2 ) ……(1) 2 2 X G2 , if:d ( X , G1 ) d ( X , G2 )
判 别 分 析 方 法
1.距离判别 2.贝叶斯(Bayes)判别 3.费希尔(Fisher)判别 4.判别分析模型的 显著性检验
3.1 距离判别
距离判别的基本思想:样品 X 离哪个总体的距离最近,就判断 X 属于哪个总体。 这里的“距离”是通常意义下的 距离(欧几里得距离:在 m 维欧几里 得空间 R 中,两点X ( x , x ,, x ) T 1 2 m 与 ( y , y ,, y )T Y 1 2 m 的欧几里得距离,也就 是通常我们所说的距离为 d 2 ( X , Y ) ( X 1 Y1 ) 2 ( X 2 Y2 ) 2 ( X m Ym ) 2 )吗? 带着这个疑问,我们来考虑这样 一个问题 :
, G2 设有两个正态总体G1和, Y ~ N ( 2 ,9 2 ) X ~ N ( 1 , 2 ) 现在有一个新的样品位于 A 处(参见图1)

判别分析法(数学建模相关习题)

判别分析法(数学建模相关习题)
i 1
1 1 2 , a 1 1 2 2
W x a ' x
举例
2、μ1 ≠ μ2,∑1 ≠ ∑2
d 2 x,1 x 1 1 x 1
'
d 2 x, 2 x 2 1 x 2
化简
d 2 x, 1 d 2 x, 2 2 x
x 1 , 若d 2 x, 1 d 2 x, 2 x 2 , 若d 2 x, 1 d 2 x, 2
1 2
2
1 ' 1 2 2x a 2a x '
0.0784 0.0647 0.0197 0.0217 总体样本离差矩阵 s1 0.0647 0.1350 s2 0.0217 0.0389
平均协方差阵的估计ˆ V
0.0075 0.0066 1 s1 s2 0.0066 0.0134 n1 n2 2
1
2
例题:对28名一级和25名健将级标枪运动员测试了6个 影响标枪成绩的训练指标; 30米跑(x1)、 投小铅球( x2 )、 挺举重量( x3 )、
抛实心球( x4 )、前抛铅球( x5 )、 五级跳( x6 )。
编号 组别 x1
Hale Waihona Puke x24.30 4.10 : 4.20 4.00
4.30
x3
82.3 87.48 : 89.20 103.00
平均 y=0.9625x+0.6065 用它来判定发现不好 2、心型平分线 取Af和Apf的中心(1.41,1.80), (1.22,1.93),垂直平分线方程是 y=1.52576x-0.1485

数学建模课件-判别分析

数学建模课件-判别分析

第二节 Bayes判别分析
(一).
Bayes准则
设有定义明确的g个总体π 1,π 2,…,π g, 分别为 X1,X2,…,Xp的多元正态分布。对于任何一个个体, 若已 知p个变量的观察值,要求判断该个体最可能属于哪一个 总体。 如果我们制订了一个判别分类规则, 难免会发生错 分现象。把实属第i类的个体错分到第j类的概率记为 P(j|i),这种错分造成的损失记为C(j|i)。 Bayes判别 准则就是平均损失最小的准则。按照这个准则去找一种 判别分类的规则,就是Bayes判别。
X1 X11A X21A „„ Xn11A X1A
„„ „„ „„ „„ „„ „„
Xm X1mA X2mA „„ Xn1mA XmA
编号 1 2 „„ n2 均值
X1 „ „„ „„ „„
Xm X1mB X2mB „„ Xn2mB XmB
令欲建立一个判别函数
Y(B) 7.0300 6.7616 6.8505 7.0413 7.2244 7.0880 6.7346 7.3152 7.2522
76.38
79.14
81.15
7.0331
判别分析步骤


1、确定判别指标(X1,X2和X3) 2、收集数据,得到训练样本 3、根据实测资料(训练样本)用判别分析方法可 建立判别函数 4、考核该判别函数是否有实用价值(回顾性 考核,前瞻性考核),其符合率达到要求则可 应用于实践。 5、实际应用未知类别样品的判别归类。
第二步 解此方程组,得C1 =0.007440、C2=0.032412、 C3=0.048055 故判别函数为 Y=0.007440 X1+0.032412X2+0.048055 X3

判别分析

判别分析

判别分析判别分析问题:在自然科学与社会科学的众多领域中,研究对象往往用某种方式已经分为若干类型,当得到一个新的样品,要确定该样品属于已知的类型中的那一类,这类问题属于判别分析。

判别分析模型:从统计数据分析的角度,判别分析的模型如下:设有k 个总体12,,,k G G G ,它们都是p 维总体,其数量指标()1,,Tp X X X =在各个总体下具有不同的分布特征。

对某一个新的样品数据()12,,,Tp x x x x =,要根据各总体的特征按一定的准则判断该样品应归属那一个总体。

一.距离判别1.马氏(Mahalanobis )距离设p 维总体G ,其数量指标()1,,Tp X X X =的均值向量为()()1,,Tp E X μμμ==,协方差矩阵为()()ij p p Var X σ⨯=∑=,其中(),1,2,,i i E X i p μ==()ov ,,,1,2,,ij i j C X X i j p σ==(1)设()12,,,T p x x x x =和()12,,,Tp y y y y =是来自总体G 的两个样品(即样本值),则x 与y 的马氏距离定义为(),d x y =而称()()()21,Td x y x y x y -=-∑-为x 与y 的马氏平方距离。

(2)样品()12,,,Tp x x x x =与总体G 的马氏距离定义为(),d x G =而称()()()21,Td x G x x μμ-=-∑-为x 与总体G 的马氏平方距离。

上述定义的马氏距离满足距离的三条基本性质:设x ,y ,z 是来自总体G 的三个样品,则(1) (),0d x y ≥,当且仅当x y =时(),0d x y =;(2)()(),,d x y d y x =; (3)()()(),,,d x y d x z d z y ≤ 2. 两个总体的判别设12,G G 为两个不同的p 维已知总体,其均值向量分别为1μ和2μ,协方差矩阵分别为10∑>和20∑>,设x 为一个待判样品,要判别x 属于哪个总体。

第二节判别分析

第二节判别分析

判别式系数
确定的原则:使两组间的组
间离差最大,而每个组的组内离差最小。
(二)费歇判别的数学原理
假设线性判别函数: 把两个总体的所有样品代入上面的判别式
分别对上面两式左右相加,再除以样品个数, 可得两个总体的重心:
最佳的线性判别函数:两个重心的距离越 大越好,两个组内的离差平方和越小越好。
组间差异为:
16.7
22.8
29.3 3.017 26.6
7
22.0
7.8
9.9
10.2
12.6
17.6 0.847 10.6
8
48.4
13.4
10.9
9.9
10.9
13.9 1.772 17.8
9
40.6
19.1
19.8
19.0
29.7
39.6 2.449 35.8
10
24.8
8.0
9.8
8.9
11.9
16.2 0.789 13.7
(
)
41
XTX是对称矩阵,线性代数理论告诉我们,对于一个 实对称矩阵,必 存 在一个正交矩阵A,能够将该矩 阵化成标准型,即:
42
正交矩阵A的第 i 列向量刚好可取为主成分向量 线性表达式系数:
那么矩阵
的特征向量和特征值分别为
挑选主要向量的标准:向量的大小,即向量的模作 为衡量依据。
43
由线性代数知:
33
如果这些数据形成一个椭圆形状的点阵(这在变量的
二维正态的假定下是可能的),那么这个椭圆有一个
长轴和一个短轴。
x2
F 1
F2
•• •••
•• •• •
•• • • •

数学建模 判别分析

数学建模  判别分析

它是 x 的二次函数,相应的判别规则为
x ∈ π 1 , 若W ( x ) ≤ 0 x ∈ π 2 , 若W ( x ) > 0
二、多组距离判别
§5.3 贝叶斯判别
一、最大后验概率准则 二、最小平均误判代价准则
一、最大后验概率准则
设有 k 个组 π 1 , π 2 ,⋯, π k ,且组 π i 的概率密度为 fi ( x ), 样品来自组 π i 的先验概率为 pi , i = 1, 2,⋯, k ,满 足 p1 + p2 + ⋯ + pk = 1。则 x 属于 π i 的后验概率为
系数。
误判概率
误判概率
P ( 2 |1) = P (W ( x ) < 0 | x ∈ π 1 )
P (1| 2 ) = P (W ( x ) ≥ 0 | x ∈ π 2 )
正态组的误判概率 设 π 1 ∼ N p ( µ1 , Σ ) , π 2 ∼ N p ( µ 2 , Σ ) ,则 ∆ P ( 2 |1) = P (1| 2 ) = Φ −
称为交叉验证法或刀切法。该方法既避免了样本数据在构造 判别函数的同时又被用来对该判别函数进行评价,造成不合 理的信息重复使用,又几乎避免了构造判别函数时样本信息 的损失。
2. Σ1 ≠ Σ 2 时的判别
可采用 (5.2.1)式作为判别规则的形式。另一种方式 是,选择判别函数为
W ( x ) = d 2 ( x, π 1 ) − d 2 ( x, π 2 ) ′ − ′ − = ( x − µ1 ) Σ1 1 ( x − µ1 ) − ( x − µ 2 ) Σ 21 ( x − µ 2 )
例5.2.1
抽取样本估计有关未知参数

6数学建模之判别分析

6数学建模之判别分析
第五章 判别分析
(Discriminate Analysis)
2016/1/5
江西理工大学理学院
距离判别
贝叶斯(Bayes)判别
费歇尔(Fisher)判别 逐步判别
2016/1/5
江西理工大学理学院
一、判别分析的基本思想
一、什么是判别分析?
判别分析 根据已知对象的某些观测指标和所属类别来判断未知对象所属类 别的一种统计学方法。
则距离判别法的判别函数为:
fi ( y) (y1i 0.5i1i)
判别规则为
f l ( y ) max f i ( y ),则 y Gl
1 i k
注:这与前面所提出的距离判别是等价的.
f l ( y ) max f i ( y ),意味着 d 2 ( y, Gl ) min d 2 ( y, Gi ).
贝叶斯判别法正是为了解决这两个问 题提出的判别分析方法。
2016/1/5
江西理工大学理学院
三、贝叶斯(Bayes)判别
贝叶斯判别法是通过计算被判样本 x 属于 k 个总体的条件概 率 P( n/x),n=1,2…..k. 比较 k个概率的大小,将样本判归为 来自出现概率最大的总体(或归属于错判概率最小的总体) 的判别方法。
待判
待判 待判 待判
2016/1/5
江西理工大学理学院
企业 序号 1 2
判别 类型 1 1
判别函数 得分 -.56509 -.89817
判别为1的 概率 .69479 .80234
判别的为2 概率 .30521 .19766
3 4
5 6 7 8
2016/1/5
1 1
2 2 2 2
-.59642 -1.02182
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。


data rainfall; input year x1-x4 species; cards; 1951 0.58 82.0 44.0 40.6 1 1952 0.40 83.0 18.0 43.0 2 1953 0.55 85.0 36.0 30.7 2 1954 0.40 85.0 36.0 40.7 2 1955 0.48 88.0 49.0 43.0 2 1956 0.41 82.0 35.0 78.6 3 1957 0.65 80.0 29.0 33.2 1 1958 0.45 82.0 32.0 33.1 3 1959 0.39 81.0 27.0 46.5 3 1960 0.34 85.0 28.0 41.7 3 1961 0.42 84.0 38.0 20.4 3 1962 0.52 86.0 38.0 0.2 1 1963 0.46 88.0 25.0 56.7 2 1964 0.48 83.0 46.0 13.6 1 1965 0.53 84.0 41.0 32.3 1 1966 0.65 81.0 31.0 28.9 1 1967 0.66 83.0 38.0 46.6 1 1968 0.53 80.0 42.0 93.1 3 1969 0.56 85.0 18.0 16.3 3 1970 0.45 83.0 37.0 23.9 3 1971 0.34 80.0 42.0 26.3 3 1972 0.41 79.0 38.0 40.8 3 1973 0.53 83.0 23.0 61.3 3 1974 0.48 84.0 19.0 23.2 2 1975 0.30 85.0 27.0 17.5 2 1976 0.42 81.0 21.0 52.2 . 1977 0.52 81.0 38.0 45.8 . 1978 0.36 82.0 34.0 34.9 . 1979 0.43 84.0 34.0 60.5 . ; proc discrim out=wu list; class species; var x1-x4; id year; run; proc discrim out=wu simple wcov distance list; class species; var x1-x4; id year; run;
数学建模
判别分析
2016/4/16 1
判别分析
判别分析的基本理论 距离判别 Bayes判别 上机实现
2016/4/16
2
判别分析


回归模型普及性的基础在于用它去预测和解释度 量(metric)变量。但是对于非度量(nonmetric)变量, 多元回归不适合解决此类问题。本章介绍的判别 分析来解决被解释变量是非度量变量的情形。在 这种情况下,人们对于预测和解释影响一个对象 所属类别的关系感兴趣,比如为什么某人是或者 不是消费者,一家公司成功还是破产等。 判别分析在主要目的是识别一个个体所属类别的 情况下有着广泛的应用。潜在的应用包括预测新 产品的成功或失败、决定一个学生是否被录取、 按职业兴趣对学生分组、确定某人信用风险的种 类、或者预测一个公司是否成功。在每种情况下, 将对象进行分组,并且要求使用这两种方法中的 一种可以通过人们选择的解释变量来预测或者解 释每个对象的所属类别。

其他常用选项 list:列出每个观测重复替换分类结果 wcov:输出组内协方差阵的估计 pcov:合并类内协方差阵的估计 distance:输出类均值之间的平方距离 simple:输出简单描述统计量


class variable; 该语句规定进行判别分析的分类变量 priors probabilities;
2016/4/16
目录 上页 下页 返回 结束
4
判别分析的基本理论
判别分析的假设之一,是每一个判别变量(解释变量)不 能是其他判别变量的线性组合。即不存在多重共线性问题。 判别分析的假设之二,是各组变量的协方差矩阵相等。判 别分析最简单和最常用的形式是采用线性判别函数,它们 是判别变量的简单线性组合。在各组协方差矩阵相等的假 设条件下,可以使用很简单的公式来计算判别函数和进行 显著性检验。 判别分析的假设之三,是各判别变量之间具有多元正态分 布,即每个变量对于所有其他变量的固定值有正态分布。 在这种条件下可以精确计算显著性检验值和分组归属的概 率。当违背该假设时,计算的概率将非常不准确。
2016/4/16
目录 上页 下页 返回 结束
15
Bayes判别
2016/4/16
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
16

SAS系统中的判别分析过程主要有三个,分 别是DISCRIM过程(一般判别过程)、 CANDISC过程(典型判别分析)和 STEPDISC过程(逐步判别过程)。其中一 般判别过程主要基于马氏距离导出判别函 数。


2016/4/16
27



判别分析的选项 method=normal|npar:确定导出分类准则的方法。当指定方 法为normal时,导出的的判别函数基于组内总体是正态分 布,而当指定方法为npar时,导出的判别函数基于非参数 方法,此时需要指定密度函数的估计方法。 pool=no|test|yes:确定计算平方距离是以合并协方差还是组 内协方差阵为基础。缺省时系统采用合并协方差阵导出一 个线性判别函数,此时暗含假定各类协方差阵相等。当 pool=no时,采用单个组内协方差阵导出判别函数。此时 由于组内协方差阵不等,所以导出的是二次判别函数。在 正态分布假设下,pool=test要求对各组内的协方差阵进行 齐性检验,依此结果建立判别函数。 slpool=p:指定协方差阵齐性检验的显著性水平,该选项只 有同时选择pool=test才有效,缺省时显著性水平为0.1。
9
距离判别
2016/4/16
目录 上页 下页 返回 结束
10
距离判别
多总体情况
1. 协差阵相同。
2016/4/16
目录 上页 下页 返回 结束2016/4/16
目录 上页 下页 返回 结束
12
距离判别
2016/4/16
目录 上页 下页 返回 结束
13
距离判别
2016/4/16
目录 上页 下页 返回 结束
14
Bayes判别
贝叶斯(Bayes)统计的思想是:假定对研究的对 象已有一定的认识,常用先验概率分布来描述这种 认识,然后我们取得一个样本,用样本来修正已有 的认识(先验概率分布),得到后验概率分布,各 种统计推断都通过后验概率分布来进行。将贝叶斯 思想用于判别分析,就得到贝叶斯判别。



若上例改用Bayes判别,由25年资料决定先 验概率,则可改用程序 proc discrim outstat=info method=normal list; class species; var x1-x4; priors prop; id year; run;


该语句指定各已知类出现的先验概率,用于做 bayes判别,具有三种形式: priors equal; 规定各类先验概率相等 priors prop; 规定各类的先验概率为各类样品的比 例 priors ‘1’=0.2 ‘2’=0.3 ‘3’=0.5; 规定各类的先验概率 水平 或 priors a=0.1 b=0.4 c=0.5; var variables; 规定做判别分析的随机变量
PROC DISCRIM过程



DISCRIM过程的一般格式 proc discrim <options>; class variable; id variable; by variables; freq variable; var variables; priors probabilities; run;
2016/4/16
目录 上页 下页 返回 结束
5
距离判别
两总体情况
2016/4/16
目录 上页 下页 返回 结束
6
距离判别
2016/4/16
中国人民大学六西格玛质量管理研究中心
目录 上页 下页 返回 结束
7
距离判别
2016/4/16
目录 上页 下页 返回 结束
8
距离判别
2016/4/16
目录 上页 下页 返回 结束
proc discrim data=rainfall pool=test slpool=0.05 list; class species; var x1-x4; priors prop; id year; run; proc discrim data=rainfall method=npar k=2 list; class species; var x1-x4; priors prop; id year; run;
3
目录 上页 下页 返回 结束
2016/4/16
判别分析的基本理论


有时会遇到包含属性被解释变量和几个度量解释变量的问题, 这时需要选择一种合适的分析方法。比如,我们希望区分好 和差的信用风险。如果有信用风险的度量指标,就可以使用 多元回归。但我们可能仅能判断某人是在好的或者差的一类, 这就不是多元回归分析所要求的度量类型。 当被解释变量是属性变量而解释变量是度量变量时,判别分 析是合适的统计分析方法。 判别分析能够解决两组或者更多组的情况。 当包含两组时,称作两组判别分析。当包含三组或者三组以 上时,称作多组判别分析(Multiple discriminant analysis)。 判别分析的假设条件 判别分析最基本的要求是,分组类型在两组以上;在第一阶段 工作是每组案例的规模必须至少在一个以上。解释变量必须 是可测量的,才能够计算其平均值和方差,使其能合理地应 用于统计函数。
相关文档
最新文档