多元统计第五章判别分析
北大应用多元统计第五章

第五章 §5.1 距离判别法 两总体判别:简例1
简例1 :记二维正态总体N2((i), )为Gi(i=1,2)(两总体
协差阵相同),已知来自Gi(i=1,2)的样本数据阵为
X X (1)
42
3 3 4 21 1 180 0 2,
(2) 32
5 4 39 7 5.n k1 2 4,, n m 2 2 3
例如:在医学诊断中,一个病人肺部有阴影,医生要判 断他是肺结核、肺部良性肿瘤还是肺癌.这里肺结核病 人、良性瘤病人、肺癌病人组成三个总体,病人来源于 这三个总体之一,判别分析的目的是通过测得病人的指 标(阴影的大小,边缘是否光滑,体温多少……)来判断他 应该属哪个总体(即判断他生什么病).
第五章 判别分析
两总体判别: Σ1=Σ2 时的判别方法
对给定样品X,为比较X到各总体的马氏距离, 只须计算Yi(X ) :
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法
因为函数Yi(X)是X的线性函数
(i=1,2),故
Ci
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法
若考察这两个马氏距离之差,经计算可得:
22
28
X~32 (2) 011 220, A2 (X~(2))X~(2) 22 28
第五章 §5.1 距离判别法 两总体判别:简例1
样本合并组内A为 离差阵
AA1A2 22 2822 2844 146,故
其中
不妨设μ1>μ2 ,则a为正数,W(x)的符号取决于
x>μ或x<μ.
第五章 §5.1 距离判别法
两总体判别: Σ1=Σ2 时的判别方法(m=1时的错判率)
【精品】多元统计分析--判别分析SPSS实验报告

【精品】多元统计分析--判别分析SPSS实验报告一、实验目的1.掌握判别分析的基本原理和应用方法;2.掌握SPSS软件进行判别分析的具体操作;3.通过一个实例,学习如何运用判别分析对指标进行判别。
二、实验内容三、实验原理1.判别分析基本原理:判别分析(Discriminant Analysis),是一种统计学中的分类技术,它是对变量进行归类的技术。
判别分析是用来确定一个对象或自变量集合属于哪一个预设类型或者组别的过程。
判别分析能够生成一个函数,将数据点映射到特定的类型上。
判别分析的应用领域非常广泛,主要应用于以下领域:(1)股票市场(预测股价的涨跌与时间、公司发展情况等因素的关系);(2)医学(区分疾病、患者状态等);(3)市场调查(确定客户类型、产品或服务喜好);(4)产业分析(区分有助于产品销售的市场决策因素);(5)经济学(预测月度或季度的经济指标)。
3.判别分析的主要应用步骤:(1)建立模型:首先选择和收集数据,将收集的数据分为训练集和测试集;(2)训练模型:使用训练数据建立模型;(3)评估模型:通过模型诊断来评估建立的模型的好坏;(4)应用模型:对新的数据建立模型并进行预测。
四、实验过程1. 上机操作:1)打开SPSS软件,加载数据文件;2)选择分类变量和连续变量;3)选择训练数据集;4)建立模型;5)预测实验数据集。
2. 操作步骤:SPSS分析的步骤如下:1)将数据输入SPSS软件,确保数据格式正确;2)选择Analyse- Classify- Discriminant;3)有两种不同的分类变量,单分类或多分类,如果你要解释一个特定的分类变量,选择单分类。
如果你不确定哪个分类变量最适合,请尝试不同的选项;4)选择两个或更个你认为与指定分类变量相关的连续变量;5)选择要用于判别分析的数据集;6)确定分类变量分类比率。
这可以在设置选项中完成;7)点击OK,开始进行分析;8)评估结果,包括汇总、判别函数、方差-方差贡献、判别矩阵;五、实验结果选取鸢尾花数据,经过训练,得到如下表所示的结果。
实验报告-判别分析(多元统计)

实验报告5判别分析(设计性实验)(Discriminant analysis)实验原理:判别分析是判别样品所属类型的一种统计方法。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数目,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
本实验要求学生应用距离判别准则(即,对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类),对两总体和多总体情形下分别进行判别分析。
实验中需注意协方差矩阵相等时,选取线性判别函数;协方差矩阵不相等时,应选取二次判别函数。
实验题目一:为了检测潜在的血友病A携带者,下表中给出了两组数据:(t11a8)其中x1=log10(AHF activity),x2=log10(AHF antigen)。
下表给出了五个新的观测,试对这些观测判别归类;(t11b8)实验要求:(1)分别检验两组数据是否大致满足二元正态性;(2)分别计算两组数据的协方差矩阵,是否可以认为两者近似相等?(3)对训练样本和新观测合并作散点图,不同的类用不同颜色标识;(4)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(5)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(6)比较方法(4)和方法(5)的误判率。
实验题目二:某商学研究生院的招生官员利用指标――大学期间平均成绩GPA和研究生管理能力考试GMAT的成绩,将申请者分为三类:接受,不接受,待定。
下表中给出了三类申请者的GPA与GMAT成绩:(t11a6)GPA (x1)GMAT(x2)接受GPA(x1)GMAT(x2)不接受GPA(x1)GMAT(x2)待定2.96 596 1 2.54 446 2 2.86 494 33.14 473 1 2.43 425 2 2.85 496 3 3.22 482 1 2.2 474 2 3.14 419 3 3.29 527 1 2.36 531 2 3.28 371 3 3.69 505 1 2.57 542 2 2.89 447 3 3.46 693 1 2.35 406 2 3.15 313 3 3.03 626 1 2.51 412 2 3.5 402 3 3.19 663 1 2.51 458 2 2.89 485 3 3.63 447 1 2.36 399 2 2.8 444 3 3.59 588 1 2.36 482 2 3.13 416 33.3 563 1 2.66 420 2 3.01 471 33.4 553 1 2.68 414 2 2.79 490 33.5 572 1 2.48 533 2 2.89 431 33.78 591 1 2.46 509 2 2.91 446 33.44 692 1 2.63 504 2 2.75 546 33.48 528 1 2.44 336 2 2.73 467 33.47 552 1 2.13 408 2 3.12 463 33.35 520 1 2.41 469 2 3.08 440 33.39 543 1 2.55 538 2 3.03 419 33.28 523 1 2.31 505 2 3 509 33.21 530 1 2.41 489 2 3.03 438 33.58 564 1 2.19 411 2 3.05 399 33.33 565 1 2.35 321 2 2.85 483 33.4 431 1 2.6 394 2 3.01 453 33.38 605 1 2.55 528 2 3.03 414 33.26 664 1 2.72 399 2 3.04 446 33.6 609 1 2.85 381 23.37 559 1 2.9 384 23.8 521 13.76 646 13.24 467 1实验要求:(1)对上表中的数据作散点图,不同的类用不同的颜色标识;(2)用lda函数做判别分析,即在协方差矩阵相等的情形下作判别分析;(3)用qda函数做判别分析,即在协方差矩阵不相等的情形下作判别分析;(4)比较方法(2)和方法(3)的误判率;(5)现有一新申请者的GPA为3.21,GMAT成绩为497。
多元统计分析05 判别分析97页PPT

1
0
、
倚
南
窗
以
寄
傲
,
审
容
膝
之
易
安
。
1、最灵繁的人也看不见自己的背脊。——非洲 2、最困难的事情就是认识自己。——希腊 3、有勇气承担命运这才是英雄好汉。——黑塞 4、与肝胆人共事,无字句处读书。——周恩来 5、阅读使人充实,会谈使人敏捷,写作使人精确。——培根
多元统计分析05 判别分析
6
、
露
凝
无
游
氛
,
天
高
风
景
澈
。
7、翩翩新 来燕,双双入我庐 ,先巢故尚在,相 将还旧居。
8
、
,
于
我
若
浮
烟
。
9、 陶渊 明( 约 365年 —427年 ),字 元亮, (又 一说名 潜,字 渊明 )号五 柳先生 ,私 谥“靖 节”, 东晋 末期南 朝宋初 期诗 人、文 学家、 辞赋 家、散
判别分析-贝叶斯判别

判归哪一类(取. q1
q2
q3
1 ,C( 3
j
|
i)
1,i 0,i
j) j
P(好人 / 做好事)
P好人P做好事 / 好人 P好人P(做好事 / 好人) P(坏人)P(做好事
/
坏人)
0.5 0.9
0.82
0.5 0.9 0.5 0.2
P(坏人 / 做好事)
P坏人P做好事 / 坏人 P好人P(做好事 / 好人) P(坏人)P(做好事
/
坏人)
0.5 0.2
0.18
0.5 0.9 0.5 0.2
D1,D2,… ,Dk是R(p)的一个分划,判别法则为:
当样品X落入Di时,判 X Di i 1,2,3,,k
关键的问题是寻找D1,D2,… ,Dk分划,这 个分划应该使平均错判率最小。
【定义】(平均错判损失)
用 p( j / i) 表示将来自总体Gi的样品错判到总体 Gj的条件概率。
p( j / i) P( X Dj / Gi ) fi (x)dx i j
1 (x μ(i) )Σ1(x μ(i) ) 2
1 [2 ln 2
qi
(x
μ(i)
)Σ 1 (x
μ(i) )]
令 Fi (x) 2ln qi (x μ(i) )Σ1(x μ(i))
2 ln qi x' Σ1x μ(i)' Σ1x x' Σ1μ(i) μ(i)' Σ1μ(i)
令 Pi (x) 2ln qi 2μ(i)Σ1x μ Σ μ (i) 1 (i)
D1
q1C(2 /1) q1C(2 /1) f1(x)dx
D1
q2C(1/ 2) f2 (x)dx
多元统计第五章判别分析

第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
多元统计分析-判别分析

A类
; B类
。
问题二:请对 182个自然DNA序列()进行分类。它们都较长。 用你的分类方法对它们进行分类,并给出分类结果。
看了这道题,我们应当从何处入手呢,我们应该怎样进行分 析呢……
2.思路点拨
根据所给 的20个已 知类别的 DNA序列 所提供的 信息
4.判别分析模型的 显著性检验
3.1 距离判别
距离判别的基本思想:样品 X离哪个总体的距离最近,就判断 X 属于哪个总体。
T
X(x,x,,x) 空间这R里中的,“两距点离”是通常T与意义下的距离(欧几里得1距离2:在 mm 维欧几里得 Y(y,y,,y) 的欧1几2里)得吗距?离m,也就是通常我们所说的距离为
3.判别分析方法
km
G1,G2, ,Gk
F1(x),F2(x), ,Fk(x)
判别分析是用于判别样品所属类别的一种多元统计分析方法。判别分析问题都可以这样描
X 述:设有 个 维的总体
,其分布特征已知(如已知分布函数分别为
或者
已知来自各个总体的样本),对给定的一个新样品 ,我们需要判断其属于哪个总体。一般来
则判定
;如果样品 落入 之中,则判定
Rm
RmD1D2
D1
D2
。
X D1
X G1
X D2
XG2
B.
时的判别方法
1
2
1 2
W(X)
W ( X ) ( X ) ( X ) ( X ) ( X ) 当 时,根据判别准则(T 1)式 ,1 我们同样的给出判别函数 为 T 1
11 1
概率并不容易获得,其更多的来自于长期累积的经验。先验概率可以通过下面几种赋值方法得到:
多元统计实验五判别分析

数学与计算科学学院实验报告
院系
数学与计算科学学院
学号
姓名
成绩
课程
名称
应用多元统计实验
实验项目
名称
实验五判别分析
一 ,实验目的
会用SAS软件实现距离判别法、贝叶斯判别和费歇尔判别
二,实验原理
Discrim过程
功能:主要用于处理均衡设计,分析各总体均值之间是否有差异。
格式:
proc discrim <options>;
502333102
582741102
602945152
622245152
613046142
562539112
643245152
543045152
673144142
652646152
593248182
602751162
612840132
552438112
552644122
563045152
492433102
classspno;
varslenswidplenpwid;
run;
quit;
odshtmlclose;
结果分析:
(1)协方差矩阵相等的检验。
由p值=0.0001,说明在0.05水平下拒绝“协方差矩阵相等”的零假设,故用组内协方差矩阵进行判
别分析,即:使用二次判别函数。
(2)错判的各例及其分属各类别的概率。
18
2
60
27
51
16
2
61
28
40
13
2
55
24
38
11
2
55
26
44
12
多元统计分析05 判别分析97页PPT

6、最大的骄傲于最大的自卑都表示心灵的最软弱无力。——斯宾诺莎 7、自知之明是最难得的知识。——西班牙 8、勇气通往天堂,怯懦通往地狱。——塞内加 9、有时候读书是一种巧妙地避开思考的方法。——赫尔普斯 10、阅读一切好书如同和过去最杰出的人谈话。——笛卡儿
多元统计分析0Βιβλιοθήκη 判别分 析6、纪律是自由的第一条件。——黑格 尔 7、纪律是集体的面貌,集体的声音, 集体的 动作, 集体的 表情, 集体的 信念。 ——马 卡连柯
8、我们现在必须完全保持党的纪律, 否则一 切都会 陷入污 泥中。 ——马 克思 9、学校没有纪律便如磨坊没有水。— —夸美 纽斯
10、一个人应该:活泼而守纪律,天 真而不 幼稚, 勇敢而 鲁莽, 倔强而 有原则 ,热情 而不冲 动,乐 观而不 盲目。 ——马 克思
Thank you
多元统计分析之判别分析

第六章 判别分析§6.1 什么是判别分析判别分析是判别样品所属类型的一种统计方法,其应用之广可与回归分析媲美。
在生产、科研和日常生活中经常需要根据观测到的数据资料,对所研究的对象进行分类。
例如在经济学中,根据人均国民收入、人均工农业产值、人均消费水平等多种指标来判定一个国家的经济发展程度所属类型;在市场预测中,根据以往调查所得的种种指标,判别下季度产品是畅销、平常或滞销;在地质勘探中,根据岩石标本的多种特性来判别地层的地质年代,由采样分析出的多种成份来判别此地是有矿或无矿,是铜矿或铁矿等;在油田开发中,根据钻井的电测或化验数据,判别是否遇到油层、水层、干层或油水混合层;在农林害虫预报中,根据以往的虫情、多种气象因子来判别一个月后的虫情是大发生、中发生或正常; 在体育运动中,判别某游泳运动员的“苗子”是适合练蛙泳、仰泳、还是自由泳等;在医疗诊断中,根据某人多种体验指标(如体温、血压、白血球等)来判别此人是有病还是无病。
总之,在实际问题中需要判别的问题几乎到处可见。
判别分析与聚类分析不同。
判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。
对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型的。
正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。
判别分析内容很丰富,方法很多。
判别分析按判别的组数来区分,有两组判别分析和多组判别分析;按区分不同总体的所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。
判别分析可以从不同角度提出的问题,因此有不同的判别准则,如马氏距离最小准则、Fisher 准则、平均损失最小准则、最小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。
最新应用多元统计分析课后习题答案详解北大高惠璇(第五章部分习题解答)

X ( 2 ) * ( 2 ) X ( 2) * ( 2) P P 2 2 2 2 P U a P U b (1) ( 2 ) (1) ( 2 ) . . 1 2 2 1 (b) (a )
10
第五章 判别分析
10 20 18 12 20 7 ( 2) 15, 25, 1 12 32, 2 7 5 . 先验概率q1 q2 , 而L(2 | 1) 10, L(1 | 2) 75.试问样品 20及X 15 各应判归哪一类? X (1) 20 20 ( 2) (1) 按Fisher准则
(1) (1)
14
第五章 判别分析
18 12 (2)Bayes 准则(假设 1 2 12 32 ) 解 :由定理5.2.1, 只须计算 h1 ( X ) q2 L(1 | 2) f 2 ( X ), h2 ( X ) q1 L(2 | 1) f1 ( X ), 并比较大小, 判X属损失最小者.考虑 h1 ( X ) L(1 | 2) f 2 ( X ) 75 f 2 ( X ) h2 ( X ) L(2 | 1) f1 ( X ) 10 f1 ( X ) 1 ( 2) 1 ( 2) 7.5 exp{ ( X ) ( X ) 2 1 (1) 1 (1) ( X ) ( X )} 2
11
第五章 判别分析
或取B ( )( ) 10 20 100 100 15 25 10, 10 100 100 (组间) 类似于例5.3.1的解法, A-1B的特征根就等于
多元统计作业-判别分析

第五章 判别分析1、 已知两总体的概率密度分别为f 1(x )和f 2(x ),且总体的先验分布为p1=0.2,p2=0.8,误判损失为c (2|1)=50,c (1|2)=100. (1) 建立Bayes 判别准则(2) 设有一个新样品x 0满足f1(x 0)=6.3,f 2(x 0)=0.5,判定x 0的归属 解: (1)在X 处的值,判定:X ∈G 1,1()2()f x f x ≥2(1|2)1(2|1)q c q c ,即1()2()f x f x ≥8X ∈G 2,1()2()f x f x 2(1|2)1(2|1)q c q c ,即1()2()f x f x 8(2)1(0)2(0)f x f x =12.6≥8,故x 0∈G 12、某商学院在招收研究生时,以学生在大学期间的平均学分x 1与管理能力考试成绩x 2帮助录取研究生,对申请者划分为3类。
G 1:录取;G 2:未录取;G 3:待定。
下表记录了近期报考者的值和录取情况。
(1)在先验概率相等的假定下,进行Bayes 判别,并确定回代和交叉确认误判率;(2)在先验概率由样本比例计算的假定下,进行Bayes 判别,并确定回代和交叉确认误判率;(3)设有两名新申请者的(x 1,x 2)分别为(3.61,513)和(2.91,497),利用所建立判别准则判别他们应该归为哪一类? 解:(1)回代误判率:8/85=0.0941,交叉确认误判率同样为8/85=0.0941,第2号、3号、24号、30号、31号、58号、74号、75号被误判。
(2)号、30号、31号、58号、74号、75号被误判。
(3)建立Fisher线性判别准则W1=-151.902+60.431X1+0.172X2W2=-89.815+45.255X1+0.138X2W3=-110.818+53.024X1+0.137X2把(3.61,513)代入以上三式,W1=154.48991,W2=144.34955,W3=150.87964把(2.91,497)代入以上三式,W1=109.43621,W2=110.46305,W3=111.57084故第一个申请者判为W1(W1最大),第二个申请者判为W3(W3最大)。
应用多元统计分析习题解答_第五章(1)

第五章 聚类分析5.1 判别分析和聚类分析有何区别?答:即根据一定的判别准则,判定一个样本归属于哪一类。
具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。
聚类分析是分析如何对样品(或变量)进行量化分类的问题。
在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。
通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。
5.2 试述系统聚类的基本思想。
答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。
5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造?答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。
因为我们把n 个样本看作p 维空间的n 个点。
点之间的距离即可代表样品间的相似度。
常用的距离为 (一)闵可夫斯基距离:1/1()()pq qij ik jk k d q X X ==-∑q 取不同值,分为 (1)绝对距离(1q =)1(1)pij ik jk k d X X ==-∑(2)欧氏距离(2q =)21/21(2)()pij ik jk k d X X ==-∑(3)切比雪夫距离(q =∞)1()max ij ik jkk pd X X ≤≤∞=-(二)马氏距离(三)兰氏距离对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。
21()()()ij i j i j d M -'=--X X ΣX X 11()p ik jkij k ik jk X X d L p X X =-=+∑将变量看作p 维空间的向量,一般用(一)夹角余弦(二)相关系数5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则?答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。
多元统计分析第5章 案例分析 2020.5.6

1)建立Bayes判别准则 2)假设有一新样品 x0 满足 f1( x0 ) = 0.36
和 f2( x0 ) = 0.24, 判定 x0 的归属问题. 解 (1)
19
例3 设有两个正态总体 G1,G2,且
1
=
2 6
,2
=
4 2
,1
=
2
=
=
1 1
1 9
,
而其先验概率分布为 q1 = q2 = 0.5, 误判代价为
C(2 1) = e4 ,C(1 2) = e;试用Bayes判别法确定样本
X
3
=
5
应归属于哪一类?
解 由Bayes判别法知
W (x) =
f1( x) f2 ( x)
=
exp[(
x
−
)T
−1 ( 1
−
2
)]
exp( 4 x1
+
正常使用填空题需3.0以上版本雨课堂
作答
填空题 2分
Fisher判别法就是要找一个由p个变量组 成的 [填空1]使得各自组内点的 [填空2] 尽可能接近,而不同组间点的尽可能疏远
正常使用填空题需3.0以上版本雨课堂
作答
填空题 2分
判别分析中,若两个总体的协差阵相等,则 [填空1]判别与 [填空2]判别等价
• Bayes判别法 优点:错判率较小 不足之处: 需要获取总体的分布及参数值, 实现困难 实际问题中有时也没必要知道其分布
方法之优缺点
• Fisher判别 优点:可以分类,也可以分离 不足之处: 一般需假定各组的协方差阵相等 逐步判别 优点:对每个变量的地位进行评判 不足之处: 需结合Bayes判别一起使用
多元统计分析 第5章(判别分析)

Class Level Information
group
Variable Name
Frequency
Weight
Prior Proportion Probability
W ( X ) d 2 ( X , G2 ) d 2 ( X , G1 )
为X的二次函数,判别规则仍为
X G1 X G2 如W ( X ) 0 如W ( X ) 0
27
当m=1时,马氏距离的平方根
d i ( x)
Байду номын сангаас
x i
i
(i 1,2)
不妨设 2 1 , 1 2 , 观测值x满足: 2 x 1
1 2 1 2 1
30
1. 当两个总体的方差不相等时,二次判别 的阈值不是两个总体密度函数的交点, 二种错判概率相等P(1|2)= P(2|1).
2. 广义平方距离判别的阈值是两个总体密 度函数的交点,总的错判概率最小.
可见,二次判别与Bayes判别的不同.
m m
15
1. 当总体协差阵相等 ( 1 2 )时:
d 2 ( X , Gi ) ( X X ( i ) ) S 1 ( X X ( i ) )
1 1 (i ) (i ) 1 (i ) X S X 2 X ( S X ) ( X ) S X 2
17
d 2 ( X , G 2 ) d 2 ( X , G1 ) ( X X ( 2 ) ) S 1 ( X X ( 2 ) ) ( X X ( 1 ) ) S 1 ( X X ( 1 ) ) 2Y1 ( X ) 2Y2 ( X )
应用多元统计分析课后习题答案详解北大高惠璇(第五章部分习题解答)

特征向量时等号成立 .
又S 1B ( X (1) X (2) )( X (1) X (2) )S 1与
D 2 ( X (1) X (2) )S 1( X (1) X (2) )
有相同的特征值 .故1 D2;
18
第五章 判别分析
以下来验a就 证是D2对应的一个特征: 向量 S1BaS1(X(1) X(2))(X(1) X(2))S1(X(1) X(2))
应用多元统计分析
第五章部分习题解答
第五章 判别分析
5-1 已知总体Gi (m=1)的分布为: N((i),i2) (i=1,2) ,按
距离判别准则为(不妨设μ(1)>μ(2),σ1<σ2)
xx G G21,,若 若x**或 xx**,,
其中
解:
*
1(2) 1
2(1) 2
试. 求错判概率P(2|1)和P(1|2).
2
PU a PU b
(1) 2
(2) 1
(1) 1
(2) 2
.
.
(b) (a)
4
第五章 判别分析
5-2 设三个总体的分布分别为: G1为N(2,0.52), G2为
N(0,22),G3为N(3,12).试问样品x=2.5应判归哪一类? (1) 按距离准则; (2) 按Bayes准则 q1q2q31 3,L(j|i) 1 0,,ii jj
所以 q1f1(x)0.16,1类 3 似可得 q2f2(x)0.03,0q34f3(x)0.11,74
因0.1613>0.1174>0.0304,所以样品x=2.5判归G1.
7
第五章 判别分析
解三:后验概率判别法,
计算样品x已知,属Gt的后验概率:
《应用多元统计分析》第五版PPT(第五章)

, xini是从组πi中抽取的
(i=1,2,⋯,k)。
1 ni
xi
n1
xij
j 1
26
Σ1=Σ2=⋯=Σk=Σ的情形
❖ Σ的联合无偏估计为
S p
1 nk
k
ni
i 1
1 Si
其中n=n1+n2+⋯+nk,Si
样本协方差矩阵。
1 ni 1
ni j 1
( xij
xi )( xij
xi )为第i组的
➢ 要做破坏性的试验(如欲获知某电子仪器的寿命) ➢ 成本高昂(如许多疾病只有通过代价高昂的手术才
能确诊)。 ❖ 实践中往往是依据不完备信息来进行判别分类的。
3
判别分类的例子
❖ 有偿付力与无偿付力的财产责任保险公司。 测量变量:总资产,股票与债券价值,股票与债券
的市值,损失支出,盈余,签定的保费金额。 ❖ 非溃疡胃病组(胃功能紊乱者)与控制组(“正常”
5
本章讨论的判别分析
❖ 每一组中所有样品的p维指标值 x x1, x2 , , xp 构 成了该组的一个p元总体分布。 ❖ 我们对新样品x进行的判别归类将在很大程度上依赖
于各组的总体分布或其分布特征。 ❖ 距离判别和贝叶斯(Bayes)判别只能用于分类。 ❖ 费希尔(Fisher)判别即可用于分类,也可用于分
x x
1, 2,
若W x 0 若W x 0
因为
W x I1x c1 I2x c2
(5.2.14) (5.2.15)
25
❖ 实践中μ1,μ2,⋯,μk和Σ1,Σ2,⋯,Σk一般都是未知的,它们的值可
由相应的样本估计值代替。设xi1, xi2 , 一个样本,则μi可估计为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
它是 X 的二次函数,相应的判别规则为
X G1 , X G2 ,
如果 如果
W * ( X) 0 W * ( X) 0
2.多个总体的距离判别问题
问题:设有 k 个总体 G1 , G2 ,,G k ,其均值和协方差矩阵分 别是 μ1 , μ 2 ,, μ k 和 Σ1 , Σ 2 ,, Σ k ,ห้องสมุดไป่ตู้且 Σ1 Σ 2 Σ k Σ 。 对于一个新的样品 X ,要判断它来自哪个总体。 该问题与两个总体的距离判别问题的解决思想一样。计算新 样品 X 到每一个总体的距离,即
第五章 判别分析
第一节 引言
在我们的日常生活和工作实践中,常常会遇到判别分析问题。
案例一:为了研究中小企业的破产模型,选定4个经济指标:总负债率、
收益性指标、短期支付能力、生产效率性指标。对17个破产企业(1类)和21
个正常运行企业(2类)进行了调查,得关于上述四个指标的资料。现有8个 未知类型的企业的四个经济指标的数据,判断其属于破产企业一类还是正 常运行企业一类? 案例二:根据经验,今天与昨天的湿度差x1及今天的压温差x2 (气压与温度
二、距离判别的思想及方法
1. 两个总体的距离判别问题 问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是 1和 2,对于一个新的样品X,要判断它来自哪个总 体。 一般的想法是计算新样品X到两个总体的马氏距离D2(X
,
2 2 X G , 如果 D ( X , G ) D ( X, G2 ) G1)和D2(1X,G2),并按照如下的判别规则进行判断 1 2 2 X G , 如果 D ( X , G ) D ( X, G2 ) 2 1
x4
0.45 0.16 0.4 0.26 0.67 0.28 0.71 0.4 0.34 0.43 0.18 0.25 0.7 0.66 0.27 0.38 0.42 0.95 0.6 0.17 0.51
编号
24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
ˆ ( X) ( X X) α W
1 (1) ˆ 1 (X(1) X(2) ) 。这样,判别规则为 ˆ Σ ( X X(2) ) , α 2 ˆ ( X) 0 X G1 , 如果 W ˆ ( X) 0 X G , 如果 W 2
这里我们应该注意到:
( 1 ) 当 p 1 , G1 和 G2 的 分 布 分 别 为 N (1 , 2 ) 和
N ( 2 , 2 ) 时, 1 , 2 , 2 均为已知,且 1 2 ,则判别 1 2 0 ,判别函数为 系数为 2 W ( X ) ( X )
x4
0.35 0.33 0.63 0.69 0.69 0.35 0.4 0.52 0.55 0.58 0.26 0.52 0.56 0.2 0.38 0.48 0.47 0.18 0.44 0.3 0.45
0.0690 0.0814 (1) , X 1.3667 0.4376 0.8826 0.5695 0.5695 0.4201 A1 0.6899 0.5204 0.0829 0.0688 1.1292 0.2042 A2 1.7983 0.1609 0.2042 0.0570 0.2060 0.0044
x2
-0.41 -0.31 0.02 -0.09 -0.09 -0.07 0.01 -0.06 -0.01 -0.14 -0.3 0.02 0 -0.23 0.05 0.11 -0.08 0.03 0 0.11 -0.27
x3
1.09 1.51 1.01 1.45 1.56 0.71 1.5 1.37 1.37 1.42 0.33 1.31 2.15 1.19 1.88 1.99 1.51 1.68 1.26 1.14 1.27
之差)是预报明天下雨或不下雨的两个重要因素。今测得x1=8.1,x2=2.0,试
问应预报明天下雨还是预报明天不下雨?
20
10
D2---非雨区
W(x1,x2)
新样本点
0
-10
D1---雨区
X2
-20 -20 -10 0 10 20
X1
判别分析要解决的问题是,根据已有各个类别的若干样本的数
据信息,总结出客观事物分类的规律性,建立判别公式和判别 准则,并用它来判定新的观测样品应归属的组别。
1 其 中 μ (μ 1 μ 2 ) 是 两 个 总 体 均 值 的 平 均 值 , 2 α Σ 1 (μ1 μ 2 ) ,记
W (X) (X μ)' α
则判别规则式可表示为
X G1 , 如果 W ( X) 0 X G2 , 如果 W ( X) 0 这里称 W ( X) 为两总体距离判别的判别函数, 由于它是 X 的 线性函数,故又称为线性判别函数, α 称为判别系数。
( )
( 1,2,, k ) ,则 μ ( 1,2,, k )和 Σ 可估计为
n 1 1,2,, k X( ) Xi( ) , n i 1 k 1 ˆ Σ A , 其中 n n1 n2 nk n k 1
) 是来自总体 G 中的样本 , X(n
取线性判别函数为
X C , 1,2,, k W (X) I
相应的判别规则为 X C ) X Gi 如果 Wi ( X) max(I
1 k
针对实际问题,当 μ1 , μ 2 ,, μ k 和 Σ 均未知时,可以通过相 应的样本值来替代。设 X1 ,
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总 体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距 离定义为
D2 (X, Y) (X Y)Σ1 (X Y) 定义点 X 到总体 G 的马氏距离为 D2 (X, G) (X μ)Σ1 (X μ)
新的样品 X 落入 R1 推断 X G1 ,落入 R2 推断 X G2 。
实质:在某种意义上,以最优的性质对p维空间R p构造 一 个“划分”,这个“划分”就构成了一个判别规则。
例:对破产的企业收集它们在破产前两年的年 度财务数据,同时对财务良好的企业也收集同一 时期的数据。数据涉及四个变量:x1=现金流量/ 总债务,x2=净收入/总资产,x3=流动资产/流动 债务,以及x4=流动资产/净销售额。数据列于下 表,Ⅰ组为破产企业,Ⅱ组为非破产企业。
D2 (X, G ) (X μ )Σ1 (X μ ) Σ1X μ Σ1μ XΣ1X 2μ
X C ) XΣ1X 2(I 1 1 1 Σ μ , 1,2,, k 。 这里 I Σ μ , C μ 2
注:判别分析与聚类分析的联系与区别
本章介绍三种常用的判别分析方法:距离判别、贝叶斯( Bayes)判别和费希尔(Fisher)判别。
第二节
距离判别法
一、马氏距离的概念
p 设 p 维 欧 氏 空 间 R 中 的 两 点 X ( X1 , X 2 ,
, X p ) 和
Y (Y1, Y2 , , Yp ) 。
ˆ Σ
1 A , n 1
1,2,, k
三、判别分析的实质
设R1,R2,…,Rk是p维空间R p的k个子集,如果它们互
不 相交,且它们的和集为R p,则称R1,R2, …,Rk为R p的一 个划分。
在 两 个 总 体 的 距 离 判 别 问 题 中 , 利 用
W (X) (X μ)' α 可以得到空间 R p 的一个划分 R1 {X : W ( X) 0} R2 {X : W ( X) 0}
组别
Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ Ⅱ
x1
0.38 0.19 0.32 0.31 0.12 -0.02 0.22 0.17 0.15 -0.1 0.14 0.14 0.15 0.16 0.29 0.54 -0.33 0.48 0.56 0.2 0.47
x2
0.11 0.05 0.07 0.05 0.05 0.02 0.08 0.07 0.05 -0.01 -0.03 0.07 0.06 0.05 0.06 0.11 -0.09 0.09 0.11 0.08 0.14
x3
3.27 2.25 4.24 4.45 2.52 2.05 2.35 1.8 2.17 2.5 0.46 2.61 2.23 2.31 1.84 2.33 3.01 1.24 4.29 1.99 2.92
Σ 的一个联合无偏估计为
n
n2 1 和 X(2) Xi(2) n2 i 1 1 ˆ Σ ( A1 A2 ) n1 n2 2
这里
A ( Xi( ) X( ) )(Xi( ) X( ) ),
i 1
1, 2
' ^
此时,两总体距离判别的判别函数为 其中 X
表 破产状况数据
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
组别
Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ Ⅰ
x1
-0.45 -0.56 0.06 -0.07 -0.1 -0.14 0.04 -0.07 0.07 -0.14 -0.23 0.07 0.01 -0.28 0.15 0.37 -0.08 0.05 0.01 0.12 -0.28
和
A (Xi( ) X( ) )(Xi( ) X( ) ) , 1,2,, k