第六讲判别分析
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
设x (x1, x2, , xm )和 y ( y1, y2, , ym ) 是从
期望μ= (1, 2, , m )和 方差阵Σ= ij mm 0
的总体G抽得的两个观测值,则 X与Y之间的Mahalanobis距离 d 2 (x,y) (x y)1(x y)
样本X和Gi类之间的马氏距离定义为X与Gi类重 心间的距离:
第一节 概述
一、什么是判别分析? 设有k个总体G1,G2,…,Gk,希望建立一
个准则,对给定的任意一个样本x,依据这个 准则就能判断它是来自哪个总体。应当要求这 种准则在某种意义下是最优的,如:错判概率 最小或错判损失最小等等。
11
判别分析的一般步骤
已知分类的 训练样本
判别分析方法
判别函数
建立判别准则
d 2 (x,Gi ) (x i )1(x i ) i 1,2, , k
18
马氏距离和欧式距离之间的差别
马氏距离 d 2(x,G) (x - μ)Σ-1(x - μ)
欧氏距离 d 2(x,G) (x - μ)(x - μ)
19
马氏距离有如下的特点:
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
未知样品 判别归类
判别分析利用已知类别的样本培训模型,为 未知样本判类的一种统计方法。
它产生于本世纪30年代。近年来,在自然科 学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类 别的若干样本的数据信息,总结出客观事物分类 的规律性,建立判别公式和判别准则。然后,当 遇到新的样本点时,只要根据总结出来的判别公 式和判别准则,就能判别该样本点所属的类别。
聚类分析是根据事物本身的特性研究个体分类 的方法,原则是同一类中的个体有较大的相似 性,不同类中的个体差异很大。
判别分析是根据表明事物特点的变量值和它们 所属的类,求出判别函数。根据判别函数对未 知所属类别的事物进行分类的一种分析方法。
判别分析和聚类分析有什么不同呢?
主要不同点就是,在聚类分析中一般人们事 先并不知道或一定要明确应该分成几类,完 全根据数据来确定。
y
=
-1
Σ2
x
-
μ
yy
=
-1
Σ2
x
-
μ
-1
Σ2
x
-
μ
=
x
-
μ
-
Σ
1 2
Σ
-
1 2
x
-
μ
= x - μ Σ-1 x - μ
20
3、若变量之间是相互无关的,则协方差矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ1
22
O
1
pp
21
此时的马氏距离为
1
11
1
d
2
(x,
G)
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多
种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础
设施等指标; 既可以用某一项来分类,也可以同时考虑多项
指标来分类。
分类学是人类认识世界的基础科学。聚类 分析和判别分析是研究事物分类的基本方法, 广泛地应用于自然科学、社会科学、工农业生 产的各个领域。
这样的判别虽然不能保证百分之百准确,但 至少大部分判别都是对的,而且用不着杀死 昆虫来进行判别了。
什么是判别分析
判别分析是根据观测到的某些指标对所研 究的对象进行分类的一种多元统计分析方法。 在医学研究中经常遇到这类问题;例如, 临床 上常需根据就诊者的各项症状、 体征、实验 室检查、病理学检查及医学影像学资料等对其 作出是否有某种疾病的诊断或对几种可能患有 的疾病进行鉴别诊断,有时已初步诊断为某种 疾病,还需进一步作出属该类疾病中哪一种或 哪一型的判断。
(x
-
μ)
22
(x - μ)
O
1
pp
x1 1 2 x2 2 2 L xp p 2
11
22
pp
22
(二)两个总体距离判别法
1、方差相等
先考虑两个总体的情况,设有两个协差阵相同 的p维正态总体,对给定的样本X,判别一个样本X到 底是来自哪一个总体,一个最直观的想法是计算X到 两个总体的距离。故我们用马氏距离来给定判别规 则,有:
在自然科学和社会科学的各个领域经常遇 到需要对某个个体属于哪一类进行判断。如动 物学家对动物如何分类的研究和某个动物属于 哪一类、目、纲的判断。
判别
有一些昆虫的性别很难看出,只有通过解剖 才能够判别;
但是雄性和雌性昆虫在若干体表度量上有些 综合的差异。于是统计学家就根据已知雌雄 的昆虫体表度量(这些用作度量的变量亦称 为预测变量)得到一个标准,并且利用这个 标准来判别其他未知性别的昆虫。
而在判别分析中,至少有一个已经明确知道 类别的“训练样本”,利用这个数据,就可 以建立判别准则,并通过预测变量来为未知 类别的观测值进行判别了。
聚类分析
聚类要注意的问题
聚类结果主要受所选择的变量影响。如果去掉一 些变量,或者增加一些变量,结果会很不同。
相比之下,聚类方法的选择则不那么重要了。因 此,聚类之前一定要目标明确。
另外就分成多少类来说,也要有道理。只要你高 兴,从分层聚类的计算机结果可以得到任何可能 数量的类。但是,聚类的目的是要使各类距离尽 可能的远,而类中点的距离尽可能的近,而且分 类结果还要有令人信服的解释。这一点就不是数 学可以解决的了。
判 别 分 析
概述 距离判别法 贝叶斯判别法 费歇尔判别法 逐步判别法
13
判别分析举例:
根据发掘出来的人类头盖骨的高、宽等特征来 判断其是男性还是女性。
在税务稽查中,要判断某企业是否偷漏税。 医生对病情的诊断。 信用风险的判定。 成功概率的判定。 企业运行状态或财务状况的判定。
14
二、判别分析的种类
1、按判别的组数分有两组判别分析和多组 判别分析
2、按区分不同总体所用的数学模型分有 线性判别和非线性判别
3、按判别准则的不同有距离判别、费歇尔 (Fisher)判别和贝叶斯(Bayes)判别。
15
判别分析的假设前提
每一个判别变量不能是其他判别变量的 线性组合
各组变量的协方差阵相等 各判别变量之间具有来自百度文库元正态分布
16
第二节 距离判别
(一)马氏距离 距离判别的最直观的想法是计算样品到第i类总 体的平均数的距离,哪个距离最小就将它判归哪个 总体,所以,我们首先考虑的是是否能够构造一个 恰当的距离函数,通过样本与某类别之间距离的大 小,判别其所属类别。