第六讲判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

设x (x1, x2, , xm )和 y ( y1, y2, , ym ) 是从
期望μ= (1, 2, , m )和 方差阵Σ= ij mm 0
的总体G抽得的两个观测值,则 X与Y之间的Mahalanobis距离 d 2 (x,y) (x y)1(x y)
样本X和Gi类之间的马氏距离定义为X与Gi类重 心间的距离:
第一节 概述
一、什么是判别分析? 设有k个总体G1,G2,…,Gk,希望建立一
个准则,对给定的任意一个样本x,依据这个 准则就能判断它是来自哪个总体。应当要求这 种准则在某种意义下是最优的,如:错判概率 最小或错判损失最小等等。
11
判别分析的一般步骤
已知分类的 训练样本
判别分析方法
判别函数
建立判别准则
d 2 (x,Gi ) (x i )1(x i ) i 1,2, , k
18
马氏距离和欧式距离之间的差别
马氏距离 d 2(x,G) (x - μ)Σ-1(x - μ)
欧氏距离 d 2(x,G) (x - μ)(x - μ)
19
马氏距离有如下的特点:
1、马氏距离不受计量单位的影响;
2、马氏距离是标准化后的变量的欧式距离
未知样品 判别归类
判别分析利用已知类别的样本培训模型,为 未知样本判类的一种统计方法。
它产生于本世纪30年代。近年来,在自然科 学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类 别的若干样本的数据信息,总结出客观事物分类 的规律性,建立判别公式和判别准则。然后,当 遇到新的样本点时,只要根据总结出来的判别公 式和判别准则,就能判别该样本点所属的类别。
聚类分析是根据事物本身的特性研究个体分类 的方法,原则是同一类中的个体有较大的相似 性,不同类中的个体差异很大。
判别分析是根据表明事物特点的变量值和它们 所属的类,求出判别函数。根据判别函数对未 知所属类别的事物进行分类的一种分析方法。
判别分析和聚类分析有什么不同呢?
主要不同点就是,在聚类分析中一般人们事 先并不知道或一定要明确应该分成几类,完 全根据数据来确定。
y
=
-1
Σ2
x
-
μ
yy
=
-1
Σ2
x
-
μ
-1
Σ2
x
-
μ
=
x
-
μ
-
Σ
1 2
Σ
-
1 2
x
-
μ
= x - μ Σ-1 x - μ
20
3、若变量之间是相互无关的,则协方差矩阵为对角矩阵
1
11
Σ
22
11
1
O
pp
Σ1
22
O
1
pp
21
此时的马氏距离为
1
11
1
d
2
(x,
G)
分类
俗语说,物以类聚、人以群分。 但什么是分类的根据呢? 比如,要想把中国的县分成若干类,就有很多
种分类法; 可以按照自然条件来分, 比如考虑降水、土地、日照、湿度等各方面; 也可以考虑收入、教育水准、医疗条件、基础
设施等指标; 既可以用某一项来分类,也可以同时考虑多项
指标来分类。
分类学是人类认识世界的基础科学。聚类 分析和判别分析是研究事物分类的基本方法, 广泛地应用于自然科学、社会科学、工农业生 产的各个领域。
这样的判别虽然不能保证百分之百准确,但 至少大部分判别都是对的,而且用不着杀死 昆虫来进行判别了。
什么是判别分析
判别分析是根据观测到的某些指标对所研 究的对象进行分类的一种多元统计分析方法。 在医学研究中经常遇到这类问题;例如, 临床 上常需根据就诊者的各项症状、 体征、实验 室检查、病理学检查及医学影像学资料等对其 作出是否有某种疾病的诊断或对几种可能患有 的疾病进行鉴别诊断,有时已初步诊断为某种 疾病,还需进一步作出属该类疾病中哪一种或 哪一型的判断。
(x
-
μ)
22
(x - μ)
O
1
pp
x1 1 2 x2 2 2 L xp p 2
11
22
pp
22
(二)两个总体距离判别法
1、方差相等
先考虑两个总体的情况,设有两个协差阵相同 的p维正态总体,对给定的样本X,判别一个样本X到 底是来自哪一个总体,一个最直观的想法是计算X到 两个总体的距离。故我们用马氏距离来给定判别规 则,有:
在自然科学和社会科学的各个领域经常遇 到需要对某个个体属于哪一类进行判断。如动 物学家对动物如何分类的研究和某个动物属于 哪一类、目、纲的判断。
判别
有一些昆虫的性别很难看出,只有通过解剖 才能够判别;
但是雄性和雌性昆虫在若干体表度量上有些 综合的差异。于是统计学家就根据已知雌雄 的昆虫体表度量(这些用作度量的变量亦称 为预测变量)得到一个标准,并且利用这个 标准来判别其他未知性别的昆虫。
而在判别分析中,至少有一个已经明确知道 类别的“训练样本”,利用这个数据,就可 以建立判别准则,并通过预测变量来为未知 类别的观测值进行判别了。
聚类分析
聚类要注意的问题
聚类结果主要受所选择的变量影响。如果去掉一 些变量,或者增加一些变量,结果会很不同。
相比之下,聚类方法的选择则不那么重要了。因 此,聚类之前一定要目标明确。
另外就分成多少类来说,也要有道理。只要你高 兴,从分层聚类的计算机结果可以得到任何可能 数量的类。但是,聚类的目的是要使各类距离尽 可能的远,而类中点的距离尽可能的近,而且分 类结果还要有令人信服的解释。这一点就不是数 学可以解决的了。
判 别 分 析
概述 距离判别法 贝叶斯判别法 费歇尔判别法 逐步判别法
13
判别分析举例:
根据发掘出来的人类头盖骨的高、宽等特征来 判断其是男性还是女性。
在税务稽查中,要判断某企业是否偷漏税。 医生对病情的诊断。 信用风险的判定。 成功概率的判定。 企业运行状态或财务状况的判定。
14
二、判别分析的种类
1、按判别的组数分有两组判别分析和多组 判别分析
2、按区分不同总体所用的数学模型分有 线性判别和非线性判别
3、按判别准则的不同有距离判别、费歇尔 (Fisher)判别和贝叶斯(Bayes)判别。
15
判别分析的假设前提
每一个判别变量不能是其他判别变量的 线性组合
各组变量的协方差阵相等 各判别变量之间具有来自百度文库元正态分布
16
第二节 距离判别
(一)马氏距离 距离判别的最直观的想法是计算样品到第i类总 体的平均数的距离,哪个距离最小就将它判归哪个 总体,所以,我们首先考虑的是是否能够构造一个 恰当的距离函数,通过样本与某类别之间距离的大 小,判别其所属类别。
相关文档
最新文档