第五章 判别分析(第1、2节 绪论、距离判别法)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1 X
2X
1 2
212 )
2
X
1 ( 2
1)
111
2
1 2
2X 1(2 1) (1 2 )1(1 2 )
2
X
1
2
2
1 ( 1
2
)
2(X *) 2(X *)
第二节 距离判别法
其
中
*
1 2
(1
2
)
是
两
个
总
体
均
值
的
平
均
值
,
1(1 2 ) ,记
W (X ) (X *)
后一种量度更合理些。
图5.1
第二节 距离判别法
更精确的说明例子,可参见教材 P.176 例子和图 5.1.
N ( , ) 更一般地,设总体G1的分布为
,设总体G2的分布为 2
,则利用统计距离,可以找出分界点 ,且不妨1设 1
N (2,,所2以2 )若令
*
1 2
(x 1)2
(x 2)2
解出
x
1
第二节 距离判别法
1、两个总体的距离判别问题
(1)
情形: 有协方差矩阵∑相等的两个总体G1和G2,其均值分别是1和 2,对于一个新的样品X,
Σ Σ Σ 要判断它来自哪1 个总体2。
一般的想法是计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X,G2),并按照如下的判别规则进行
判断
这个判别规则的等价描述为:求新样品X到G1的距离与到G2的距离之差,如果其值为正,X属于G2;否则X属 于G1。
定义 5.1 设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定义为
D2 (X, Y) (X Y)Σ1(X Y)
定义点 X 到总体 G 的马氏距离为
D2 (X,G) (X μ)Σ1(X μ) 这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离的情形。
第一节 引言
■ 什么是判别分析?
在我们的日常生活和工作实践中,常常会遇到判别分析问题,即根据历史上划分类别的有关资料和某种最优准则,确定一种判别 方法,判定一个新的样品归属哪一类。
例如,在医学诊断中,一个病人肺部有阴影,医生要判断该病人患的是肺结核、肺部良性肿瘤还是肺癌?这里三种病人的集合 体可看做是三个总体,病人是来源于三个总体之一的样本。判别分析的目的是通过检测病人的一些指标(如阴影大小、边缘的光滑 度、体温等)来判定该病人应属于那个总体.
X (1) 1
,
,
X
(1) n1
来
自总体 G1 的样本,X1(2),
,
X (2) n2
是来自总体
G2
的样本,1
和
2
的一个无偏估计分别为
X (1)
1 n1
n1 i1
X (1) i
和
X ( 2 ) 1 n2
n2
Xi
i1
(2)
Σ 的一个联合无偏估计为
ˆ
n1
1 n2
2
(S1
S2
)
n
这里
S
(
X
( i
)
譬 如 , 设 有 两 个 正 态 总 体 , X ~ N (1, 2 ) 和 Y ~ N (2 ,4 2 ) ,现有一个样品位于如图 5.1 所示的 A 点,距总 体 X 的中心的距离为 2 远,距总体Y 的中心的距离为 3 远, 那么, A 点处的样品到底离哪一个总体近呢?
第二节 距离判别法
若按欧氏距离来量度, A 点离总体 X 要比离总体Y “近一 些”。但是,从概率的角度看, A 点位于 1 右侧的 2 x 处,而位 于 2 左侧1.5 y 处,应该认为 A 点离总体Y “近一些”。显然,
又如,在天气预报中,我们有一段较长时间关于某地区每天气象的记录资料(晴阴雨、气温、气压、湿度等),现在想建立一种 用连续五天的气象资料来预报第六天是什么天气的方法。这些问题都可以应用判别分析方法予以解决。
第一节 引言
直观上讲,判别分析是用来判别样品所属类型的一种多元统计分析方法。
这类问题可用数学语言来表达如下:设有n个样品,对每个样品测得p项指标(变量)的数据,已知每个样品 属于k个类别(或总体)G1,G2, …,Gk中的某一类,且它们的分布函数分别为F1(x),F2(x), …,Fk(x)。我们 希望利用这些数据,找出一种判别函数(或判别准则),使得这一函数具有某种最优性质,能把属于不同类别 的样本点尽可能地区别开来,并对测得同样p项指标(变量)数据的一个新样品(待判样品),能判定这个样品 归属于哪一类。
Xຫໍສະໝຸດ Baidu
( )
)(
X
( i
)
X
( )
),
1, 2
i 1
第二节 距离判别法
此时,两总体距离判别的判别函数为 Wˆ ( X ) ˆ( X X *)
其中 X * 1 ( X (1) X (2) ) ,ˆ ˆ 1(X (1) X (2) ) 。这样,判别规则
2
为
X
G1
,
X G2,
如果 如果
Wˆ (X ) 0 Wˆ (X ) 0
2
21
*,
2 1
2 2
1 2
按这种距离最近的判别准则:
x x
* *
, ,
X X
G1, G2.
第二节 距离判别法
因为是单指标的问题,这时判别函数设为:
判
。
,在此例中 Y Y (因x) x
,故
* 79, x0 78 *
X 0 G2
下面给出对于m元总体的这种相对距离—即所谓的马氏距离定义
X
G1,
X G2,
如果 如果
D2 (X ,G1) D2 (X ,G2) D2 (X ,G1) D2 (X ,G2 )
(*)
第二节 距离判别法
D2 ( X ,G1) D2 ( X ,G2 )
( X 1)1( X 1) ( X 2 )1( X 2 )
X
1 X
2X
1 1
111
(X
第二节 距离判别法
□ 马氏距离
设 p 维 欧 氏 空 间 R p 中 的 两 点 X ( X1, X 2, , X p ) 和
Y (Y1,Y2 , ,Yp ) ,通常我们所说的两点之间的距离,是指欧 氏距离,即 d(X, Y) 2 (X1 Y1)2 ( X p Yp )2 .
但在解决实际问题时,特别是针对多元数据的分析问题,欧氏 距离就显示出了它的一些缺陷。
第二节 距离判别法
作为特殊情形,我们考虑:
则判别规则可表示为
X X
G1 , G2 ,
如果 如果
W(X) 0 W(X) 0
这里称W (X ) 为两总体距离判别的判别函数,由于它是 X 的线
性函数,故又称为线性判别函数, α 称为判别系数。
第二节 距离判别法
在实际应用中,总体的均值和协方差矩阵一般是未知的,可
由样本均值和样本协方差矩阵分别进行估计。设