距离判别法及其应用
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
距离判别法及其应用
一、什么是距离判别
(一)定义
距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。
距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。
(二)作用
判别个体所属类型。
例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。
二、距离判别分析原理
(一)欧氏距离
欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。
大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。
从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。
在二维空间中其公式为:
221221)()(y y x x d -+-=
推广到n 维空间其公式为:
21)
(1i n i i y x d -=∑=
(二)马氏距离
在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。
设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本
T m i x x x X },...,,{21=。
令μ=E(i X )(i=1,2, …,m),则总体均值向量为
T m },,{21μμμμ⋅⋅⋅=。
总体G 的协方差矩阵为:
]))([()(T G G E G COV μμ--==∑。
设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为:
)()(),(12Y X Y X Y X d T -∑-=-
样本X 与总体G 的马氏距离的平方定义为:
)()(),(12μμ-∑-=-X X G X d T
1.两总体距离判别。
设有两总体1G 和2G 的均值分别为1μ和2μ,协方差矩阵分别为1∑和2∑(1∑,2∑>0),1⨯m X 是一个新样本,判断其
属于哪个总体。
定义1⨯m X 到1G 和2G 的距离为),(12G X d 和
),(22G X d ,则按如下判别规则进行判断:
1G X ∈,若),(12G X d ≤),(22G X d
2G X ∈,若),(22G X d ﹤),(12G X d
(1)当1∑=2∑时,该判别式可进行如下简化:
),(12G X d -),(22G X d =)()(111μμ-∑--X X T -)()(212μμ-∑--X X T
=-2)(221121μμμμ-∑⎪⎭⎫ ⎝
⎛+--T
X =)(2μ--X A T 其中)(2
121μμμ+=,)(211μμ-∑=-A 注意到实数的转置等于实数自身,故有
)(221121μμμμ-∑⎪⎭⎫ ⎝⎛+--T
X =()⎪⎭⎫ ⎝⎛+--∑-2)(21211μμμμX T 令
)()(μ-=X A X W T ,则判别规则就成为: 1G X ∈,若)(X W 0≥
2G X ∈,若)(X W ﹤0
在实际问题中,由于总体的均值、协方差矩阵通常是未知的,数据资料来自两个总体的训练样本,于是用样本的均值、样本的协方差矩阵代替总体的均值与协方差。
由于实际问题中只能得到两个样本的协方差矩阵1S ,2S ,因此当两个
总体协方差矩阵相等时如何确定总体的协方差矩阵S
2
)1()1(212211-+-+-=n n S n S n S
其中n1,n2分别为两个样本的容量。
(2)当1∑≠2∑时, ),(),()(2212G X d G X d X W -=
)()()()(21221111μμμμ-∑---∑-=-
-X X X X T T
判别规则为:
1G X ∈,若)(X W 0≥
2G X ∈,若)(X W ﹤0
例.设有两个二元总体G1和G2,从中分别抽取样本计算得到 ⎪⎪⎭⎫ ⎝⎛=∑⎪⎪⎭⎫ ⎝⎛-=⎪⎪⎭⎫ ⎝⎛=6.71.21.28.5ˆ,23,15)2()1(p X X
假设21∑=∑,试用距离判别法建立判别函数和规则。
样品T X )0,6(=应属于哪个总体。
解:)()'(),(111
12μμ-∑-=-X X G X D ⎪⎪⎭⎫ ⎝⎛⎪⎪⎭⎫ ⎝⎛-=-)1,5()0,6(6.71.21.28.5))1,5()0,6((1
4436602.0116.71.21.28.5)1,1(1=⎪⎪⎭
⎫ ⎝⎛-⎪⎪⎭⎫ ⎝⎛-=- 673809.1)()'(),(212
22=-∑-=-μμX X G X D
由于),(22G X D >),(12G X D 所以X 属于1G 。
2.多总体的距离判别。
设有g 个m 维总体1G ,2G ,…,g G ,均值向量分别为1μ,2μ,…g μ,协方差矩阵分别为1∑,2∑,…,g ∑,则样本X 到各组的平方马氏距离是:
)()(),(12ααααμμ-∑-=-X X G X d T ,α=1,2,…g
判别规则为:i G X ∈ ,若),(min ),(212j g
j i G X d G X d ≤≤=
三、距离判别法的应用
距离判别法可以应用于医学、建设、环境、城镇规划等多个领域的工程项目中。
如距离判别法在类风湿性关节炎中医证候诊断中的应用,距离判别法相似矿区突水水源识别中的应用,在大气环境质量现状评价中的应用以及在城镇土地定级中的应用等。
在实际工程中,经常采用多总体的距离判断。
设有g 个m 维总体1G ,2G ,…,g G ,均值向量分别为1μ,2μ,…g μ,协方差矩阵分别为1∑,2∑,…,g ∑,任意给定一个m 维样本T m x x x X },...,,{21=。
假设1∑=2∑=…=g ∑=∑,则新样本到各j G 和i G 的马氏距离平方差为
)()](21[2),(),(12
2j i T j i i j x G x d G x d μμμμ-∑+-=--, 令)()](2
1[)(1j i T j i ij x x W μμμμ-∑+-=-。
利用各总体的训练样本对i μ和i ∑(i=1,2,…g )进行估计。
设)(1k x ,
)(2k x ,…,)(k nk x 为来自总体K G 的训练样本(k=1,2,…,g ),令
∑==k k n i k i n k x 1)(1ˆμ
(k=1,2,…,g ) T
k k i k n i k i k x x x x S k ))(()()()(1
)(∑== (k=1,2,…,g ) 利用k S 对∑的联合估计为
))(/(1ˆ21g S S S g n +⋯++-=∑
其中∑==g i i n
n 1,即训练样本的总数。
以k μ
ˆ和∑ˆ代替k μ和∑,便可得到判别函数)(x W ij 的估计为 )ˆˆ()]ˆˆ(21[)(ˆ1j i T j i ij x x W μμμμ-∑+-=-。