多元统计分析(一)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

D2 (X, G1 ) D2 (X, G2 )
( X μ1 )Σ 1 ( X μ1 ) ( X μ 2 )Σ 1 ( X μ 2 )
1 Σ 1μ1 ( XΣ 1X 2 XΣ1μ 2 μ XΣ 1X 2XΣ 1μ1 μ1 Σ μ2 ) 2 1 Σ 1μ1 μ 2XΣ 1 (μ 2 μ1 ) μ1 Σ μ2 2 2XΣ 1 (μ 2 μ1 ) (μ1 μ 2 )Σ 1 (μ1 μ 2 )
距离判别
距离有Hale Waihona Puke Baidu种定义方法,我们最熟悉的是欧氏距离,即有
2 p dij xik x jk k 1 12
在解决实际问题时,特别是针对多元数据的分析问题,欧氏距离 就显示出了它的薄弱环节。 第 一 、 设 有 两 个 正 态 总 体 G1 和 G2 , X ~ N (1 , 1 ) 和
设G1,G2为两个m维总体,其概率密度分别为 f1 ( x), f 2 ( x) ,且 已知G1,G2出现的概率分别为 p1 , p2 ( p1 p2 1). p1 , p2 通常称 为先验概率,可以由以往经验或已有资料估计得到。X为一样 本,它可能来自G1或G2。 为了判断X属于哪个总体,我们按某种方式将m维空间分成 两个部分D1和D2,满足 D1 D2 Rm , D1 D2 0 称D=(D1,D2)为空间的一个划分,也可以称为是一个判别, 因为由D确定了一个判别规则,如下: 如果X落在D1内,则判别其来自总体G1; 如果X落在D2内,则判别其来自总体G2.
X G1 , X G2 ,
如果 如果
D 2 ( X, G1 ) D 2 ( X, G2 ) D 2 ( X, G1 ) D 2 ( X, G2 )
●这个判别规则的等价描述为:求新样品X到G1的距离与到G2 的距离之差,如果其值为正,X属于G2;否则X属于G1。
●我们考虑
2、多个总体的距离判别问题
●问题:设有 k 个总体 G1 , G2 , L ,G k ,其均值和协方差矩阵分别 是 和 , 而 且 μ1 , μ 2 ,, μ k Σ1 , Σ 2 ,, Σ k Σ1 Σ 2 Σ k Σ 。对于一个新的样品 X ,要判断它来自
哪个总体。 该问题与两个总体的距离判别问题的解决思想一样。
则判别规则( 4.4)式可表示为
X G1 , 如果 W ( X) 0 ( 4.6) X G2 , 如果 W ( X) 0 这里称 W ( X) 为两总体距离判别的判别函数, 由于它是 X 的线性 函数,故又称为线性判别函数, α 称为判别系数。
在实际应用中,总体的均值和协方差矩阵一般是未知的,可由样 本均值和样本协方差矩阵分别进行估计。当两总体协方差不相同 时,分别计算样本 X 到两总体的距离,然后按“最近距离归类” 准则进行判别。
我们建立判别函数 :y=aX1+bX2+c.使 y>0, 等价于(X1,X2)落在 g1,y<0等价于(X1,X2)落在g2。由此得判别规则aX1+bX2+c>0. 即此人为健康者;若aX1+bX2+c<0此人为心脏病者。若 aX1+bX2+c=0则为待判。 此例的判别函数是线性函数,它简单方便,在实际问题中经常使用。 但有时也用非线性判别函数,特别是二次判别函数。建立判别函数 和判别规则有不少准则和方法,常用的有距离判别、贝叶斯判别、 费希尔判别等。
Bayes判别
从上节看距离判别法虽然简单,便于使用。但是该方法也有 它明显的不足之处。 第一,判别方法与总体各自出现的概率的大小无关; 第二,判别方法与错判之后所造成的损失无关。 Bayes判别法就是为了解决这些问题而提出的一种判别方法。 Bayes判别法是根据先验信息使得误判所造成的平均损失达最 小的判别法。
简介
多元统计分析是从经典统计学中发展起来的一个分支,是一种综合分析 方法,它能够在多个对象和对个指标互相关联的情况下分析它们的统计规 律。随着电子计算机的发展和普及 ,多元统计分析在地质 、气象、生物、 医学、图像处理、经济分析等许多领域得到了广泛的应用 ,同时也促进了 理论的发展。各种统计软件包如SAS,SPSS等,使实际工作者利用多元 统计分析方法解决实际问题更简单方便。主要的多元统计分析方法有:判 别分析、聚类分析、主成分分析、因子分析等。
(4.2) (4.3)
这里应该注意到,当 Σ I (单位矩阵)时,即为欧氏距离 的情形。
1、两个总体的距离判别问题 ●问题:设有协方差矩阵∑相等的两个总体G1和G2,其均值 分别是1和 2,对于一个新的样品X,要判断它来自哪个总体。 ●一般的想法是计算新样品X到两个总体的马氏距离D2(X,G1)和D2(X, G2),并按照如下的判别规则进行判断
2
Y ~ N (2 , 2 2 ) ,现有一个样品位于如图所示的 A 点,那么, A
点处的样品到底离哪一个总体近呢?
若按欧氏距离来量度, 。 A 点离总体 G1 要比离总体 G2“近一些” 但是, 从概率的角度看,应该认为 A 点离总体 G2 “近一些” 。 显然, 后一种量度更合理些。
为此,我们引入一种由印度著名统计学家马哈拉诺比 斯(Mahalanobis, 1936)提出的“马氏距离”的概念。
μ1 μ 2 1 2 X Σ (μ1 μ 2 ) 2 2( X μ)α 2α( X μ)
1 其 中 μ (μ 1 μ 2 ) 是 两 个 总 体 均 值 的 平 均 值 , 2 α Σ 1 (μ1 μ 2 ) ,记 ( 4.5) W ( X) α( X μ)
判别分析
由 k个不同总体的样本来构造判别函数, 利用它来决定新的未知类别的样品属于哪一 类,这是判别分析所处理的问题。它在医疗 诊断、天气预报、图像识别等方面有广泛的 应用。例如,为了判断某人是否有心脏病, 从健康的人和有心脏病的人这两个总体中分 别抽取样本,对每人各测两个指标X1和X2, 点绘如图
设 X 和 Y 是来自均值向量为 μ ,协方差为 Σ( 0) 的总体 G 中的 p 维样本,则总体 G 内两点 X 与 Y 之间的马氏距离定 义为
D2 (X, Y) (X Y)Σ1 (X Y) 定义点 X 到总体 G 的马氏距离为 D2 (X, G) (X μ)Σ1 (X μ)
相关文档
最新文档