数据分析PPT5.1

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
T 1 T 2
则 d 2 x, G1 d 2 x, G2 2[W1 ( x) W2 ( x)]
d x, G1 d x, G2
2 2
T 1 T
W1 ( x) a x b1 ,W2 ( x) a x b2
2 1 1 2 1 2
第二、设有量度重量和长度的两个变量 X 与 Y ,以单位分别 为 kg 和 cm 得到样本 A(0,5) ,B(10,0) ,C (1,0) ,D(0,10) 。 今按照欧氏距离计算,有
AB 10 5 125 ;
2 2
CD 12 102 101
如果我们将长度单位变为 mm,那么,有
d x, y
x y x y
T 1
定义点x到总体G的马氏距离为
d x,
x
T
x
1
马氏距离有如下一些特点: (1)马氏距离不受变量单位的影响,是一个 无单位的数值。
d ( x, y) d ( y, x ) (2) 马氏距离满足距离三性质:
称W1(x),W2(x), W (x)为线性判别函数, a称为 判别系数, W (x)= W1(x)-W2(x).
特别地,当p=1时,若两个总体分别为 N 1 , 2 则判别函数为


和 N 2 , 2


W x ( x )
不妨设 则
1

2
1 2
1 , 其中 1 2 2

1. 1 2 时的判别 考虑x到两总体的马氏平方距离的差:
x 1 x 1 x 2 x 2
T 1 T 1
d
2
x, G1 d 2 x, G2
T 1 T
x x 2x 1 1
d x, y (x y ) (x y )
2 T 2
x1 y1 ( x2 y2 ) x p y p
2
2
设有两个正态总体, x ~ N 1 , 2 , y ~ N 2 ,4 2 ,现在有一个样本位于如图5.1 所示的 A 点,距总体 x 的中心 2远,距总 体 y 的中心 3 远,那么, A 点处的样品到 底离哪一个总体近呢?
用来自G1和G2训练样本 (1) (1) (2) (2) (2) x1(1) , x2 ,, xn x , x , , x 1 2 n 1 的均值 μ1 , μ2 和协方差 S , S 估计总体的均值 1 2 和方差. μ1 , μ2 为
2
,
1 1 (1) (1) 1 xi xi , 2 n1 j 1 n2
第五章 判别分析

在日常生活和工作实践中,常会遇到判别分析 问题,即根据历史上划分类别的有关资料和某 种最优准则,确定一种判别方法,判定一个新 的样本归属哪一类。 某医院有部分患有肺炎、肝炎等病人的资料, 记录了每个患者若干项症状指标数据。想利用 现有的这些资料找出一种方法,使得对于一个 新的病人,当测得这些症状指标数据时,能够 判定其患有哪种病。
x2
6.2 7.5 14.6 8.3 0.8 4.3 10.9 13.1 12.8 10.0
l
10
非雨区G2

X2
0
-10
雨区G1
-10 -5 0 5
X1
判别分析的模型如下:

设有n个样本,对每个样本测得p项指标(变量 )的数据,已知每个样本属于k个类别(或总 体)G1,G2, …,Gk中的某一类,且它们的 分布函数分别为F1(x),F2(x), …,Fk(x)。 我们希望利用这些数据,找出一种判别函数, 使得这一函数具有某种最优性质,能把属于不 同类别的样本点尽可能地区别开来,并对测得 同样p项指标(变量)数据的一个新样本,能 判定这个样本归属于哪一类。
15:05:42
24
两组距离判别的判别函数分别为 T T ˆ, W ˆ W T ˆ x a ˆ x a ˆ ˆ ˆ W x b x b ˆ x a xx 1 1 1 2 2 2


1 (1) 1 (1) ( 2) 这里 x x x ( 2) , ˆ aS x x 2 1 (i ) T 1 (i ) 1 ( i ) ˆ ˆi S x , bi ( x ) S x , i 1,2 a 2 两个总体的距离判别规则为
2x
T

1
1 2 1 2 x 1 2 2
2 x a 2a x
T


T


a (1 2 ) 令 W x a T x 则有
1
1 其中 1 2 是两个组均值的平均值, 2
1 2
W x 的符号取决于 x 还是 x
因此判别规则可写成:
若x ,则x G1 若x ,则x G2
我们看到用距离判别所得到的准则是颇为合理的,但用这
个判别法有时会错判。如
被判为属
x 来自 G1 ,但却落入 D2

P2 / 1
显然,
d ( x, y) 0 当且仅当x=y, d(x,y)=0
d ( x , y ) d ( x , z ) d ( z , y)
(3)马氏距离是x和y经“标准化”之后的欧氏距 1 1 离。 * 2 * 2 y (y ) x (x ), 令 * * * * 则有 E (x ) E (y ) 0, V (x ) V (y ) I
6

,
15:05:42





判别分析内容很丰富,方法很多。 判断分析按判别的总体数来区分,有两个总体判别分析 和多总体判别分析; 按区分不同总体所用的数学模型来分,有线性判别和非 线性判别; 按判别时所处理的变量方法不同,有逐步判别和序贯判 别等。 判别分析可以从不同角度提出问题,因此有不同的判别 准则,如马氏距离最小准则、Fisher准则、平均损失最 小准则、最小平方准则、最大似然准则、最大概率准则 等等,按判别准则的不同又提出多种判别方法。 本章仅介绍常用的几种判别分析方法:距离判别法、 Bayes判别法。
d x, y x y x y (4)若 diag ( 11, 22 , pp ) ,则
于是
2 * * T * *

2


d x, y
2
( x1 y1 )
11

( x2 y2 )
2
22

( x p y p )2
pp
3.两个总体的距离判别准则: 设G1,G2是两个不同的p维总体,均值分别为μ1, μ2,协方差矩阵分别是Σ1 ,Σ2,设x=(x1,…,xp)T是 待判样品,距离判别准则为




0
图5.1
1 A 2 A 点离哪个总体“近一些”
若按欧氏距离来度量, A 点离总体 x 要比
离总体
y “近一些”。
但是,从概率论的角度来看, A 点位于1右
侧的 2 x 处,而位于 2 左侧1.5 y 处,应该认 为 A 点离总体 y “近一些”。显然,后一种 度量更合理些。
G2
,错判的概率为图中阴影部分的面积,记为
,类似地有
1 1 2 1 P2 1 1 2
P1 2

在实际应用中,总体的均值μ1, μ2和协方差 矩阵Σ一般是未知的,只有来自总体的样本 观测值——训练样本;此时需要根据收集到 的样本资料对参数作出估计,然后将其相应 的估计值代入线性判别函数中


在天气预报中,有一段较长时间关于某地区每 天气象的记录资料,现想建立用连续五天的气 象资料来预报第六天是什么天气的方法。这些 问题都可以应用判别分析方法予以解决。
,
15:05:41
2
根据经验,今天与昨天的湿度差及今天的压 差(气压与温度之差)是预报明天下雨或不下雨 的两个重要因素。今测得 x=8.1, x =2.0,试 1 2 问应预报明天下雨还是不下雨? 这个问题是两总体判别问题,总体分为两类, 用G1表示下雨,G2表示不下雨。为进行预报, 应先收集一批资料,从已有的资料中找出规律, 再作预报。
1
x百度文库
T 1
1
T
x 2x 2 2 2
1 T 1 T 1

18
15:05:42
22 x 2 2 2 x 1
T 1 T 1 T 1 1 T 1 1
记a1=Σ-1μ1,b1=-1/2μ1TΣ-1μ1, a2=Σ-1μ2, b2=-1/2μ2TΣ-1μ2,且设
n1
x
j 1
n2
( 2) i
x
( 2) i
23
15:05:42
两个训练样本的协方差矩阵各为 T ni (1) ( 2) 1 (1) ( 2) Si xj x xj x , i 1,2 ni 1 j 1



的一个联合无偏估计为
(n1 1) S1 (n2 1) S 2 ˆ S n1 n2 2
x G1 , if d ( x, G1 ) d ( x, G2 ) x G2 , if d ( x, G1 ) d ( x, G2 )
即当x到G1的马氏距离不超过x到G2的马氏距离 时, 判定x来自G1 ;反之,判定x来自G2
,

讨论协方差矩阵相等时的合理性!
16
15:05:42
我们收集过去10个雨天和非雨天 x和
1
的数值 x2
x1
-1.9 -6.9 5.2 5.0 7.3 6.8 0.9 -12.5 1.5 3.8
雨天
非雨天
x2
3.2 10.4 2.0 2.5 0.0 12.7 -15.4 -2.5 1.3 6.8
x1
0.2 -0.1 0.4 2.7 2.1 -4.6 -1.7 -2.6 2.6 -2.8
由似然比准则,将x判归在该样品观测值处其 概率密度较大的那个总体,即有下列判别准则
,
x G1 , f1 x / f 2 x 1 x G2 , f1 x / f 2 x 1
17
15:05:42

而“f1(x)/f2(x)≥1”等价于
(x-μ1)TΣ-1(x-μ1)≤ (x-μ2)TΣ-1(x-μ2) d(x,G1)≤ d (x,G2)
AB 10 50 2600;
2 2
CD 1 100 10001
2 2
量纲的变化,将影响欧氏距离计算的结果。
为此,我们引进一种由印度著名统计家马哈
拉诺比斯(Mahalanobis,1936年)提出的
“马氏距离”的概念。
2.马氏距离 设x,y是从均值为μ,协方差矩阵为 ( 0) 的总体G中抽出的两个样品,则总体内两点x与y 之间的马氏距离定义为



5.1 距离判别 5.1.1. 两个总体的距离判别 5.1.2. 判别准则的评价 5.1.3. 多个总体的距离判别
15:05:42
8
5.1.1. 两个总体的距离判别 1.马氏距离的概念 欧氏距离即p维欧氏空间 R P 中的两点 T T x x1 ,, x p 和 y y1 y p 之间的平方距离 度量为
设G1~N(μ1, Σ),G2 ~N(μ1, Σ) , G1, G2的密度函 数分别为 1 1 T 1 f1 ( x) exp ( X 1 ) ( X 1 ), n2 12 (2 ) | | 2
1 T 1 f 2 ( x) exp ( X 2 ) ( X 2 ), n2 12 (2 ) | | 2 1
d 2 x, G1 d 2 x, G2 2W ( x)


则判别规则可表述为
x G1 , if W1 ( x ) W2 ( x ) x G2 , if W1 ( x ) W2 ( x )
x G1 , if W ( x ) 0 x G2 , if W ( x ) 0
相关文档
最新文档