判别分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
我们前面已经讲过,两个总体的距离判别准则为: 若d ( x, G1 ) ≤ d ( x, G2 ) x ∈ G1 , 若d ( x, G1 ) > d ( x, G2 ) x ∈ G2 , − 这时若令d12 ( x) = ( x − µ1 )T Σ1 1 ( x − µ1 )
2 d 2 ( x) = ( x − µ2 )T Σ −1 ( x − µ2 ) 2
1≤ j ≤ k
则判定x ∈ G j 0;若多于一个j 0使上式成立,则判定 x属于满足上式的任何一个G j 0
Xi’an University of Post and Telecommunications
当总体均值向量µ1 , µ 2 ,L , µ k 和公共协 方差矩阵Σ未知时。可利用各总体的 训练样本作估计。
Xi’an University of Post and Telecommunications
总体协方差矩阵不全相等
计算x到各总体G j的马氏平方距离 d ( x, G j ) = ( x − µ j ) Σ ( x − µ j ), j = 1, 2,L , k
2 T −1
记d ( x) = d ( x, G j ) j = 1, 2,L , k
则距离判别准则变为 x ∈ G1 , x ∈ G2 , 若d ( x) ≥ d ( x) 若d ( x) < d ( x)
Xi’an University of Post and Telecommunications
2 2 2 2 2 1 2 1
其中d12 ( x ),d 22 ( x )分别是样品x到两个总体G1 ,G2的 马氏平方距离,它们都是x的二次函数,称为二次 判别函数。 在实际应用中,µ1,µ2,Σ1,Σ 2 往往未知,它 们可以用各总体的训练样本做估计。
* r
Xi’an University of Post and Telecommunications
ˆ* 误判率的回代估计比较容易计算,但是 pr 是由 建立判别函数的数据反过来用作评估准则的数据而 ˆ* 得到的,因此 pr 往往比真实误判率小,只有当训练 ˆ* 样本容量较大时, pr 可以作为真实误判率的一种近 似估计。
Xi’an University of Post and Telecommunications
1.总体协方差矩阵相等: Σ1 = Σ 2 = L = Σ k = Σ
对 任 意 两 个 总 体 G i , G j, 考 察 x 到 G i 和 G j的 马氏平方距离的差: d 2 ( x , G j ) − d 2 ( x , G i ) = − 2[W j ( x ) − W i ( x ) ] 其中 1 T −1 W i ( x ) = a x + b i, 而 a i = Σ µ i , b i = − µ i Σ µ i 2 1 T −1 −1 T W j ( x ) = a j x + b j, 而 a j = Σ µ j , b j = − µ j Σ µ 2 易见
Xi’an University of Post and Telecommunications
R ={x : c(2|1) p1 f1(x) ≥ c(1| 2) p2 f2 (x)} 1 R2 = {x : c(2|1) p1 f1(x) < c(1| 2) p2 f2 (x)} R ={x : c(2|1)P(G | x) ≥ c(1| 2)P(G2 | x)} 1 或 1 1 R2 = {x : c(2|1)P(G | x) < c(1| 2)P(G2 | x)} 当p1 = p2时,有 R = {x : c(2|1) f1(x) ≥ c(1| 2) f2 (x)} 1 R2 = {x : c(2| 1) f1(x) < c(1| 2) f2 (x)} 又当p1 = p2,c(2|1) = c(1| 2)时 R = {x : f1(x) ≥ f2 (x)} 1 R2 = {x : f1(x) < f2 (x)}
Xi’an University of Post and Telecommunications
5.1.2 判别准则的评价
在一定判别准则下,将一个样品判错的概率称为该判别准则的 误判概率,简称为误判率。若不考虑误判造成的损失,一个判别准 则的误判概率的大小自然是评价其优劣的一个标准。但是要直接计 算一个判别准则的误判率,一般需要各总体的分布完全已知,这在 实际中常常是不可能的,因为我们所具有的资料只是来自各总体的 训练样本数据。因此一个可行的做法就是基于训练样本对误判率进 行估计。最常用的两种误判率的估计方法有两种:回代估计法,交 叉确认估计法。下面我们逐lecommunications
5.2 Bayes判别 判别
Bayes统计是统计学的一个重要分支。其基本思想是:假定 对所研究的对象(总体)在抽样之前已有一定的认识,常用先验 分布来描述这种认识,然后,基于抽取的样本对先验认识做修正 得到后验分布,而各种统计推断均基于后验分布进行。将Bayes统 计的思想用于判别分析,就得到Bayes判别
Xi’an University of Post and Telecommunications
两个总体的Bayes判别 1 一般讨论
密度f1 ( x) , f2 (x)。设G , G2出现的先验概率为 1 p1 = P(G ), p2 = P(G2 ) 1 其中p1 + p2 =1
考虑两个p维总体G , G2 ,它们分别具有概率 1
一 划 R = (R , R2 )相 于 个 别 则 在 个 分 当 一 判 准 , 1 判 准 R下 来 G的 品 判 属 G2的 别 则 将 自 1 样 误 为 于 概 率 P(2|1, R) = ∫ f1(x)dx 将 自 2的 品 判 是 , 来 G 样 误
R2
为 于 1的 率 P(1| 2, R) = ∫ f2 (x)dx 设 属 属 G 概 为 。 将 于
Xi’an University of Post and Telecommunications
误判率回代估计法
(1) (2) 设G1为G2两个总体,x1(1) ,x2 , ,xn1 和x1(2) ,x2 , ,xn2 L (1) L (2)
是分别来自G1和G2的训练样本,其容量分别为n1和n1。以全体 训练样本作为n1 + n2个新样品。逐个代入已经建立的判别准则 中判别其归属,这个过程称为回判。如果n12是将属于G1的样品 误判G2为属于的个数,n21是将属于G2的样品误判为属于G1的个 数,总的误判个数为n12 +n21,而两总体的训练样品的总数为 n12 +n21 ˆ n1 + n2,误判率的回代估计为p = n1 + n2




1、距离判别
两个总体的距离判别 判别准则的评价 多个总体的距离判别
2、Bayes判别 Bayes判别
Bayes判别的基本思想 Bayes判别的基本思想 两个总体的Bayes Bayes判别 两个总体的Bayes判别 多个总体的Bayes Bayes判别 多个总体的Bayes判别
2 两个总体协方差矩阵不等的情况 Σ1 ≠ Σ 2
T i −1
j
d 2 ( x,G j ) ≥ d 2 (x,Gi ) ⇔ Wi ( x) ≥ W j (x)
Xi’an University of Post and Telecommunications
这样得到多总体在总体协方差矩阵相等时的距离 判别准则:若总体G j 0满足 W j 0 = max W j ( x)
5.1.3 多个总体的距离判别
设有k 个总体G1 , G2 ,L , Gk,均值向量分别为µ1 , µ2 ,L , µk, 协方差矩阵分别为Σ1 , Σ 2 ,L , Σ k。类似两总体距离判别方法 ,计算新样品x到各总体的马氏距离,比较这k 个距离,判 定x属于其马氏距离最小的总体。若最小距离不止一个总体 到达,则可将x判属具有最小距离总体的任一个。我们仍就 各协方差矩阵相等和不等的情况讨论。
R 1
G的 品 判 G2造 的 失 c(2|1), 将 于 成 损 为 而 属 1 样 误 为 G2的 品 判 属 G 造 的 失 c(1| 2)。 般 样 误 为 于 1 成 损 为 一 地 将 于 i的 品 判 属 Gj的 失 c( j | i), , 属 G 样 误 为 于 损 是 总 定 (1|1) = c(2| 2) = 0 Bayes判 就 寻 假 c 。 别 是 求 R = (R , R2 ), 得 均 判 失 到 小 使 平 误 损 达 最 。 1
Xi’an University of Post and Telecommunications
误判率的交叉确认估计法
误判率的交叉确认估计是每次剔除训练样 本 中 的 一 个 样 品 , 利 用 其 余 容 量 n1 + n 2 − 1的 训 练样本建立相应判别准则,再用所建立的判别 准则对剔除的那个样品作判别。对训练样本中 的每个样品作上述分析,以其误判的比例作为 误判概率的估计。具体步骤如下:
Xi’an University of Post and Telecommunications
Xi’an University of Post and Telecommunications
由交叉确认估计法所得到的估计称为误判率的交叉确认估计。此 方法较回代估计法更合理。但计算量较大。
Xi’an University of Post and Telecommunications
Xi’an University of Post and Telecommunications
x ∈G 1 x ∈G2
若P(G | x) ≥ P(G2 | x) 1 若P(G | x) < P(G2 | x) 1
这时,最优划分R使得误判概率 p* = p1P(2|1, R) + p2P(1| 2, R)达到最小
Xi’an University of Post and Telecommunications
当得到新样品x后,由Bayes公式得总体G , G2 1 的后验概率是 p1 f1(x) P(G | x) = 1 p1 f1(x) + p2 f2 (x) p2 f2 (x) P(G | x) = 2 p1 f1(x) + p2 f2 (x) 并且当c(2|1) = c(1| 2)时,两总体Bayes判别的一个 最优划分是 R ={x : P(G | x) ≥ P(G2 | x)} 1 1 R2 ={x : P(G | x) < P(G2 | x)} 1 从而得到在等损失时两个总体的Bayes判别法则:
2 j 2
d ( x)是二次判别函数,得到多总体距离判别
2 j
法则:若d ( x) = min d ( x),则判定x ∈ G j 0
2 j0 1≤ j ≤ k 2 j
Xi’an University of Post and Telecommunications
当总体均值向量µ1 , µ 2 ,L , µ k 和协方差 矩阵Σ j ,j = 1, 2,L , k未知时。可利用各 总体的训练样本作估计。
Xi’an University of Post and Telecommunications
在 c (2 | 1)与 c (1 | 2)不 相 等 的 情 况 , 因 为 c (1 | 1) = c (2 | 2) = 0, 对 于 G1而 言 , 误 判 造 成 的 平 均 损 失 是 : l (1, R ) = c (2 | 1) P (2 | 1, R ) 对 于 G 2而 言 , 误 判 造 成 的 平 均 损 失 是 : l (2, R ) = c (1 | 2) P (1 | 2, R ) 因 此 , 关 于 先 验 分 布 p1, p 2, 误 判 造 成 的 平 均 损 失 是 : L = p1l (1, R ) + p 2 l (2, R ) = c (2 | 1) p1 P (2 | 1, R ) + c (1 | 2) p 2 P (1 | 2, R ) 从 而 Bayes判 别 使 L 达 到 最 小 的 最 优 划 分 是
对于p维指标观测值x = (x1, x2 ,L, xp )T ,它的取值 范围是p维欧氏空间ℜ ,一个判别法则实质上是对
p
空间ℜp的一个划分,记为R , R2,并且满足下列条件: 1 R U R2 =ℜp,R I R2 =Φ 1 1
Xi’an University of Post and Telecommunications
相关文档
最新文档