判别分析-贝叶斯判别ppt课件

合集下载

数理统计11判别分析课件

数理统计11判别分析课件
(2)自反性: D( X ,Y ) D(Y , X ); (3)三角不等式:对任意三个点 X ,Y及 Z 有
D( X , Z ) D( X ,Y ) D(Y , Z ).
2、两个总体的判别
设有两个总体为 G1和G2,对于给定的样品 X , 需要判断它来自哪个总体?
判别规则: 当 D2( X ,G1 ) D2( X ,G2 ) 时, 判定 X G1;否则判定 X G2。
f2( x) f2( x)
在实际使用Bayes判别法时,并不需要求出 集合 R1, 而只要将需判别的样品 X 代入
C12q1 f1( x) C21q2 f2 ( x) 若该不等式成立,则判定 X G1; 否则,判定 X G2 .
如果总体 G1和G2 分别服从协方差阵相同的
正态分布 N p (1,V )和N p (2 ,V ), 则Bayes判别
在实际应用中,参数 1, 2 及V 往往是未知的,
此时需要根据收集到的样本资料对参数作出估 计,然后将其相应的估计值代入线性判别函数 W ( X ) 中不再赘述。
(三) 多个总体的判别
设有 m 个总体 G1,G2 ,,Gm,其概率密度分 别为 f1( x), f2( x),, fm ( x), 且各个总体Gi出现 的先验概率为q1,q2 ,,qm , 错判造成的损失为 Cij C( j / i)(i, j 1,2,, m).
Y
1 n2 Yk
n2 k1
Vˆ1
1 n1 1 S1
1 n1 n1 1 k1 ( X k
X
)( X k
X )T
Vˆ2
n2
1
1
S2
1 n2
n2
1
(Yk
k 1
Y

贝叶斯判别分析课件

贝叶斯判别分析课件

02
03
与决策树比较
贝叶斯判别分析提供了更稳定的预测 ,而决策树可能会因为数据的微小变 化而产生大的预测变化。
05
贝叶斯判别分析的案例分 析
案例一:信用卡欺诈检测
总结词
信用卡欺诈检测是一个经典的判别分析应用场景,通过贝叶斯判别分析可以有效地识别 出欺诈交易,减少经济损失。
详细描述
信用卡欺诈检测是金融领域中一个非常重要的问题。随着信用卡交易量的增长,欺诈行 为也日益猖獗,给银行和消费者带来了巨大的经济损失。贝叶斯判别分析可以通过对历 史交易数据的学习,建立分类模型,对新的交易进行分类,判断是否为欺诈行为。通过
市场细分
在市场营销中,贝叶斯判别分析 可以用于市场细分,通过消费者 行为和偏好等数据,将消费者划 分为不同的群体。
02
贝叶斯判别分析的基本概 念
先验概率与后验概率
先验概率
在贝叶斯理论中,先验概率是指在考 虑任何证据之前对某个事件或假设发 生的可能性所做的评估。它是基于过 去的经验和数据对未来事件的预测。
的类别。
它基于贝叶斯定理,通过将先验 概率、似然函数和决策函数相结 合,实现了对未知样本的分类。
贝叶斯判别分析在许多领域都有 广泛的应用,如金融、医疗、市
场营销等。
贝叶斯判别分析的原理
01
02
03
先验概率
在贝叶斯判别分析中,先 验概率是指在进行观测之 前,各类别的概率分布情 况。
似然函数
似然函数描述了观测数据 在给定某个类别下的概率 分布情况。
后验概率
后验概率是指在考虑了某些证据之后 ,对某个事件或假设发生的可能性所 做的评估。它是基于新的信息和证据 对先验概率的修正。
似然函数与贝叶斯定理

第五章 判别分析ppt课件

第五章 判别分析ppt课件

在经济学中,根据人均国民收入、人均消费水平、人均住房 面积等多种指标来判定一个国家的经济发展程度所属类型。
在考古学中,根据发掘出来的人类头盖骨的高、宽等特征来 判断其性别是男性还是女性。
在税务稽查中,要判断某纳税户是诚实户还是偷税户。
……
2008.8 休息一下
最新版整理ppt
统计学专业主干课程——多元统计分析
休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选1fisher判别函数和判别准则1fisher判别函数和判别准则542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选2应用实例2应用实例542fisher判别函数和判别准则休息一下统计学专业主干课程多元统计分析20088精选多元分析中有一个非常重要的思想方法就是采用降维技术把rp中的点通过适当方式投影到低维空间即用低维向量近似地替代p维向量然后在低维空间上在进行组的判别
本章的大部分内容是讨论两组判别分析。
2008.8 休息一下
最新版整理ppt
统计学专业主干课程——多元统计分析
5.1.3 判别分析的类型
2、按判别函数的形式分
按判别函数的形式(区分不同总体所用的数学模型)分, 有线性判别和非线性判别。

判别分析贝叶斯判别演示文稿

判别分析贝叶斯判别演示文稿

去掉与i无关的项,等价的判别函数为:
zi (x)
ln
qi
1 2
ln
|
i
|
1 2
(
x
(i
)
)
1 i
(
x
(i
)
)
问题转化为若
Zl
(
x)
max[
1ik
Z
i
(
x)],则判
x Gl 。
当协方差阵相等时
即1 k
判别函数退化为
第十九页,共28页。
zi (x) ln qi
1 (x μ(i) )Σ1(x μ(i) ) 2
如果W(y) 0,则G1 G2,y G1,相反则y G2
因此有
y y
G1 , G2 ,
如W(y) 如W(y)
0, 0。
第七页,共28页。
2、当总体的协方差已知,但不相等
y G1, 如d 2 y,G1 d 2 y,G2 ,
y
G2

如d 2 y,G2 d 2 y,G1
d 2 (y,G2 ) d 2 (y,G1)
设有总体 Gi (i 1,2,,, k具) 有概G率i 密度函 数 。 并且fi (根x)据以往的统计分析,知道 出现的概Gi率为 。 即当样qi 本 发生时,x0 求 属于某类x0 的概率。由贝叶斯 公式计算后验概率,有:
P(Gi
|
x0 )
qi q
fi (x0 ) j f j (x0 )
判别规则
0.9,坏人做好事的概率为0.2,一天,小王做了一件 好事,小王是好人的概率有多大,你现在把小王判为 何种人。
第十四页,共28页。
P(好人 / 做好事)

判别分析PPT课件

判别分析PPT课件

zi(x)ln q ifi((x ))
lnqi 12ln|i |1 2(x(i))i1(x(i))]
问题转化为若 Zl(x)m 1ik[Z ai(x x),]则判 xGl 。 当协方差阵相等 1 k
则判别函数退化为 zi(x)ln qi1 2(xμ(i))Σ1(xμ(i)) ]
12[2lnqi (xμ(i))Σ1(x μ(i)) ] 令 F i(x) 2ln q i (x μ(i))Σ1(x μ(i)) ]
hj(x)qiC(j/i)fi(x)
i1
含义是:当抽取了一个未知总体的样品值x,要判别它属于 那个总体,只要先计算出k个按先验概率加权的误判平均损失
k
hj(x)qiC(j/i)fi(x) i1
然后比较其大小,选取其中最小的,则判定样品属 于该总体。
为了直观说明,作为例子,我们讨论k=2的情形。
ECM
其判别函数为
W (x)(x)12(12)
(12)/2 1 2
概 率 : P ( x /G 2 ) P ( x 2 1 2 2 2 )
P(x21 22)P(x2
12) 2
1(12) 2
2、 交叉核实
交叉核实法的思想是:为了判断第i个观测的判别
正确与否,用删除第i个观测的样本数据集计算出判
P i ( x ) 2 lq i n 2 μ ( ) Σ i 1 x μ ( ) Σ i 1 μ (i)
问题转化为若P l(x)m 1ik[P ii(nx)],则判 xGl 。
P i(x ) 2 (q li n 1 2 μ (i Σ ) 1 μ (i ) μ (Σ i )1 x )
P(好/做 人好事)
P好P 人 (做 P好 好 /好 P 人 事 )做 人 P(坏 好 /好 )P 人 事 (做 人好 /坏事 )人

判别分析解读 PPT

判别分析解读 PPT
判别分析
Discriminant Analysis
流行病与卫生统计学系
• 聚类分析:对(样本)总体进行分类 • 判别分析:对(样本)个体进行分类
判别与聚类
• 聚类分析可以对样本/指标进行分类,判别分析 只对样本进行分类。
• 聚类分析事先 不知道事物的类别,也不知道应 分几类;判别分析必须事先知道事物的类别, 也知道应分几类。
• 在农林害虫预报中,根据以往的虫情,多种气 象因子来判别一个月后的虫情是大发生,中发 生或正常
• 在体育运动中,判别某游泳运动员是适合练蛙 泳,仰泳还是自由泳
• 在医疗诊断中,根据某人多种检验指标来判断 此人是某病患者还是非患者
判别分析--诊断
• 临床诊断: • 急腹症的患者,需要诊断患病原因。 • 诊断阑尾炎时需要与其他急腹症作鉴别诊断;
• 聚类分析不需要分类的历史资料,能直接对样 本进行分类;判别分析需要历史资料去建立判 别函数,然后才能对样本进行分类。
• 判别分析:根据判别对象若干个指 标的观测结果判定其应属于哪一类 的统计学方法。
应用
• 在经济学中,根据人均国民收入,人均工农业 产值,人均消费水平等多个指标来判定一个国 家的经济发展程度所属等级
以p=q=k=2 来说明Fisher判别分析法的基本原理和计算方法
根据Fisher判别分析法的基本原理,就是要选择一组 适当的系数 c 1 , c 2 ,…, c k ,使得类间差异D最大 且类内差异V最小,即,使得下式的值 Q 达到最大。
根据多元函数求极值的原理和方法,使得 Q 取最大 值的点是Q 的一阶偏导函数等于0的方程组的解。 令上述方程组的解是: 那么,Fisher判别函数估计式是:
该类。 • 适合于多类的判别分析。

判别分析完整课件

判别分析完整课件
D ( y(1) y( 2) )(n1 n2 2) ( ci di )(n1 n2 2)
2 i 1 m
m为判别指标数,根据自由度查F(m,n1+n2-m-1)。
(三)确定判别临界值
确定两类的判别临界值(即两类的分界点)yc, 据此对未知样本作出判断。
yc
n1 y(1) n2 y( 2 ) n1 n2
在医学科研资料中经常遇到指标变量不呈正态分 布或难以满足参数判别分析的要求,特别是有些 变量是分类变量,不可能服从正态分布,可以用 Logistic回归分析的方法。
实际资料中一般含有较多的指标,有些指标可能 对鉴别不同的类别毫无用处,或指标间彼此相关的情 况时不应该用所有的指标都参与建判别函数。所以, 在建函数之前,先进行变量筛选是很有必要的,即逐 步判别分析,此法建立的函数更简洁,效果也更好。 此外,对于某些指标间存在彼此相关的情况时, 先对众多的指标进行聚类,从聚成的几大类中各挑选 一个最有代表性的指标,用这些典型指标建立判别函 数。 逐步回归、判别分析、聚类分析等方法可以联合 应用。
y ci xi
i 1 n
2
n1
(y
i 1
n2
i ( 2)
y( 2 ) )
2
y(1) ck xk (1)
k 1
n1
y( 2) ck xk ( 2)
k 1
n2
根据求极值的原理,求I对判别系数Ci的偏导数,使其等 于零,得到下列方程组:
f11C1+f12C2+……f1mCm=d1 f21C1+f22C2+……f2mCm=d2 ……… …… …… ……… ….. fm1C1+fm2C2+……fmmCm=dm 其中, di

贝叶斯判别分析ppt课件

贝叶斯判别分析ppt课件
假定两总体G1,G2均服从4元正态分布,在误判损失相 等且先验概率按比例分配条件下,对待判样本进行bayes
判别.
19
表4-2 两类企业财务状况数据
G1(破产企业)
G2(非破产企业)
X1
X2
-0.45 -0.41
-0.56 -0.31
0.06 0.02
-0.07 -0.09
-0.10 -0.09
-0.14 -0.07
p20=1-chi2cdf(Q20, p*(p+1)/2) %卡方分布概率p20 p20 P{Q2 Q20}
输出结果:Q10=2.5784,Q20=0.7418均<7.8147=λ,
p10=0.4613,p20=0.8633,均>0.05,
认为两个总体协方差矩阵相等
15
(2)估计两个总体的先验概率 按样本容量比例选取.由于Apf与Af分别为
回代误判率: p pˆ N1 N2
n1 n2
交叉误判率:
p
pˆ *
N1*
N
* 2
mn
11
例4.3.1 6只Apf和9只Af蠓虫触角长度和翅膀长度数据: Apf:(1.14,1.78), (1.18,1.96), (1.20,1.86), (1.26,2.00), (1.28,2.00), (1.30,1.96) ; Af:(1.24,1.72), (1.36,1.74), (1.38,1.64),(1.38,1.82), (1.38,1.90),(1.40,1.70),(1.48,1.82),(1.54,1.82), (1.56,2.08).
0.40 0.38 0.11 3.27
0.26 0.19 0.05 2.25

判别分析(第3节_贝叶斯判别法1)

判别分析(第3节_贝叶斯判别法1)

为 G1,G2 ,,Gk ,k个总体各自出现的概率分别为
q1, q2 ,,qk ,qi
0
k
, qi
1.
i 1
在这种的情形下,对于新的样品如何判断其来自哪
个总体?判断的准则函数该怎样确定?
第三节 贝叶斯(BAYES)判别法
下面我们对这一问题进行分析。首先应该清楚
L(Gi | Gi ) 0 ,L(Gi | Gi ) 0 ;对于任意的 i, j 1,2,, k 成 立 。 设 k 个 总 体 G1,G2 ,,Gk 相 应 的 p 维 样 本 空 间 为 R1, R2 ,, Rk ,即为一个划分,故我们可以简记一个判别规 则为 R (R1, R2 ,, Rk ) 。从描述平均损失的角度出发,如果 原来属于总体 Gi 且分布密度为 fi (x) 的样品,正好其取值落入 了 R j ,我们就将会错判为 X 属于 G j 。
采用后验概率的判别准则为:
判 X Gh , 当 P(Gh | X ) P(Gi | X ) 时,(i h,i 1,, k).
第三节 贝叶斯(BAYES)判别法
■ 贝叶斯判别准则 ● 基本问题 设有 k 个总体 G1,G2 ,,Gk ,其各自的分布密 度函数 f1(x), f2 (x), , fk (x) 互不相同的,假设 k 个总体各自 出 现 的 概 率 分 别 为 q1, q2 ,,qk ( 先 验 概 率 ), qi 0 ,
本章主要内容
第一节 第二节 第三节 第四节 第五节
绪论 距离判别法 贝叶斯判别法 Fisher判别法 判别效果检验问题
第三节 贝叶斯(BAYES)判别法
■ 贝叶斯判别法的基本思想 ● 问题引入 从第二节中可以看出:距离判别法虽然 简单,便于使用(对总体只涉及均值向量和协方差阵, 而对总体的分布类型不作要求)。但是该方法也有它 明显的不足之处: 首先,判别方法与总体各自出现的概率的大小无关; 其次,判别方法与错判之后所造成的损失无关。 贝叶斯判别法就是为了解决这些问题而提出的一种判 别方法。

判别分析(共27张PPT)

判别分析(共27张PPT)

w11 w12 w1 p w1r
w
21
w22
w2p
w2r
Qw=
w
p1
w p2 w pp
w
pr
wr1 wr 2 wrp wrr
使其中虚线左上部分便是只含 p 个变量的模型中的
类内离均差平方和矩阵Q( p ),而整个矩阵则是含p+1
w
个变量的模型中的类内离均差平方和矩阵Q ( p 1) 。
第12章 判别分析Discrimination Analysis
判别分析
:从反映个体性质各个侧面的P个变量出发,通过
定量分析,最终将其判归某一已知总体,从而将 对个体的研究置于更为广泛的总体研究背景上。
各种判别分析都是按照某种判别原则(视判别方
法不同而不同),在e
对变量进行剔除和引进的方法 差异显著地大于类内差异呢?还需进行测验。
第三节 逐步判别分析方法
Stepwise Discrimination Analysis
Wilk’s Λ统计量 何分类”、“某一个事例(或样品)属于那一类”等问题是并不知晓;
如果已知将原应属于Gi的样品误判为属于Gj所造成
第二节 贝叶斯判别分析
|Q | |Q |w 设叶X斯,判Y别是法从的均判值别向函量数为)μ,,协按方判差别阵函为数wΣ值的的总大体小G来中抽取的两个样品,定义X,Y之间的马氏距离平方为:
= ──── =── 用 F 测验可以检验增长是否显著。
|Q +Q | |Q | h 第与五多步 元、回如归果分有析待相判似数,据在,进将行其判代别入分,析并时判,别并e归不类是。
统计量为p,增加一个变
量 (x ) 后的 Bayes Discrimination Analysis

贝叶斯判别分析

贝叶斯判别分析
i =1
给定 R 的一个划分 R = ( R1 , R2 ,
Ri ∩ R j = φ (i ≠ j , i, j = 1,2,
, Rk ) , 即 ∪ Ri =R m ,
i =1
k, k) , 由 RFra bibliotek规 定 的 判 别 准
样品来自 π i 的先验概率为 qi ,属于 π j 被误判为
π i 的损失称为损失函数,记作 C (i | j ) 。
一、 两个总体判别
设 π 1 、 π 2 为两个 m 维总体,其分布密度分别为
p1 ( x ) 、 p 2 ( x ) 。 x = ( x1 , x 2 ,
x m )′ 一样品,它只可能
2,1 属于哪个总体,并求出 R = ( R1 , R 2 ) 。
1 exp{− ( x − µ i ) 2 / σ i2 } i = 1,2 , 解: pi ( x) = 2 2π σ i 1 1 1 −2 2 exp{− (2 − 0) } = p1 (2) = e = 0.054 2 2π 2π 1 1 1 2 p2 (2) = exp{− (2 − 3) / 4} = e −1/ 8 = 0.176 2 2 2π 2 2π 由于 p1 ( 2) < p 2 ( 2) ,所以 2 属于 π 2 ; 1 1 −1 / 2 1 2 exp{− (1 − 0) } = p1 (1) = e = 0.242 2 2π 2π 1 −1/ 2 1 1 2 p2 (1) = − e = 0.120 exp{ (1 − 3) / 4} = 2 2 2π 2 2π p1 (1) > p 2 (1) ,所以 1 属于 π 1 。
定理 6-1 判别为
使平均损失 g ( R1 , R2 ) 达最小的 Bayes

判别分析(3)贝叶斯判别

判别分析(3)贝叶斯判别

此时,ˆ k , ˆ k 均为已知,k总体的密度函数可表
为 2021/2/4
1
12
§4.3.1 判别函数
fk(X )|(2 S π 1 )m |1 //2 2ex 1 2 p (X [X k)TS 1(X X k)]
这里,| S 1 |为矩阵 S的逆矩阵的行列式。上式表
明 fk (X )是一个具体已确定的函数。下面的问题
判别分析(3)贝叶斯判别
贝叶斯( Bayes )判别
距离判别只要求知道总体的特征量(即参数)---
均值和协差阵,不涉及总体的分布类型. 当参数未知
时,就用样本均值和样本协差阵来估计.
距离判别方法简单,结论明确,是很实用的方法.
但该方法也有缺点:
1. 该判别法与各总体出现的机会大小(先验概
率)完全无关;
各种统计推断都通过后验概率分布来进 行.将贝叶斯思想用于判别分析就得到贝叶斯 判别法.
2021/2/4
1
3
在正态总体的假设下,按Bayes判别的思
想,在错判造成的损失认为相等情况下得到
的判别函数其实就是马氏距离判别在考虑先
验概率及协差阵不等情况下的推广. 所谓判别方法,就是给出空间Rm的一种划
分:D={D1,D2,…,Dk}.一种划分对应一种判 别方法,不同的划分就是不同的判别方法. Bayes判别法也是给出空间Rm的一种划分.
之前.
2021/2/4Bayes判别准则要求给1 出qi(i=1,2,…,k)的值. 5
qi的赋值方法有以下几种:
(a) 利用历史资料及经验进行估计.例如某地区
成年人中得癌症的概率为P(癌)=0.001= q1,而P(无癌 )=0.999 = q2 .
(b) 利用训练样本中各类样品占的比例ni/n做为qi

贝叶斯决策理论与统计判别方法PPT课件

贝叶斯决策理论与统计判别方法PPT课件

• P(ωi)=P(ωj)时决策面方程
WT(X-X1)=0
第32页/共55页
W=μi-μj W=μi-μj
正态分布概率模型下的最小错误率贝叶斯决策
一维特征
第33页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
二维特征
第34页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
三维特征
第35页/共55页
第14页/共55页
二维向量的协方差矩阵
第15页/共55页
多元正态分布
• 协方差矩阵 • 协方差矩阵并不只对正态分布有用 • 特性: 协方差矩阵是一个对称矩阵 • 特性: 协方差矩是正定的
第16页/共55页
多元正态分布的性质
• (1)参数μ与Σ对分布具有决定性
• 与单变量相似,记作p(X)~N(μ,Σ)
The action of a linear transformation on the feature space will convert an arbitrary normal distribution into another normal distribution.
第20页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
第46页/共55页
正态分布概率模型下的最小错误率贝叶斯决策
• 最小距离分类器与线性分类器
• 两者都是线性分类器 • 最小距离分类器是线性分类器的一个特例 • 最小距离分类器在正态分布情况下,是按超球体分布以及先验概率相
等的前提下,才体现最小错误率的 • 只有在一定条件下,最小距离分类器同时又是最小错误率分类器 • 最小距离分类器的概念是分类器中是最常用的,因为它体现了基于最
• 前者是一个椭圆,而后者则是圆

第18章判别分析PPT课件

第18章判别分析PPT课件
j
X
(B) j



X

i
X
j

A
类和
B
类的观察值。
2. 判别规则 建立判别函数后, 按公式 (18-1) 逐例计算判别函数值 Zi ,进一步求 Zi 的两类均数 ZA、ZB与总均数Z ,按下式计算判别界值:
判别规则:
Zc
ZA
ZB 2
Zi Zc, Zi Zc, Zi Zc,
判为A 类 判为B 类 判为任意一类
第一节 Fisher判别
适用于指标为定量指标的两类判别 (或多类判别)
一、两类判别
1. Fisher判别的原理
已知A、B两类观察对象, A类有nA 例, B 类有nB 例,分别记录了X1, X2,, Xm 个
观察指标,称为判别指标或变量。Fisher 判 别法就是找出一个线性组合
Z C 1 X 1 C 2 X 2 C m X m ( 1 8 - 1 )
S 21C 1
S 22C 2
S m 1C 1 S m 2 C 2
S1mC m D1 S2mCm D2
SmmCm Dm
(18-3)
式中
Dj
X
(A ) j
, X ( B ) j
分 别 是 X
, ( A )
j
X
(B) j
A
类和
B
类第
j个
指 标 的 均 数 ( j 1,2, , m ) ;
讲述内容
第一节 Fisher判别 第二节 最大似然判别法 第三节 Bayes公式判别法 第四节 Bayes判别 第五节 逐步判别 第六节 判别分析中应注意的问题
▪ 目的:作出以多个判别指标判别个体分类的
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

ql
fl
(x0
)

max
1ik
qi
fi
(x0
),
则x0判给 Gl。
若fi
(x)

(2
1 i
)1
2
exp[
1 2
(
x


(i)
)i
1 ( x


(i)
)]
则,
qi
fi
(
x)

qi
(2
1 i
)1
2
exp[
1 2
(
x


(i
)
)i
1
(
x


(i)
)]
上式两边取对数 ln(qi fi (x))
Dj
C(j/i)表示相应错判所造成的损失。
则平均错判损失为:
k
ECM qi C( j / i)P( j / i) i1 ji
使ECM最小的分划,是Bayes判别分析的解。
【定理】
若总体G1,G2,,Gk的先验概率为
qi ,i 1,2,3,,k
且相应的密度函数为fi (x),损失为C( j / i)时,
因此有
y y

G1 , G2 ,
如W(y) 如W(y)
0, 0。
2、当总体的协方差已知,但不相等
y G1, 如d 2 y,G1 d 2 y,G2 ,
y

G2

如d 2 y,G2 d 2 y,G1
d 2 (y,G2 ) d 2 (y,G1)
然后比较其大小,选取其中最小的,则判定样 品属于该总体。
下面在k=2的情形下,计算作为例子,我们讨论。
ECM (D1, D2 )
q1C(2 /1) f1(x)dx q2C(1/ 2) f2 (x)dx
D2
D1
q1C(2 /1) f1(x)dx q2C(1/ 2) f2(x)dx
x

Gl

Pi (x)

2(ln
qi

1 μ Σ μ (i) 1 (i) 2

μ (i) Σ 1x)

mi (x)

ln
qi

1 μ Σ μ (i) 1 (i) 2

μ(i)Σ1x
问题转化为若 ml (x) m1iaxk [mi (x)],则判 x Gl 。
当先验概率相等,即
hj
(x)

k

qi
fi
(x)

q
j
f
j
(x)越小
q j f j (x)越大
i 1
ql fl (x) max qi fi (x),
1ik
则 x判给Gl 。与标准Bayes判别等价
广义平方距离法
当错判C概(率j / i)

1 0
i j i j
定义样品X到总体Gi的广义平方距离为: Di2(X ) di2(X ) g1(i) g2(i), i 1,k
P(Gi
|
x0 )

qi fi (x0 ) q j f j (x0 )
判别规则
P(Gl
|
x0 )

ql fl (x0 ) q j f j (x0 )
max
1ik
qi fi (x0 ) q j f j (x0 )
则 x0判给Gl,在正态的假定下,fi (x)为正态分布的 密度函数。
下面讨论总体服从正态分布的情形
N (0,22 ) N (3,12 ) N (2,0.52 )
按广义平方距离准则判断样品 x 2.5 应判
(y 2 )21(y 2 ) (y 1)11(y 1)
3、当总体的协方差未知时,用样本的离差阵代替,
步骤如下:
(1)分别计算各组的离差矩阵 A1和 A2;
(2)计算 ˆ A1 A2
n1 n2 2
(3)计算类的均值 1, 2
(4)计算
当两总体靠得比较近时,即两总体的均值 差异较小时,无论用何种判别方法,判错的概 率都比较大,这时的判别分析也是没有意义的, 因此只有当两总体的均值有明显差异时,进行 判别分析才有意义,为此,要对两总体的均值 差异性进行检验.
练习:P211:5-1
贝叶斯判别法
一 、标准的Bayes判别
办公室新来了一个雇员小王,小王是好人还是坏 人大家都在猜测。按人们主观意识,一个人是好人或 坏人的概率均为0.5。坏人总是要做坏事,好人总是 做好事,偶尔也会做一件坏事,一般好人做好事的概 率为0.9,坏人做好事的概率为0.2,一天,小王做了 一件好事,小王是好人的概率有多大,你现在把小王 判为何种人。
按照判别准则来分有 距离判别、费希尔判别与贝叶斯判别。
距离判别法
判别准则:对于任给一次观测值,若它与第 i 类 的重心距离最近,就认为它来自于第 i 类。
马氏距离
d 2 ( X ,Y ) ( X Y )1( X Y ) d 2 ( X ,G) ( X )1( X )
当协方差阵相等时
即1 k
判别函数退化为
zi (x) ln qi
1 (x μ(i) )Σ1(x μ(i) ) 2


1 [2 ln 2
qi
(x

μ(i)
)Σ 1 (x

μ(i) )]
令 Fi (x) 2ln qi (x μ(i) )Σ1(x μ(i))
q1 qk
1 k

有 mi (x) 1 μ Σ μ (i) 1 (i) μ(i)Σ1x 2
完全成为距离判别法 。
二、 考虑错判损失的Bayes判别分析 设有总体 Gi (i 1,2,, k) ,Gi具有概率密度函
数 fi (x)。并且根据以往的统计分析,知道 Gi 出现 的概率为 qi,(q1 qk 1) 。
划分的贝叶斯解为
Di

x
|
hi
(x)

min
1 jk
hj
(x)
,
i 1,2,3,, k
其中
k
hj (x) qiC( j / i) fi (x)
i 1
含义是:当抽取了一个未知总体的样品值x, 要判别它属于哪个总体,只要先计算出k个按先验概 率加权的误判平均损失
k
hj (x) qiC( j / i) fi (x) i 1
R D1
D1
q1C(2 /1) q1C(2 /1) f1(x)dx
D1
q2C(1/ 2) f2 (x)dx
D1
q1C(2 /1) [q2C(1/ 2) f2 (x) q1C(2 /1) f1(x)]dx
D1
由此可见,被积函数在D1是负数时,可使ECM 最小,则有分划
Bayes判别准则为:
x G1 若v(x) d x G2 若v(x) d
特别地,若C(
j
/
i)

1 0
i j i j
k
hj (x) qiC( j / i) fi (x) i 1
k
hj (x) qi fi (x) i j
k
hj (x) qi fi (x) q j f j (x) i 1
两总体的距离判别
1、协方差相等
先考虑两个总体的情况,设有两个协差阵相同
的p维正态总体 G1和 G2,对给定的样本Y,判别一个
样本Y到底是来自哪一个总体,一个最直观的想法是 计算Y到两个总体的距离。我们用马氏距离来指定判 别规则,有:
y y

G1 , G2 ,
如d 2 y,G1 d 2 y,G2 , 如d 2 y,G2 d 2 y,G1

)' 1 2
(1

2
)
其中 1 2
2
不妨设 1 2 ,则当 x 时, X GA
P(X 2 )

P(X 2
2

1
2
2

2 )

P(X 2

2

1
2
2
)
P( X 2 2 1 2 )

2
1 (1 2 ) 2

ln
qi

1 ln 2
2

1 ln 2
| i
|

1 2
(
x


(i)
)i1
(
x


(i
)
)
去掉与i无关的项,等价的判别函数为:
zi (x)

ln
qi

1 2
ln
|
i
|

1 2
(
x


(i
)
)i1
(
x


(i
)
)
问题转化为若
Zl
(
x)

max[Z
1ik
i
(
x)],则判
x Gl 。
D1 x | q2C(1/ 2) f2 (x) q1C(2 /1) f1(x) 0
q2C(1/ 2) f2 (x) q1C(2 /1) f1(x) 0
f1(x) q2C(2 /1) f2 (x) q1C(1/ 2)
令 W (x) f1(x)
f2 ( x)
d q2C(1/ 2) q1C(2 /1)
判别函数:
相关文档
最新文档