概率论与数理统计之贝叶斯判别分析剖析讲解

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关,求最大时可以去掉,最终得到如下形式的判别函数与判别准则
y( g
/
x)
ln
qg
1 2
( g )' 1 ( g )
x ' ( g )1 ( g )
g
max
(3)计算后验概率
在进行分类计算时,主要根据判别式y(g / x)的大小,而不是后验概率
P(g / x),但是有了y(g / x)之后,就可以根据下式算出P(g / x):
i 1
i 1
expy(g / x)exp(x)
k
expy(g / x)
k
expy(i / x)exp(x) expy(i / x)
i 1
i 1
由上式知,使y为最大的h,其P(g / x)必为最大, 因此我们只须把样品x代入判别式中:分别计算 y(g / x),g 1,2,, k。 若
y(h / x)=maxy(g / x) 1g k
• 先验概率不是根据有关自然状态的全部资料测定的, 而只是利用现有的材料(主要是历史资料)计算的;后 验概率使用了有关自然状态更加全面的资料,既有先 验概率资料,也有补充资料;
• 先验概率的计算比较简单,没有使用贝叶斯公式;而 后验概率的计算,要使用贝叶斯公式,而且在利用样 本资料计算逻辑概率时,还要使用理论概率分布,需 要更多的数理统计知识。
P(g / x)=
expy(g / x)
k
expy(i / x)
i 1
因为y(g / x)=ln(qg fg (x)) (x)
其中(x)是 ln(qg fg (x))中与g无关的部分。
所以P(g / x)=
qg fg (x)
k

expy(g / x) (x)
k
qi fi (x) expy(i / x) (x)
1、Bayes判别法基本思想
• Bayes判别法的基本思想是假定对所研究的对 象已有一定的认识,常用先验概率来描述这 种认识;然后抽取一个样本,用样本来修正 已有的认识(先验概率分布),得到后验概 率分布。各种统计推断都是通过后验概率分 布来进行。
设有k个总体 G1,G2,G3Gk 且总体 Gi 的概率密度为 fi (x)
先验概率和后验概率
• 先验概率是指根据以往经验和分析得到的概率,它往 往作为“由因求果”问题中的“因”出现。
• 后验概率是指在得到“结果”的信息后重新修正的概 率,是“执果寻因”问题中的“因”。后验概率是基 于新的信息,修正原来的先验概率后所获得的更接近 实际情况的概率估计。
先验概率和后验概率的区别:
则把样品x归入第h总体。
例(胃癌的鉴别)为了判别病人是胃癌、还是 萎缩性胃炎。现对患有胃癌、萎缩性胃炎和非 胃炎患者中随机抽取15个病人,每人化验4项生 化指标:血清铜蛋白(X1)、蓝色反映(X2)、 尿吲哚乙酸(X3)和中性硫化物(X4),具体 数据见表5.10。试用贝叶斯判别分析,对这15个 样品进行判别归类。
蓝色反应 134 134 167 150 167 125 100 117 133 100 115 125 142 108 117
尿吲哚乙酸 中性硫化物
20
11
10
40
12
27
7
8
20
14
7
14
6
12
7
6
10
26
5
10
5
19
6
4
5
3
2
12
7
2

X (1) (188 .60,150 .40,13.8,20.0); X (2) (157 ,115,7,13.6); X (3) (151,121 .4,5,8)
,样本x来自
q1 q2 qk
Gi
1
的先验概率为qi ,i 1,2k, 满足
.利用贝叶斯理论,x属于 Gi的后验概率
即当样本x已知时,它属于 Gi 的概率为:
P(Gi
x)
qi fi (x)
k
i 1,2k
qi fi (x)
i 1
最大后验概率判别准则: x Gl ,若P(Gl
x)
max
1ik
P(Gi
x)
2、多元正态总体的Bayes判别法
•在实际问题中遇到的许多总体往往服从正态分 布,下面给出p元正态总体的Bayes判别法。 (1)判别函数的导出
由前面的叙述可知,使用Bayes判别法作 判别分析,首先要知道待判总体的先验概率和 密度函数。对于先验概率,一般用样品的频率 以qg认为nng先来验代概替率。不或起者作令用先。验概率相等,这时可
则问题转化为:
g
Z (g / x) max
(2)假设协方差阵相等
Z (g / x)中含有k个总体的协差阵(g)的行列式及逆矩阵,而且对x二次
函数,实际计算工作量很大。如果假定k个总体的协差阵相同,即
(1)=(2)==(k)=,这时Z (g / x)中的 1 ln (g) 和x'(g)1x两项与g无 2
p元正态分布密度函数为:
fg
(x)
(2
) p / 2
(g)
1/ 2
exp
1 2
(x
(g ) )' (g )1(x
(g) )
式中 (g)和(g)分别是第g总体的均值向量和协方差阵。把fg (x)
代入p(g / x)的表达式中,因为我们只关心寻找使p(g / x)最大
的g,而分式中的分母不论g为何值都是常数,故可改令
并在此基础上,判断X1=205,X2=140,X3=11, X4=20属于哪一种患者?
类别
胃癌 胃癌 患者 患者
非胃 癌患

萎缩 性胃 炎患

非胃 炎患

序号 血清铜蛋白
1
228
2
245
3
200
4
170
5
100
6
225
7
130
8
150
9
120
10
160
11
185
12
170
13
165
14
135
15
100
g
qg fg (x) max
取对数并去掉与g无关的项,记为:
Z (g / x) ln qg
1 ln (g) 2
1 (x (g) )' (g)1(x (g) )
2
ln qg
1 ln (g) 2
1 2
x'( g )1x 1 ( g )' (g )1 (g )
2
x ' ( g )1 ( g )
贝叶斯判别分析
汇报人: Leabharlann Baidu号:
贝叶斯判别分析
从距离判别法来看,它存在以下不足: (1)判别方法与总体各自出现的概率的大小无关; (2)判别方法与错判之后所造成的损失无关。
从费歇尔判别法来看,它随着总体个数的增加,建立的 判别函数式个数也增加,因而计算起来比较麻烦。
如果对多个总体的判别考虑的不是建立判别式,而是计 算新给样品属于各总体的条件概率P(l/x),比较这k个 概率的大小,然后将样品判归为来自概率最大的总体, 这种判别方法称为贝叶斯判别方法。
相关文档
最新文档