机器学习-5-Bayes分类器
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
i = arg max xD ln P( x | i )
i
连续属性概率密度函数:
p( x | i )
N (i , i )
1 i = Di 1 Di
2 i
xDi
x
xDi
x x
i i
T
H i i ln li (i ) ln P( Di | i ) ln
自然状态 ┅ ω1 ω2 ┅ λ( ω 1 , α 1 ) λ( ω 2 , α 1 ) ┅ λ( ω 1 , α 2 ) λ( ω 2 , α 2 ) ⁞ ⁞ λ(ω1, αN) λ(ω2, αN) ⁞ ┅
4
ωN λ(ωN, α1) λ(ωN, α2) ⁞ λ(ωN, αN)
of
机器学习基础-第五章Bayesian分类器
P i , x j
Di j 1 D Ni Di jk 1 Di j N k
P i | x
j 1 D j m '
d
P i , x j P x k | i , x j
k 1
d
P x k | i , x j
机器学习基础-第五章Bayesian分类器
类条件概率分布-连续属性:
Dij
p x j | i
d
N i j , i j 2
h* ( x) arg max P i P x j | i
i
j 1
x j j 2 1 i j p x | i exp 2 i j 2 2 i j
D
P i P x | i P i d j P(i | x) P x | i P x P x j 1
mi P i D m
8
of
Di
机器学习基础-第五章Bayesian分类器
39
5.2
类条件概率分布-离散属性:
j m P x j | i i Di mi
例:数据集-表4.3为训练集,测试下表测试样本的分类结果:
机器学习基础-第五章Bayesian分类器
9
of
39
5.2
P(好瓜)=8/17=0.471 P(坏瓜)=9/17=0.529 P(色=青|好)=3/8=0.375 P(色=青|坏)=3/9=0.333 P(根=卷|好)=5/8=0.625 P(根=卷|坏)=3/9=0.333 P(敲=浊|好)=6/8=0.75 P(敲=浊|坏)=4/9=0.444 P(纹=清|好)=7/8=0.875 P(纹=清|坏)=2/9=0.222 P(脐=凹|好)=5/8=0.625 P(脐=凹|坏)=2/9=0.222
P(好|测试)=0.038
P(坏|测试)=6.80X10-5 结论----好瓜
0.46 0.279 2 1 p tiang 0.46 | hao exp 0.788 2 2 0.101 2 0.101
2 0.46 0.154 1 p tiang 0.46 | huai exp 0.066 2 2 0.108 2 0.108
xD P( x | i ) xD ln P( x | i )
i
贝叶斯估计: θ是随机向量,具有先 验概率分布
6
பைடு நூலகம்of
机器学习基础-第五章Bayesian分类器
39
5.2
应用贝叶斯决策时主要的困难是贝叶斯公式 类条件概率P(x|ωi)的估计。因为其是属性变 量的联合概率分布。 朴素贝叶斯分类器的判别准则:
P x | i =P x , x ,
1 2
, x | i
d
h* ( x) arg max P i P x j | i
i
j 1
d
条件独立性假设:对已知类别,假设所有属 性相互独立,即每个属性独立的对分类结果 发生影响。
已知训练数据集D: ω1类-{x11, x12 ,┅,x1m1}=D1 ω2类-{x21,x22 ,┅, x2m2}=D2 ⁞ ⁞ ⁞ ωN类-{xN1,xc2 ,┅,xcmc} =DN 先验概率分布:
机器学习基础-第五章Bayesian分类器
11
of
39
5.2
平滑处理:某个属性值在训练集中没有与某个类同时出现过,会出现问题。如: P(敲=清|好)=0/8=0 P(好|测试)=0
Laplacian Correction:令N表示训练集D中可能的类比数,Ni表示第i个属性可能的 取值数。
Di 1 P(i ) D N
Cavity Toothache Catch
Weather
其联合概率分布 8个元素和4个 元素的表构造
of
机器学习基础-第五章Bayesian分类器
39
5.4贝叶斯网络
Alarm问题:Pearl教授家住在洛杉矶,那里地震和盗窃时有发生,教授家里装有警铃 ,发生地震和盗窃都有可能触发警铃,他的两个邻居Mary和John听到警铃响后可能 会打电话给他。一天,Pearl教授接到Mary的电话,说听到他家的警铃响了,Pearl教 授想知道他家遭盗窃的概率有多大? B E A M J Probability 问题包含5个随机变量:盗窃(B)、地震(E)、 y n n y y 1.2E-4 警铃(A)、接到Mary的电话(M)、接到John y n n y n 5.1E-5 的电话(J);假设均为布尔形变量:T or F. y y n n y 5.7E-6 y y y n n 8.5E-5 假设Pearl教授根据自己以往的经验对这5个 y y y y y 7.2E-6 变量的联合概率分布有如下的估计(如右图) n n n y n 9.1E-1 ,从联合概率分布P(B,E,A,M,J)出发,先计 n n n n y 2.6E-4 算边缘分布 P( B, M ) P( B, E, A, J , M )
39
决策αi风险: R i | x
N j 1
ij P j | x 总体风险: R(h) R h( x) | x Ex R( | x)
Bayes最 h* ( x) arg min R | x 优分类器: i Y 判别式模型(Discriminative Models):根据训练数据集D直接估 计后验概率模型。
机器学习基础-第五章Bayesian分类器
10
of
39
5.2
P(触=硬|好)=6/8=0.75
P(触=硬|坏)=6/9=0.667
2 0.679 0.574 1 p midu 0.697 | hao exp 1.959 2 2 0.129 2 0.129 2 0.679 0.496 1 p midu 0.697 | huai exp 1.203 2 2 0.195 2 0.195
父属性的确定方法: SPODE方法:假设所有属性都依赖于 同一个属性,称为超父属性(Super Parent),通过模型选择的方法确定超 父属性。
y x
1
P(i | x) P i P x | i , px
j j 1
d
j
x
2
x
3
x
4
其中pxj是属性xj的父属性-依赖属性。
机器学习基础-第五章Bayesian分类器
14
of
39
TAN(Tree Augmented naїve Bayes)则是最大带权生成树算法的基础上通过以下步 骤得出属性的依赖关系。
机器学习基础-第五章Bayesian分类器
15
of
39
AODE(Averaged ODE)方法:将每个属 性作为超父属性来构建SPODE,然后将这 些具有足够训练数据支撑的SPODE集成起 来作为最终结果。
P 1 | x , P 2 | x ,
, P N | x
P 1 | x , P 2 | x ,
, P N | x
问题:样本空间太大,无法直接根据训练数 据直接建立概率模型。例如我们假设属性空 间的每个属性都是布尔变量,则样本空间有 2d个元素。
5
of
机器学习基础-第五章Bayesian分类器
机器学习基础
第五章贝叶斯判别器
智能科学与技术系
刘冀伟
1
1 2 3 4 5
贝叶斯决策论 朴素贝叶斯分类器 半朴素贝叶斯分类器 贝叶斯网络 EM算法
目录 CONTENT
已知-数据集合(D):
D x1 , y1 , x2 , y2 ,
, xm , ym
xi1 2 xi where : xi ; xd i yi Y {1 , 2 , , N }
16
of
39
5.4贝叶斯网络
建立联合分布模型, 如果问题域由n个 布尔变量描述,则 需要O(2n)的概率表 作为知识库, O(2n) 的时间处理这个表。 实际问题中实现较 为困难。
利用条件独立性-贝叶斯网络
Cavity Toothache Catch Weather 其联合概率分布 需要32元素
P( x | i )
j
Di 1
j
Di Ni
机器学习基础-第五章Bayesian分类器
12
of
39
条件独立性假设:对有些问题来说要求太 强,很难满足。 半朴素贝叶斯分类器是对联合概率分布和 条件独立性假设的一种妥协的产物,独依 赖估计(One-Dependent Estimator)是 半朴素贝叶斯分类器最常见的一种策略。 独依赖估计是指每个属性在类别之外最多 仅依赖一个其他属性。
E , A, J
P( B y, M y ) P( B y M y ) 0.61 P( M y )
n n n
y y y
y y y
n n y
n y n
7.0E-9 1.3E-2 1.7E-4
机器学习基础-第五章Bayesian分类器
19
of
39
5.4贝叶斯网络
从这个例子中我们可以看出,需要计算的联 合概率分布P(B,E,A,M,J)上式包含25-1=31 个 参数,假设有n个二元变量,则需要的独立 参数数目为:2n-1,所以,直接使用联合概 率分布进行不确定性推理的计算复杂度很大 ,随着变量的个数呈指数级增长。因此,当 变量很多时,联合概率的获取、存储和运算 都变得相当困难。 基于以下原因,从而产生了贝叶斯网络: 全联合概率计算复杂性十分巨大 现实需要一种自然、有效的方式来捕捉和推 理——不确定性知识 变量之间的独立性和条件独立性可大大减少 为了定义全联合概率分布所需的概率数目。
Bayes最优分类器的核心问题是求取:P | x 通常已知若干个样本: ω1类-{x11, x12 ,┅,x1m1}=D1 ω2类-{x21,x22 ,┅, x2m2}=D2 D ⁞ ⁞ ⁞ ωN类-{xN1,xc2 ,┅,xcmc} =DN 生成式模型(Generative Models): 先对联合概率P(x,ω)建模,然后再求 取后验概率模型。
贝叶斯网络(Bayes Network)是由 美国加州大学的珀尔(J.Pearl)于 1985年首先提出的一种模拟人类推 理过程中因果关系的不确定性处理 模型。 在综合先验信息(领域知识)和数 据样本信息的前提下,还可避免只 使用先验信息可能带来的主观偏见 贝叶斯网络方法的不确定性表示基 本上是保持了概率的表示方式,可 信度计算也是概率计算方法,只是 在实现时,各具体系统根据应用背 景的需要采用各种各样的近似计算 方法。
39
极大似然估计 估计先验概率和类条件概率密度! 难点:需要大量样本;当特征向量维数 较大时,计算起来比较复杂 解决方式:已知参数个数;把类条件概 率密度进行参数化 参数估计:先假定研究的问题具有某种数 学模型,如正态分布,二项分布等,再用 已知类别的学习样本估计模型中的参数。 最大似然估计:θ是确定的,未知;
假设空间(H):先验概率分布P(ωi) ,类条件概率分布P(x| ωi) 求判别函数:ω i=h (x)
x1 2 是d维 x x 随机 向量 xd
决策 α1 α2 ⁞ αN
y是随机变量,(xT, y)服从 联合概率分布P(x, y); D是由P(x, y)独立同分部产 生的样例集合