第7章-贝叶斯分类算法讲课教案
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
练一练
用朴素贝叶斯网络对以下保险销售客户数据进行分析:
(1)求条件概率P(性别/是),P(婚姻状态/是),P( 是否有房/是), P(性别/否),P (婚姻状态/否),P( 是否有房/否)。
(2)根据(1)中的条件概率,使用朴素贝叶斯方法预测一客户(性别=女,婚姻状态=已 婚,是否有房=无房)是否会购买此保险。
P(ak | Ci ) g(ak , Ci , Ci )
1 2 Ci
(ak Ci )
e 2
2 Ci
【例7.3】对于第6章表6.1的训练样本集S,所有属性为离散属性。 n=2(描述属性个数),特征向量为A={a1,a2},描述属性为A1和 A2(假设A1和A2之间相互独立)。类别属性为C,m=2(类别个 数),C1=False,C2=True。对应的贝叶斯网如图7.7所示。求 P(A1|C)和P(A2|C)。
P(C1)=P(购买计算机='是')=9/14=0.64 P(C2)=P(购买计算机='否')=5/14=0.36
(3)计算后验概率P(ai|Ci),先计算P(年龄='≤30'|购买计算机 ='是')和P(年龄='≤30'|购买计算机='否')。将训练数据集S按 “购买计算机”和“年龄”属性排序后的统计结果如表7.4所 示。则:
n
P(a1, a2 ,...,an ) P(ai | parent( Ai )) i1
其中,parent(Ai)表示Ai的父结点,P(ai|parent(Ai))对应条件概率表中关于Ai 结点的一个入口。若Ai没有父结点,则P(ai|parent(Ai))等于P(ai)。
【例7.2】有X、Y和Z三个二元随机变量(取值只有0、1两种情况),假设X、Y之 间是独立的,它们对应的条件概率表如表7.1所示。若已知条件概率P(X=1)=0.3, P(Y=1)=0.6,P(Z=1)=0.7,求P(X=0,Y=0|Z=0)的后验概率。
【例7.4】对于第6章表6.4所示的训练数据集S,有以下新样本X:
年龄='≤30',收入='中',学生='是',信誉='中'
采用朴素贝叶斯分类算法求X所属类别的过程如下:
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄 ≤30 ≤30 31~40 >40 >40 >40 31~40 ≤30 ≤30 >40 ≤30 31~40 31~40 >40
第7章 贝叶斯分类算法
贝叶斯分类概述 朴素贝叶斯分类 SQL Server朴素贝叶斯分类 电子商务数据的贝叶斯分类
7.1 贝叶斯分类概述
7.1.1 贝叶斯定理
若已知P(C)是关于C的先验概率,P(A)是关于A的先验概率, P(A|C)表示在已知C发生后A的条件概率,如图7.1所示,求P(C|A) 即A发生后C的后验概率。
X=1,Y=1 X=1,Y=0 X=0,Y=1 X=0,Y=0
Z=1
0.8
0.5
0.7
0.1
Z=0
0.2
0.5
0.3
0.9
表中的数值表示的是后验概率P(Z|X,Y),如有:P(Z=1|X=1,Y=1)=0.8, P(Z=0|X=1,Y=1)=0.2。
画出相应的贝叶斯网如图7.15所示。一般地,在画贝叶斯网时,若已知P(X|Y) 条件概率,则画一条从Y到X的有向边;若已知P(X|Y1、Y2、…、Yk)条件概率,则从 Y1、Y2、…、Yk各画一条从Yi(1≤i≤k)到X的有向边。
P(A1=Yes|C=False)=s11/s1=2/6=1/3 P(A1=No|C=False)=s12/s1=4/6=2/3 P(A1=Yes|C=True)=s21/s2=1/4 P(A1=No|C=True)=s22/s2=3/4
ID
属性A1
1
Yes
4
Yes
2
No
3
No
6
No
9
No
7
Yes
5
一个有向无环图(DAG):图中每个节点代表一个随机变量, 每条有向边表示变量之间的依赖关系。若有一条有向边从节 点X到节点Y,那么X就是Y的父节点,Y就是X的子节点。 一个条件概率表(CPT):把各节点和父节点关联起来。在 CPT中,如果节点X没有父节点,则表中只包含先验概率 P(X);如果节点X只有一个父节点Y,则表中包含条件概率 P(X|Y);如果节点X有多个父节点Y1、Y2、…、Yk,则表中包 含条件概率P(X|Y1、Y2、…、Yk)。
例如,假设节点X直接影响到节点Y,即X→Y,则用从X指向Y的 箭头建立节点X到节点Y的箭头(X,Y),权值(即连接强度)用条件 概率P(Y|X)来表示,如图7.2所示。其中箭头表示条件依赖关系。
定义7.2 对于随机变量(A1、A2、…、An),任何数据对 象(a1、a2、…、an)的联合概率可以通过以下公式计算获得:
(1)求条件概率P(Ci) 训练样本集S中有10个样本,即s=10,其中有6个属于C1的 样本,4个属于C2的样本,所以有:
s1=6,s2=4
P(C1)=s1/s=6/10=0.6 P(C2)=s2/s=4/10=0.4
(2)求后验概率P(Ai|C) 考虑属性A1,按属性C和A1排序后的统计结果如表7.2所示。则:
(4)假设条件独立性,X=(年龄='≤30',收入='中',学生='是', 信誉='中'),使用以上概率得到:
P(X|购买计算机='是')=P(年龄='≤30'|购买计算机='是')× P(收入 ='中'|购买计算机='是')×P(学生='是'|购买计算机='是') ×P(信誉='中'|购买计算机='是')
• P(购买保险=是)=2/5,P(购买保险=否)=3/5,(2分)
• 因为:P(性别=女/是)=1/4, P(性别=女/否)=2/3
• (1)求条件概率P(性别/是),P(婚姻状态/是),P( 是否有房/是), P(性别/否),P (婚姻状态/否),P( 是否有房/否):
• P(性别=女/是)=1/4, P(性别=男/是)=3/4,
• P(婚姻状态=未婚/是)=1,P(婚姻状态=已婚/是)=0,
• P( 是否有房=有/是)=1,P( 是否有房=无/是)=0,
No
8
No
10
No
类别C False False False False False False True True True True
统计结果 s11=2
s12=4
s1=6
s21=1 s22=3
s2=4
考虑属性A2,按属性C和A2排序后的统计结果如表7.3所示。则:
P(A2=大|C=False)=s11/s1=1/6 P(A2=中|C=False)=s12/s1=4/6=2/3 P(A2=小|C=False)=s13/s1=1/6 P(A2=大|C=True)=s21/s2=2/4=1/2 P(A2=小|C=True)=s22/s2=2/4=1/2
P( Ak | Ci )
k 1
所以对于某个新样本(a1,a2,…,an),它所在类别为:
n
c' arg max{ P(Ci ) P(ak | Ci )}
Ci
k 1
2. 后验概率P(Ak|Ci)的计算
计算对于后验概率P(ak|Ci)(也称为类条件概率)的方法如下: (1)如果对应的描述属性Ak是离散属性,可以通过训练样本集得 到,P(ak|Ci)=sik/si,其中sik是在属性Ak上具有值ak的类Ci的训练样本 数,而si是Ci中的训练样本数。 (2)如果对应的描述Ak是连续属性,则通常假定该属性服从高斯 分布。因而:
=0.22×0.44×0.67×0.67=0.04 P(X|购买计算机='否')= P(年龄='≤30'|购买计算机='否')×
P(收入='中'|购买计算机='否')×P(学生='是'|购买计算机='否') ×P(信誉='中'|购买计算机='否')
=0.6×0.4×0.2×0.4=0.02
(5)分类 考虑“购买计算机='是'”的类,有: P(X|购买计算机='是')×P(购买计算机='是')=0.04×0.64=0.03 考虑“购买计算机='否'”的类,有: P(X|购买计算机='否')×P(购买计算机='否')=0.02×0.36=0.01。 因此,对于样本X,采用朴素贝叶斯分类预测为“购买计算机=' 是'”。这与第6章采用决策树所得到的分类结果是一致的。
后验概率的贝叶斯定理如下:
7.1.2 贝叶斯信念网络
定义7.1 贝叶斯信念网络(Bayesian Belief Network,BBN) 简称贝叶斯网,它是一个概率网络,是一种基于概率推理的 数学模型,解决复杂系统的不确定性和不完整性问题。用图 形表示一组随机变量之间的概率关系。贝叶斯网有两个主要 成分:
X
Y
Z
P(X=0)=1-P(X=1)=0.7,P(Y=0)=1-P(Y=1)=0.4,P(Z=0)=1-P(Z=1)=0.3
由于X、Y均没有父结点,所以联合概率:
P(X=0,Y=0)=P(X=0)×P(Y=0)=0.7×0.4=0.28
依条件概率表有P(Z=0|X=0,Y=0)=0.9。根据贝叶斯定理,有:
朴素贝叶斯分类思想是:假设每个样本用一个n维特征向量 X={x1,x2,…,xn}来表示,描述属性为A1、A2、…、An(Ai之 间相互独立)。类别属性为C,假设样本中共有m个类即C1、 C2、…、Cm,对应的贝叶斯网如图7.5所示,其中P(Ai|C)是后验 概率,可以通过训练样本集求出。
给定一个未知类别的样本X,朴素贝叶斯分类将X划分到属于 具有最高后验概率P(Ci|X)的类中,也就是说,将X分配给类Ci,当 且仅当:
P(年龄='≤30'|购买计算机='是')=s11/s1=2/9=0.22 P(年龄='≤30'|购买计算机='否')=s21/s2=3/5=0.6
类似地求出下面的后验概率:
P(收入='中'|购买计算机='是')=4/9=0.44 P(收入='中'|购买计算机='否')=2/5=0.4 P(学生='是'|购买计算机='是')=6/9=0.67 P(学生='是'|购买计算机='否')=1/5=0.2 P(信誉='中'|购买计算机='是')=6/9=0.67 P(信誉='中'|购买计算机='否')=2/5=0.4
描述属性
收入
学生
高
否
高
否
高Байду номын сангаас
否
中
否
低
是
低
是
低
是
中
否
低
是
中
是
中
是
中
否
高
是
中
否
信誉 中 优 中 中 中 优 优 中 中 中 优 优 中 优
类别属性 购买计算机
否 否 是 是 是 否 是 否 是 是 是 是 是 否
(1)由训练样本集S建立贝叶斯网如图7.8所示。
(2)根据类别“购买计算机”属性的取值,分为两个类,C1表 示购买计算机为是的类,C2表示购买计算机为否的类,它们的 先验概率P(Ci)根据训练样本集计算如下:
• P(性别=女/否)=2/3, P(性别=男/否)=1/3,
• P(婚姻状态=未婚/否)=1/2,P(婚姻状态=已婚/否)=1/2,
• P( 是否有房=有/否)=5/6,P( 是否有房=无/否)=1/6
• (以上6分)
• (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测一客户(性别=女,婚姻状态=已婚, 是否有房=无房)是否会购买此保险:
ID
属性A2
1
大
2
中
4
中
6
中
9
中
3
小
5
大
7
大
8
小
10
小
类别C False False False False False False True True True True
统计结果 s11=1
s12=4
s1=6
s13=1 s21=2 s22=2
s2=4
7.2.2 朴素贝叶斯分类算法
对于一个样本(a1,a2,…,an),求其类别的朴素贝叶斯 分类算法如下:
P(X=0,Y=0|Z=0)=P(Z=0|X=0,Y=0)×P(X=0,Y=0)/P(Z=0) =0.9×0.28/0.3=0.84。
7.2 朴素贝叶斯分类
7.2.1 朴素贝叶斯分类原理
1. 朴素贝叶斯分类过程
朴素贝叶斯分类基于一个简单的假定:在给定分类特征条件 下,描述属性值之间是相互条件独立的。
P(Ci|X)>P(Cj|X),1≤j≤m,i≠j
类别属性 C
A1
A2 ……
An
描述属性集
根据贝叶斯定理有:
P(Ci
|
X)
P( X
| Ci )P(Ci ) P(X )
由于P(X)对于所有类为常数,只需要最大化P(X|Ci)P(Ci)即可。 而P(X|Ci)是一个联合后验概率,即:
n
P(X|Ci)=P(A1,A2,…,An|Ci)=