第7章-贝叶斯分类算法讲课教案

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

练一练
用朴素贝叶斯网络对以下保险销售客户数据进行分析：
（1）求条件概率P（性别/是），P（婚姻状态/是），P（是否有房/是）, P（性别/否），P （婚姻状态/否），P（是否有房/否）。
（2）根据（1）中的条件概率，使用朴素贝叶斯方法预测一客户（性别=女，婚姻状态=已婚，是否有房=无房）是否会购买此保险。
P(ak | Ci ) g(ak , Ci , Ci )
1 2 Ci
(ak Ci )
e 2
2 Ci
【例7.3】对于第6章表6.1的训练样本集S，所有属性为离散属性。 n=2（描述属性个数），特征向量为A={a1，a2}，描述属性为A1和 A2（假设A1和A2之间相互独立）。类别属性为C，m=2（类别个数），C1=False，C2=True。对应的贝叶斯网如图7.7所示。求 P(A1|C)和P(A2|C)。
P(C1)=P(购买计算机='是')=9/14=0.64 P(C2)=P(购买计算机='否')=5/14=0.36
（3）计算后验概率P(ai|Ci)，先计算P(年龄='≤30'|购买计算机 ='是')和P(年龄='≤30'|购买计算机='否')。将训练数据集S按 “购买计算机”和“年龄”属性排序后的统计结果如表7.4所示。则：
n
P(a1, a2 ,...,an ) P(ai | parent( Ai )) i1
其中，parent(Ai)表示Ai的父结点，P(ai|parent(Ai))对应条件概率表中关于Ai 结点的一个入口。若Ai没有父结点，则P(ai|parent(Ai))等于P(ai)。
【例7.2】有X、Y和Z三个二元随机变量（取值只有0、1两种情况），假设X、Y之间是独立的，它们对应的条件概率表如表7.1所示。若已知条件概率P(X=1)=0.3， P(Y=1)=0.6，P(Z=1)=0.7，求P(X=0，Y=0|Z＝0)的后验概率。
【例7.4】对于第6章表6.4所示的训练数据集S，有以下新样本X：
年龄='≤30'，收入='中'，学生='是'，信誉='中'
采用朴素贝叶斯分类算法求X所属类别的过程如下：
编号
1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄 ≤30 ≤30 31～40 >40 >40 >40 31～40 ≤30 ≤30 >40 ≤30 31～40 31～40 >40
第7章贝叶斯分类算法
贝叶斯分类概述朴素贝叶斯分类 SQL Server朴素贝叶斯分类电子商务数据的贝叶斯分类
7.1 贝叶斯分类概述
7.1.1 贝叶斯定理
若已知P(C)是关于C的先验概率，P(A)是关于A的先验概率， P(A|C)表示在已知C发生后A的条件概率，如图7.1所示，求P(C|A) 即A发生后C的后验概率。
X=1，Y=1 X=1，Y=0 X=0，Y=1 X=0，Y=0
Z=1
0.8
0.5
0.7
0.1
Z=0
0.2
0.5
0.3
0.9
表中的数值表示的是后验概率P(Z|X，Y)，如有：P(Z=1|X=1，Y=1)=0.8， P(Z=0|X=1，Y=1)=0.2。
画出相应的贝叶斯网如图7.15所示。一般地，在画贝叶斯网时，若已知P(X|Y) 条件概率，则画一条从Y到X的有向边；若已知P(X|Y1、Y2、…、Yk)条件概率，则从 Y1、Y2、…、Yk各画一条从Yi（1≤i≤k）到X的有向边。
P(A1=Yes|C=False)=s11/s1=2/6=1/3 P(A1=No|C=False)=s12/s1=4/6=2/3 P(A1=Yes|C=True)=s21/s2=1/4 P(A1=No|C=True)=s22/s2=3/4
ID
属性A1
1
Yes
4
Yes
2
No
3
No
6
No
9
No
7
Yes
5
一个有向无环图（DAG）：图中每个节点代表一个随机变量，每条有向边表示变量之间的依赖关系。若有一条有向边从节点X到节点Y，那么X就是Y的父节点，Y就是X的子节点。一个条件概率表（CPT）：把各节点和父节点关联起来。在 CPT中，如果节点X没有父节点，则表中只包含先验概率 P(X)；如果节点X只有一个父节点Y，则表中包含条件概率 P(X|Y)；如果节点X有多个父节点Y1、Y2、…、Yk，则表中包含条件概率P(X|Y1、Y2、…、Yk)。
例如，假设节点X直接影响到节点Y，即X→Y，则用从X指向Y的箭头建立节点X到节点Y的箭头(X，Y)，权值（即连接强度）用条件概率P(Y|X)来表示，如图7.2所示。其中箭头表示条件依赖关系。
定义7.2 对于随机变量（A1、A2、…、An），任何数据对象（a1、a2、…、an）的联合概率可以通过以下公式计算获得：
（1）求条件概率P(Ci) 训练样本集S中有10个样本，即s=10，其中有6个属于C1的样本，4个属于C2的样本，所以有：
s1=6，s2=4
P(C1)=s1/s=6/10=0.6 P(C2)=s2/s=4/10=0.4
（2）求后验概率P(Ai|C) 考虑属性A1，按属性C和A1排序后的统计结果如表7.2所示。则：
（4）假设条件独立性，X=（年龄='≤30'，收入='中'，学生='是'，信誉='中'），使用以上概率得到：
P(X|购买计算机='是')=P(年龄='≤30'|购买计算机='是')× P(收入 ='中'|购买计算机='是')×P(学生='是'|购买计算机='是') ×P(信誉='中'|购买计算机='是')
• P（购买保险=是）=2/5，P（购买保险=否）=3/5，（2分）
• 因为：P（性别=女/是）=1/4, P（性别=女/否）=2/3
• （1）求条件概率P（性别/是），P（婚姻状态/是），P（是否有房/是）, P（性别/否），P （婚姻状态/否），P（是否有房/否）:
• P（性别=女/是）=1/4, P（性别=男/是）=3/4，
• P（婚姻状态=未婚/是）=1，P（婚姻状态=已婚/是）=0，
• P（是否有房=有/是）=1，P（是否有房=无/是）=0，
No
8
No
10
No
类别C False False False False False False True True True True
统计结果 s11=2
s12=4
s1=6
s21=1 s22=3
s2=4
考虑属性A2，按属性C和A2排序后的统计结果如表7.3所示。则：
P(A2=大|C=False)=s11/s1=1/6 P(A2=中|C=False)=s12/s1=4/6=2/3 P(A2=小|C=False)=s13/s1=1/6 P(A2=大|C=True)=s21/s2=2/4=1/2 P(A2=小|C=True)=s22/s2=2/4=1/2
P( Ak | Ci )
k 1
所以对于某个新样本（a1，a2，…，an)，它所在类别为：
n
c' arg max{ P(Ci ) P(ak | Ci )}
Ci
k 1
2. 后验概率P(Ak|Ci)的计算
计算对于后验概率P(ak|Ci)（也称为类条件概率）的方法如下：（1）如果对应的描述属性Ak是离散属性，可以通过训练样本集得到，P(ak|Ci)=sik/si，其中sik是在属性Ak上具有值ak的类Ci的训练样本数，而si是Ci中的训练样本数。（2）如果对应的描述Ak是连续属性，则通常假定该属性服从高斯分布。因而：
=0.22×0.44×0.67×0.67=0.04 P(X|购买计算机='否')= P(年龄='≤30'|购买计算机='否')×
P(收入='中'|购买计算机='否')×P(学生='是'|购买计算机='否') ×P(信誉='中'|购买计算机='否')
=0.6×0.4×0.2×0.4=0.02
（5）分类考虑“购买计算机='是'”的类，有： P(X|购买计算机='是')×P(购买计算机='是')=0.04×0.64=0.03 考虑“购买计算机='否'”的类，有： P(X|购买计算机='否')×P(购买计算机='否')=0.02×0.36=0.01。因此，对于样本X，采用朴素贝叶斯分类预测为“购买计算机=' 是'”。这与第6章采用决策树所得到的分类结果是一致的。
后验概率的贝叶斯定理如下：
7.1.2 贝叶斯信念网络
定义7.1 贝叶斯信念网络（Bayesian Belief Network，BBN）简称贝叶斯网，它是一个概率网络，是一种基于概率推理的数学模型，解决复杂系统的不确定性和不完整性问题。用图形表示一组随机变量之间的概率关系。贝叶斯网有两个主要成分：
X
Y
Z
P(X=0)=1-P(X=1)=0.7，P(Y=0)=1-P(Y=1)=0.4，P(Z=0)=1-P(Z=1)=0.3
由于X、Y均没有父结点，所以联合概率：
P(X=0，Y=0)=P(X=0)×P(Y=0)=0.7×0.4=0.28
依条件概率表有P(Z=0|X=0，Y=0)=0.9。根据贝叶斯定理，有：
朴素贝叶斯分类思想是：假设每个样本用一个n维特征向量 X={x1，x2，…，xn}来表示，描述属性为A1、A2、…、An（Ai之间相互独立）。类别属性为C，假设样本中共有m个类即C1、 C2、…、Cm，对应的贝叶斯网如图7.5所示，其中P(Ai|C)是后验概率，可以通过训练样本集求出。
给定一个未知类别的样本X，朴素贝叶斯分类将X划分到属于具有最高后验概率P(Ci|X)的类中，也就是说，将X分配给类Ci，当且仅当：
P(年龄='≤30'|购买计算机='是')=s11/s1=2/9=0.22 P(年龄='≤30'|购买计算机='否')=s21/s2=3/5=0.6
类似地求出下面的后验概率：
P(收入='中'|购买计算机='是')=4/9=0.44 P(收入='中'|购买计算机='否')=2/5=0.4 P(学生='是'|购买计算机='是')=6/9=0.67 P(学生='是'|购买计算机='否')=1/5=0.2 P(信誉='中'|购买计算机='是')=6/9=0.67 P(信誉='中'|购买计算机='否')=2/5=0.4
描述属性
收入
学生
高
否
高
否
高Байду номын сангаас
否
中
否
低
是
低
是
低
是
中
否
低
是
中
是
中
是
中
否
高
是
中
否
信誉中优中中中优优中中中优优中优
类别属性购买计算机
否否是是是否是否是是是是是否
（1）由训练样本集S建立贝叶斯网如图7.8所示。
（2）根据类别“购买计算机”属性的取值，分为两个类，C1表示购买计算机为是的类，C2表示购买计算机为否的类，它们的先验概率P(Ci)根据训练样本集计算如下：
• P（性别=女/否）=2/3, P（性别=男/否）=1/3，
• P（婚姻状态=未婚/否）=1/2，P（婚姻状态=已婚/否）=1/2,
• P（是否有房=有/否）=5/6，P（是否有房=无/否）=1/6
• （以上6分）
• （2）根据（1）中的条件概率，使用朴素贝叶斯方法预测一客户（性别=女，婚姻状态=已婚，是否有房=无房）是否会购买此保险:
ID
属性A2
1
大
2
中
4
中
6
中
9
中
3
小
5
大
7
大
8
小
10
小
类别C False False False False False False True True True True
统计结果 s11=1
s12=4
s1=6
s13=1 s21=2 s22=2
s2=4
7.2.2 朴素贝叶斯分类算法
对于一个样本（a1，a2，…，an），求其类别的朴素贝叶斯分类算法如下：
P(X=0，Y=0|Z=0)=P(Z=0|X=0，Y=0)×P(X=0，Y=0)/P(Z=0) =0.9×0.28/0.3=0.84。
7.2 朴素贝叶斯分类
7.2.1 朴素贝叶斯分类原理
1. 朴素贝叶斯分类过程
朴素贝叶斯分类基于一个简单的假定：在给定分类特征条件下，描述属性值之间是相互条件独立的。
P(Ci|X)>P(Cj|X)，1≤j≤m，i≠j
类别属性 C
A1
A2 ……
An
描述属性集
根据贝叶斯定理有：
P(Ci
|
X)
P( X
| Ci )P(Ci ) P(X )
由于P(X)对于所有类为常数，只需要最大化P(X|Ci)P(Ci)即可。而P(X|Ci)是一个联合后验概率，即：
n
P(X|Ci)=P(A1，A2，…，An|Ci)=