贝叶斯分类器ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
对于每个类yj,计算后验概率P(aik|yj), 1 k l P(aik|yj)= nikj/nj
其中nikj 是在属性Ai上具有值aik 的yj类的训练样本数, 而nj是yj类 的训练样本数
对于连续属性Ai 和每个类yj,计算yj类样本的均值ij,标 准差ij
贝叶斯分类器: 例
例:
Tid 有房 婚姻状况 年收入
For (年收入, Class=No):
If Class=No
样本均值= 110 样本方差= 2975
P(年收入 120 | No)
1
(120110)2
e 2(2975) 0.0072
2 (54.54)
贝叶斯分类器: 例(续)
9
X=(有房=否,婚姻状况=已婚,年收入=$120K)
(Fra Baidu bibliotek
xi ij
2
2 ij
)
2
2 ij
其中, ij,ij分别为给定yj类的训练样本在属性Ai上的均值和标准差
朴素贝叶斯分类
6
朴素贝叶斯分类器所需要的信息
计算每个类的先验概率P(yj) : P(yj)=nj/n 其中, nj是yi类的训练样本数,而n是训练样本总数
对于离散属性Ai,设的不同值为ai1, ai2, …,ail ,
贝叶斯分类器
贝叶斯定理
每个记录用一个d 维特征向量X = (x1, x2, …, xd)表示 假定有k 个类 y1, y2, …, yk.
给定X, X属于yj 类的后验概率P(yj|X) 满足贝叶斯
( Bayes)定理
P(
y
j
|
X
)
P(
X
| y j)P( P(X )
y
j)
MAP (maximum posteriori hypothesis, 最大后验假设)
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠贷款
No No No No Yes No No Yes No Yes
P(Yes)=3/10 P(No)=7/10 P(有房=是|No) =3/7 P(有房=否|No) =4/7 P(有房=是|Yes) =0 P(有房=否|Yes) =1 P(婚姻状况=单身|No) =2/7 P(婚姻状况=离婚|No) =1/7 P(婚姻状况=已婚|No) =4/7 P(婚姻状况=单身|Yes) =2/3 P(婚姻状况=离婚|Yes) =1/3 P(婚姻状况=已婚|Yes) =0
计算P(X| No)和P(X| Yes)
P(X| No) = P(有房=否|No) P(婚姻状况=已婚|No) P(年收入= $120K|No) = 4/74/70.0072=0.0024
P(X|Yes) = P(有房=否|Yes) P(婚姻状况=已婚|Yes) P(年收入=$120K|Yes) =101.2109 = 0
朴素贝叶斯分类(续)
5
估计P(xi |yj)
设第i个属性Ai是分类属性, 则 P(xi|yj) = nij/nj
其中nij是在属性Ai上具有值xi的yj类的训练样本数, 而nj是yj类 的训练样本数
设第i个属性Ai是连续值属性
把Ai离散化
假定Ai服从高斯分布
P(xi | y j )
1
e
年收入: 类=No:样本均值=110
样本方差=2975 类=Yes:样本均值=90
样本方差=25
7
How to Estimate Probabilities from Data?
Tid 有 房
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
婚姻 状况
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
将X指派到具有最大后验概率P(yj|X)的类yj,即
将X指派到P(X|yj)P(yj) 最大的类yj
朴素贝叶斯分类
3
朴素贝叶斯分类 (Naïve Bayes Classifier)工作原理
给定一个未知的数据样本X, 分类法将预测X属于具有最高后验 概率的类. 即, 未知的样本分配给类yj, 当且仅当
P128数据
Name
年收 入
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠 贷款
No No No No Yes No No Yes No Yes
Normal distribution:
P(A | c )
i
j
1
e(
Ai ij
2
2 ij
)2
2 2
ij
One for each (Ai,ci) pair
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
很可能每个P(X |Y=yj)都为0
解决方法
使用m估计、Laplace 估计:
原估计: P(Xi=xi |Y=yj) = nij/nj
m-estimate:P( xi
|
yj)
nc mp nm
Laplac e :
P( X i
xi
|Y
yi )
nij nj
1 k
Example of Naïve Bayes Classifier
其中, nj是类yj中的训练样本数,而n是训练样本总数
估计P(X|yj)
为便于估计P(X|yj), 假定类条件独立----给定样本的类 标号, 假定属性值条件地相互独立.
于是, P(X|Y=yj)可以用下式估计
d
P(X | y j ) P(xi | y j ) i 1
其中, P(x |yj)可以由训练样本估值
其中nikj 是在属性Ai上具有值aik 的yj类的训练样本数, 而nj是yj类 的训练样本数
对于连续属性Ai 和每个类yj,计算yj类样本的均值ij,标 准差ij
贝叶斯分类器: 例
例:
Tid 有房 婚姻状况 年收入
For (年收入, Class=No):
If Class=No
样本均值= 110 样本方差= 2975
P(年收入 120 | No)
1
(120110)2
e 2(2975) 0.0072
2 (54.54)
贝叶斯分类器: 例(续)
9
X=(有房=否,婚姻状况=已婚,年收入=$120K)
(Fra Baidu bibliotek
xi ij
2
2 ij
)
2
2 ij
其中, ij,ij分别为给定yj类的训练样本在属性Ai上的均值和标准差
朴素贝叶斯分类
6
朴素贝叶斯分类器所需要的信息
计算每个类的先验概率P(yj) : P(yj)=nj/n 其中, nj是yi类的训练样本数,而n是训练样本总数
对于离散属性Ai,设的不同值为ai1, ai2, …,ail ,
贝叶斯分类器
贝叶斯定理
每个记录用一个d 维特征向量X = (x1, x2, …, xd)表示 假定有k 个类 y1, y2, …, yk.
给定X, X属于yj 类的后验概率P(yj|X) 满足贝叶斯
( Bayes)定理
P(
y
j
|
X
)
P(
X
| y j)P( P(X )
y
j)
MAP (maximum posteriori hypothesis, 最大后验假设)
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠贷款
No No No No Yes No No Yes No Yes
P(Yes)=3/10 P(No)=7/10 P(有房=是|No) =3/7 P(有房=否|No) =4/7 P(有房=是|Yes) =0 P(有房=否|Yes) =1 P(婚姻状况=单身|No) =2/7 P(婚姻状况=离婚|No) =1/7 P(婚姻状况=已婚|No) =4/7 P(婚姻状况=单身|Yes) =2/3 P(婚姻状况=离婚|Yes) =1/3 P(婚姻状况=已婚|Yes) =0
计算P(X| No)和P(X| Yes)
P(X| No) = P(有房=否|No) P(婚姻状况=已婚|No) P(年收入= $120K|No) = 4/74/70.0072=0.0024
P(X|Yes) = P(有房=否|Yes) P(婚姻状况=已婚|Yes) P(年收入=$120K|Yes) =101.2109 = 0
朴素贝叶斯分类(续)
5
估计P(xi |yj)
设第i个属性Ai是分类属性, 则 P(xi|yj) = nij/nj
其中nij是在属性Ai上具有值xi的yj类的训练样本数, 而nj是yj类 的训练样本数
设第i个属性Ai是连续值属性
把Ai离散化
假定Ai服从高斯分布
P(xi | y j )
1
e
年收入: 类=No:样本均值=110
样本方差=2975 类=Yes:样本均值=90
样本方差=25
7
How to Estimate Probabilities from Data?
Tid 有 房
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
婚姻 状况
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
将X指派到具有最大后验概率P(yj|X)的类yj,即
将X指派到P(X|yj)P(yj) 最大的类yj
朴素贝叶斯分类
3
朴素贝叶斯分类 (Naïve Bayes Classifier)工作原理
给定一个未知的数据样本X, 分类法将预测X属于具有最高后验 概率的类. 即, 未知的样本分配给类yj, 当且仅当
P128数据
Name
年收 入
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠 贷款
No No No No Yes No No Yes No Yes
Normal distribution:
P(A | c )
i
j
1
e(
Ai ij
2
2 ij
)2
2 2
ij
One for each (Ai,ci) pair
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
很可能每个P(X |Y=yj)都为0
解决方法
使用m估计、Laplace 估计:
原估计: P(Xi=xi |Y=yj) = nij/nj
m-estimate:P( xi
|
yj)
nc mp nm
Laplac e :
P( X i
xi
|Y
yi )
nij nj
1 k
Example of Naïve Bayes Classifier
其中, nj是类yj中的训练样本数,而n是训练样本总数
估计P(X|yj)
为便于估计P(X|yj), 假定类条件独立----给定样本的类 标号, 假定属性值条件地相互独立.
于是, P(X|Y=yj)可以用下式估计
d
P(X | y j ) P(xi | y j ) i 1
其中, P(x |yj)可以由训练样本估值