汇总贝叶斯分类器.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算P(X| No)和P(X| Yes)
P(X| No) = P(有房=否|No) P(婚姻状况=已婚|No) P(年收入= $120K|No) = 4/74/70.0072=0.0024
P(X|Yes) = P(有房=否|Yes) P(婚姻状况=已婚|Yes) P(年收入=$120K|Yes) =101.2109 = 0
可以看到,虽然这个用户没有使用真实头像,但是通过分类器 的鉴别,更倾向于将此账号归入真实账号类别。
这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个
别属性的抗干扰性。
课件
贝叶斯信念网络
贝叶斯信念网络(Bayesian belief network)允许在变 量的子集间定义类条件独立性
因果关系图模型
在SNS社区中这三项均可直接从数据库里得到或计算出来的。
下面给出划分:
a1:{a<=0.05, 0.05<a<0.2, a>=0.2}, a2:{a<=0.1, 0.1<a<0.8, a>=0.8}, a3:{a=0(不是),a=1(是)}。 课件
2、获取训练样本
使用运维人员曾经人工检测过的1万个账号作为训 练样本。
gila monster no
platypus
no
owl
no
dolphin
yes
eagle
no
Can Fly
no no no no no no yes yes no no no no no no no no no yes no yes
Live in Water Have Legs
Class
no
yes
对于每个类yj,计算后验概率P(aik|yj), 1 k l
P(aik|yj)= nikj/nj 其中nikj 是在属性Ai上具有值aik 的yj类的训练样本数, 而nj是yj类
的训练样本数
对于连续属性Ai 和每个类yj,计算yj类样本的均值ij,标
准差ij
课件
贝叶斯分类器: 例
例:
Tid 有房 婚姻状况 年收入
Give Birth Can Fly Live in Water Have Legs
Class
yes
no
yes
no
?
P(A|M)P(M) > P(A|N)P(N) 课=件> Mammals
贝叶斯分类器的特点
对孤立的噪声点的鲁棒性
个别点对概率估计的影响很小
容易处理缺失值
在估计概率时忽略缺失值的训练实例
3、计算训练样本中每个类别的频率
用训练样本中真实账号和不真实账号数量分别除 以一万,得到:
课件
4、计算每个类别条件下各个特征属性划分的频率
课件
5、使用分类器进行鉴别
使用上面训练得到的分类器鉴别一个账号,这个账号使用非真 实头像,日志数量与注册天数的比率为0.1,好友数与注册天 数的比率为0.2。
朴素贝叶斯分类(续)
估计P(xi |yj)
设第i个属性Ai是分类属性, 则 P(xi|yj) = nij/nj
其中nij是在属性Ai上具有值xi的yj类的训练样本数, 而nj是yj类 的训练样本数
设第i个属性Ai是连续值属性
把Ai离散化
假定Ai服从高斯分布
P(xi | y j )
1
e
(
P(LungCancer = “no” | FamilyHistory = “no”, Smoker = “no”) = 0.9
课件
对应于属性或变量Z1,…,Zn的任意元组(z1,…,zn)的联 合概率由下式计算
n
P(z1,..., zn ) P(zi | Parents(Z i)) i 1
其中,P(zi | parents(zi))的值对应于Zi的CPT中的表目
课件
训练贝叶斯信念网络
若干情况
给定网络结构和所有可观测变量
只需要学习CPT
网络结构已知,而某些变量是隐藏的
使用梯度下降法或类似于神经网络的方法训练信念网络
For (年收入, Class=No):
If Class=No
样本均值= 110 样本方差= 2975
P(年收入 120 | No) 课件 1
(120110)2
e 2(2975) 0.0072
2 (54.54)
贝叶斯分类器: 例(续)
X=(有房=否,婚姻状况=已婚,年收入=$120K)
non-mammals
sometimes yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
yes
no
mammals
no
yes
non-mammals
年收入: 类=No:样本均值=110
样本方差=2975 类=Yes:样本均值=90
样本方差=25
How to Estimate Probabilities from Data?
Tid 有 房
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
婚姻 状况
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
很可能每个P(X |Y=yj)都为0
解决方法
使用m估计、Laplace 估计:
原估计: P(Xi=xi |Y=yj) = nij/nj
m-estimate:P( xi
|
yj)
nc mp nm
Laplac e :
P( X i
Fra Baidu bibliotek
xi
|Y
yi )
nij nj
1
课件
k
Example of Naïve Bayes Classifier
mammals
no
no
non-mammals
yes
no
non-mammals
yes
no
mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
课件
贝叶斯分类器
贝叶斯定理
每个记录用一个d 维特征向量X = (x1, x2, …, xd)表示 假定有k 个类 y1, y2, …, yk.
给定X, X属于yj 类的后验概率P(yj|X) 满足贝叶斯
( Bayes)定理
P(
y
j
|
X
)
P(
X
| y j)P( P(X )
y
j)
MAP (maximum posteriori hypothesis, 最大后验假设)
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠贷款
No No No No Yes No No Yes No Yes
P(Yes)=3/10
年收 入
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠 贷款
No No No No Yes No No Yes No Yes
Normal distribution:
P(A | c )
i
j
1
e(
Ai ij
2
2 ij
)2
2 2
ij
One for each (Ai,ci) pair
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
课件
朴素贝叶斯分类(续)
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
设C=0表示真实账号,C=1表示不真实账号。
课件
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
课件
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
案例:检测SNS社区中不真实账号
对于SNS社区来说,不真实账号(使用虚假身份或用户的 小号)是一个普遍存在的问题,作为SNS社区的运营商, 希望可以检测出这些不真实账号,从而在一些运营分析报 告中避免这些账号的干扰,亦可以加强对SNS社区的了解 与监管。
将社区中所有账号在真实账号和不真实账号两个类别
将X指派到具有最大后验概率P(yj|X)的类yj,即
将X指派到P(X|yj)P(yj) 最大的类yj
朴素贝叶斯分类
朴素贝叶斯分类 (Naïve Bayes Classifier)工作原理
给定一个未知的数据样本X, 分类法将预测X属于具有最高后验 概率的类. 即, 未知的样本分配给类yj, 当且仅当
对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网课络件 ( Bayesian Belief Networks,BBN)
贝叶斯误差率
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1 课件
表示变量之间的依赖
给出联合概率分布的说明
X
Y
图示
结点: 随机变量 弧: 依赖
Z P
X,Y 是Z的父节点/前驱, 并且Y 是P的父节点/前驱 Z 和P之间没有依赖关系, 图中课没件 有环
贝叶斯信念网络 : 例
变量LungCance(LC)值的条件概率表(CPT), 给出其双 亲结点FamilyHistory和Smoke的每个可能值的组合的 条件概率
xi ij
2
2 ij
)
2
2 ij
其中, ij,ij分别为给定yj类的训练样本课在件 属性Ai上的均值和标准差
朴素贝叶斯分类
朴素贝叶斯分类器所需要的信息
计算每个类的先验概率P(yj) : P(yj)=nj/n 其中, nj是yi类的训练样本数,而n是训练样本总数
对于离散属性Ai,设的不同值为ai1, ai2, …,ail ,
P128数据
Name
Give Birth
human
yes
python
no
salmon
no
whale
yes
frog
no
komodo
no
bat
yes
pigeon
no
cat
yes
leopard shark yes
turtle
no
penguin
no
porcupine yes
eel
no
salamander no
A: attributes
M: mammals
N: non-mammals
P( A | M ) 6 6 2 2 0.06 7777
P( A | N ) 1 10 3 4 0.0042 13 13 13 13
P( A | M )P(M ) 0.06 7 0.021 20
P( A | N )P(N ) 0.004 13 0.0027 20
课件
给出了LungCancer的CPT. 对于其双亲值的每个可能 组合, 表中给出了LungCancer的每个值的条件概率.
例如, 由左上角和右下角, 分别看到:
P(LungCancer = “yes” | FamilyHistory = “yes”, Smoker = “yes”) = 0.8
P(No)=7/10 P(有房=是|No) =3/7 P(有房=否|No) =4/7 P(有房=是|Yes) =0 P(有房=否|Yes) =1 P(婚姻状况=单身|No) =2/7 P(婚姻状况=离婚|No) =1/7 P(婚姻状况=已婚|No) =4/7 P(婚姻状况=单身|Yes) =2/3 P(婚姻状况=离婚|Yes) =1/3 P(婚姻状况=已婚|Yes) =0
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所课以件X分类为No
贝叶斯分类器
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
其中, nj是类yj中的训练样本数,而n是训练样本总数
估计P(X|yj)
为便于估计P(X|yj), 假定类条件独立----给定样本的类 标号, 假定属性值条件地相互独立.
于是, P(X|Y=yj)可以用下式估计
d
P(X | y j ) P(xi | y j ) i 1
其中, P(x |yj)可以由训练样本估课值件
P(X| No) = P(有房=否|No) P(婚姻状况=已婚|No) P(年收入= $120K|No) = 4/74/70.0072=0.0024
P(X|Yes) = P(有房=否|Yes) P(婚姻状况=已婚|Yes) P(年收入=$120K|Yes) =101.2109 = 0
可以看到,虽然这个用户没有使用真实头像,但是通过分类器 的鉴别,更倾向于将此账号归入真实账号类别。
这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个
别属性的抗干扰性。
课件
贝叶斯信念网络
贝叶斯信念网络(Bayesian belief network)允许在变 量的子集间定义类条件独立性
因果关系图模型
在SNS社区中这三项均可直接从数据库里得到或计算出来的。
下面给出划分:
a1:{a<=0.05, 0.05<a<0.2, a>=0.2}, a2:{a<=0.1, 0.1<a<0.8, a>=0.8}, a3:{a=0(不是),a=1(是)}。 课件
2、获取训练样本
使用运维人员曾经人工检测过的1万个账号作为训 练样本。
gila monster no
platypus
no
owl
no
dolphin
yes
eagle
no
Can Fly
no no no no no no yes yes no no no no no no no no no yes no yes
Live in Water Have Legs
Class
no
yes
对于每个类yj,计算后验概率P(aik|yj), 1 k l
P(aik|yj)= nikj/nj 其中nikj 是在属性Ai上具有值aik 的yj类的训练样本数, 而nj是yj类
的训练样本数
对于连续属性Ai 和每个类yj,计算yj类样本的均值ij,标
准差ij
课件
贝叶斯分类器: 例
例:
Tid 有房 婚姻状况 年收入
Give Birth Can Fly Live in Water Have Legs
Class
yes
no
yes
no
?
P(A|M)P(M) > P(A|N)P(N) 课=件> Mammals
贝叶斯分类器的特点
对孤立的噪声点的鲁棒性
个别点对概率估计的影响很小
容易处理缺失值
在估计概率时忽略缺失值的训练实例
3、计算训练样本中每个类别的频率
用训练样本中真实账号和不真实账号数量分别除 以一万,得到:
课件
4、计算每个类别条件下各个特征属性划分的频率
课件
5、使用分类器进行鉴别
使用上面训练得到的分类器鉴别一个账号,这个账号使用非真 实头像,日志数量与注册天数的比率为0.1,好友数与注册天 数的比率为0.2。
朴素贝叶斯分类(续)
估计P(xi |yj)
设第i个属性Ai是分类属性, 则 P(xi|yj) = nij/nj
其中nij是在属性Ai上具有值xi的yj类的训练样本数, 而nj是yj类 的训练样本数
设第i个属性Ai是连续值属性
把Ai离散化
假定Ai服从高斯分布
P(xi | y j )
1
e
(
P(LungCancer = “no” | FamilyHistory = “no”, Smoker = “no”) = 0.9
课件
对应于属性或变量Z1,…,Zn的任意元组(z1,…,zn)的联 合概率由下式计算
n
P(z1,..., zn ) P(zi | Parents(Z i)) i 1
其中,P(zi | parents(zi))的值对应于Zi的CPT中的表目
课件
训练贝叶斯信念网络
若干情况
给定网络结构和所有可观测变量
只需要学习CPT
网络结构已知,而某些变量是隐藏的
使用梯度下降法或类似于神经网络的方法训练信念网络
For (年收入, Class=No):
If Class=No
样本均值= 110 样本方差= 2975
P(年收入 120 | No) 课件 1
(120110)2
e 2(2975) 0.0072
2 (54.54)
贝叶斯分类器: 例(续)
X=(有房=否,婚姻状况=已婚,年收入=$120K)
non-mammals
sometimes yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
yes
no
mammals
no
yes
non-mammals
年收入: 类=No:样本均值=110
样本方差=2975 类=Yes:样本均值=90
样本方差=25
How to Estimate Probabilities from Data?
Tid 有 房
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
婚姻 状况
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
很可能每个P(X |Y=yj)都为0
解决方法
使用m估计、Laplace 估计:
原估计: P(Xi=xi |Y=yj) = nij/nj
m-estimate:P( xi
|
yj)
nc mp nm
Laplac e :
P( X i
Fra Baidu bibliotek
xi
|Y
yi )
nij nj
1
课件
k
Example of Naïve Bayes Classifier
mammals
no
no
non-mammals
yes
no
non-mammals
yes
no
mammals
sometimes yes
non-mammals
no
yes
non-mammals
no
yes
mammals
no
yes
non-mammals
no
yes
mammals
yes
no
non-mammals
sometimes yes
课件
贝叶斯分类器
贝叶斯定理
每个记录用一个d 维特征向量X = (x1, x2, …, xd)表示 假定有k 个类 y1, y2, …, yk.
给定X, X属于yj 类的后验概率P(yj|X) 满足贝叶斯
( Bayes)定理
P(
y
j
|
X
)
P(
X
| y j)P( P(X )
y
j)
MAP (maximum posteriori hypothesis, 最大后验假设)
1是 2否 3否 4是 5否 6否 7是 8否 9否 10 否
单身 已婚 单身 已婚 离婚 已婚 离婚 单身 已婚 单身
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠贷款
No No No No Yes No No Yes No Yes
P(Yes)=3/10
年收 入
125K 100K 70K 120K 95K 60K 220K 85K 75K 90K
拖欠 贷款
No No No No Yes No No Yes No Yes
Normal distribution:
P(A | c )
i
j
1
e(
Ai ij
2
2 ij
)2
2 2
ij
One for each (Ai,ci) pair
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
课件
朴素贝叶斯分类(续)
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
设C=0表示真实账号,C=1表示不真实账号。
课件
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
课件
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
案例:检测SNS社区中不真实账号
对于SNS社区来说,不真实账号(使用虚假身份或用户的 小号)是一个普遍存在的问题,作为SNS社区的运营商, 希望可以检测出这些不真实账号,从而在一些运营分析报 告中避免这些账号的干扰,亦可以加强对SNS社区的了解 与监管。
将社区中所有账号在真实账号和不真实账号两个类别
将X指派到具有最大后验概率P(yj|X)的类yj,即
将X指派到P(X|yj)P(yj) 最大的类yj
朴素贝叶斯分类
朴素贝叶斯分类 (Naïve Bayes Classifier)工作原理
给定一个未知的数据样本X, 分类法将预测X属于具有最高后验 概率的类. 即, 未知的样本分配给类yj, 当且仅当
对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网课络件 ( Bayesian Belief Networks,BBN)
贝叶斯误差率
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1 课件
表示变量之间的依赖
给出联合概率分布的说明
X
Y
图示
结点: 随机变量 弧: 依赖
Z P
X,Y 是Z的父节点/前驱, 并且Y 是P的父节点/前驱 Z 和P之间没有依赖关系, 图中课没件 有环
贝叶斯信念网络 : 例
变量LungCance(LC)值的条件概率表(CPT), 给出其双 亲结点FamilyHistory和Smoke的每个可能值的组合的 条件概率
xi ij
2
2 ij
)
2
2 ij
其中, ij,ij分别为给定yj类的训练样本课在件 属性Ai上的均值和标准差
朴素贝叶斯分类
朴素贝叶斯分类器所需要的信息
计算每个类的先验概率P(yj) : P(yj)=nj/n 其中, nj是yi类的训练样本数,而n是训练样本总数
对于离散属性Ai,设的不同值为ai1, ai2, …,ail ,
P128数据
Name
Give Birth
human
yes
python
no
salmon
no
whale
yes
frog
no
komodo
no
bat
yes
pigeon
no
cat
yes
leopard shark yes
turtle
no
penguin
no
porcupine yes
eel
no
salamander no
A: attributes
M: mammals
N: non-mammals
P( A | M ) 6 6 2 2 0.06 7777
P( A | N ) 1 10 3 4 0.0042 13 13 13 13
P( A | M )P(M ) 0.06 7 0.021 20
P( A | N )P(N ) 0.004 13 0.0027 20
课件
给出了LungCancer的CPT. 对于其双亲值的每个可能 组合, 表中给出了LungCancer的每个值的条件概率.
例如, 由左上角和右下角, 分别看到:
P(LungCancer = “yes” | FamilyHistory = “yes”, Smoker = “yes”) = 0.8
P(No)=7/10 P(有房=是|No) =3/7 P(有房=否|No) =4/7 P(有房=是|Yes) =0 P(有房=否|Yes) =1 P(婚姻状况=单身|No) =2/7 P(婚姻状况=离婚|No) =1/7 P(婚姻状况=已婚|No) =4/7 P(婚姻状况=单身|Yes) =2/3 P(婚姻状况=离婚|Yes) =1/3 P(婚姻状况=已婚|Yes) =0
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所课以件X分类为No
贝叶斯分类器
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
其中, nj是类yj中的训练样本数,而n是训练样本总数
估计P(X|yj)
为便于估计P(X|yj), 假定类条件独立----给定样本的类 标号, 假定属性值条件地相互独立.
于是, P(X|Y=yj)可以用下式估计
d
P(X | y j ) P(xi | y j ) i 1
其中, P(x |yj)可以由训练样本估课值件