贝叶斯分类器-学习课件
合集下载
机器学习及应用 第6章 贝叶斯分类器
P X x | Y=ck P X 1 x , X 2 x ,
1 2
, X n x | Y=ck
n
P X j x | Y=ck
j j 1
n
6.2 朴素贝叶斯分类
根据贝叶斯定理,计算后验概率:
P Y=ck | X x P X x | Y ck P Y ck
的概率P(Yes|Spam),那么当出现“中奖”关键词时,该邮件是垃圾邮
件的概率P(Spam|Yes)为
P Spam | Yes
附: Email
P Yes | Spam P Spam 0.75 0.4 0.75 P Yes 0.4
Spam 3/4 P(Yes|Spam) 1/4 P(No|Spam) 0.4 P(Spam) 概率 0.4 P(Yes) 0.6 P(No)
特征属性、特征属性划分及训练样本质量决定。
分类器训练阶段:其输入是特征属性和训练样本,输出是分类器。这 一阶段是机械性阶段,根据前面讨论的公式可以由程序自动计算完成。
应用阶段:其输入是分类器和待分类项,输出是待分类项与类别的映
射关系。这一阶段也是机械性阶段,由程序完成。
6.2 朴素贝叶斯分类
, K ,上式的分母都相同,因此可简Fra bibliotek为:n
y f x argmaxP Y ck P X j x | Y=ck
j ck j 1
6.2 朴素贝叶斯分类
6.2.2 朴素贝叶斯分类算法
朴素贝叶斯分类算法大致可分为三个阶段:
准备工作阶段:这一阶段的输入是所有待分类数据,输出是特征属性 和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的 阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由
贝叶斯分类器ppt课件
对不相关属性的鲁棒性
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
各类在不相关属性上具有类似分布
类条件独立假设可能不成立
使用其他技术,如贝叶斯信念网络( Bayesian Belief Networks,BBN)
贝叶斯误差率
13
贝叶斯分类器最小化分类误差的概率 贝叶斯分类使决策边界总是位于高斯分布下两类
1和2的交叉点上
类C2 类C1
计算P(X| No)P(No)和P(X| Yes)P(Yes)
P(X| No)P(No)=0.0024 0.7=0.00168 P(X| Yes)P(Yes)=0 0.3=0
因为P(X| No)P(No)>P(X| Yes)P(Yes), 所以X分类为No
贝叶斯分类器
10
问题
如果诸条件概率P(Xi=xi |Y=yj) 中的一个为0,则它 们的乘积(计算P(X |Y=yj)的表达式)为0
设C=0表示真实账号,C=1表示不真实账号。
15
1、确定特征属性及划分
区分真实账号与不真实账号的特征属性, 在实际应用中,特征属性的数量是很多的,划分也会比
较细致 为了简单起见,用少量的特征属性以及较粗的划分,并
对数据做了修改。
16
选择三个特征属性:
a1:日志数量/注册天数 a2:好友数量/注册天数 a3:是否使用真实头像。
P( y j | X) P( yi | X), 1 i k, i j
根据贝叶斯定理, 我们有
P(y j
|
X)
P(X
| y j )P( y j ) P(X)
由于P(X) 对于所有类为常数, 只需要最大化P(X|yj)P(yj)即可.
朴素贝叶斯分类(续)
4
估计P(yj) 类yj的先验概率可以用 P (yj)=nj/n 估计
贝叶斯分类器讲义 PPT
特征选择
特征选择可以看作是一个(从最差的开始)不断删去无 用特征并组合有关联特征的过程,直至特征的数目减少至易 于驾驭的程度,同时分类器的性能仍然满足要求为止。例如, 从一个具有M个特征的特征集中挑选出较少的N个特征时, 要使采用这N个特征的分类器的性能最好。
特征方差 类间距离 降维
二、概率论基本知识
样本空间的划分 定义 设 为试验E的样本空间, B1, B2 ,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n;
20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间 的一个划分.
全概率公式
定义 设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分,且P(Bi ) 0 (i 1, 2,L , n),则
基本方法:用一组已知的对象来训练分类器 目的的区分:1. 分类错误的总量最少
2. 对不同的错误分类采用适当的加权 使分类器的整个“风险”达到最低 偏差:分类错误
分类器的性能测试
已知类别的测试集;已知对象特征PDF的测试集 PDF的获取:画出参数的直方图,并计算均值和方差,
再规划到算法面积,需要的话再做一次平滑,就可将 这个直方图作为相应的PDF设计 独立每一类的测试集 使用循环的方法
概率论基本知识
确定事件:概念是确定的,发生也是确定的; 随机事件:概念是确定的,发生是不确定的; 模糊事件:概念本身就不确定。
联合概率和条件概率
联合概率:设A,B是两个随机事件,A和B同时发生 的概率称为联合概率,记为:P(AB);
条件概率:在B事件发生的条件下,A事件发生的概率 称为条件概率,记为:P(A|B), P(A|B) = P(AB) / P(B) ;
西瓜书PPT 07贝叶斯分类器
半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用
的属性条件独立性假设;对属性条件独立假设记性一定程度的放松, 由此产生了一类称为“半朴素贝叶斯分类器” (semi-naïve Bayes classifiers)
半朴素贝叶斯分类器
为了降低贝叶斯公式中估计后验概率的困难,朴素贝叶斯分类器采用
对离散属性而言,令
表示 中在第 个属性上取值为 的样
本组成的集合,则条件概率
可估计为
对连续属性而言可考虑概率密度函数,假定
,其
中 和 分别是第 类样本在第 个属性上取值的均值和方差,
则有
朴素贝叶斯分类器
例子:用西瓜数据集3.0训练一个朴素贝叶斯分类器,对测试例
“测1”进行分类 (p151, 西瓜数据集 p84 表4.3)
贝叶斯网
贝叶斯网 (Bayesian network)亦称“信念网”(brief network),
它借助有向无环图 (Directed Acyclic Graph, DAG)来刻画属性 间的依赖关系,并使用条件概率表 (Conditional Probability Table, CPT)来表述属性的联合概率分布。
此时条件风险
于是,最小化分类错误率的贝叶斯最有分类器为
即对每个样本 ,选择能使后验概率
最大的类别标记。
贝叶斯决策论
不难看出,使用贝叶斯判定准则来最小化决策风险,首先要获得后验
概率
。
然而,在现实中通常难以直接获得。机器学习所要实现的是基于有限
的训练样本尽可能准确地估计出后验概率
。
主要有两种策略:
计算任意两个属性之间的条件互信息 (conditional mutual information)
贝叶斯分类ppt课件
Q1 什么是分类
超市中的物品分类
生活中的垃圾分类
Q1 什么是分类
由此可见,分类是跟 我们的生活息息相关 的东西,分类让生活 更加有条理,更加精 彩.
生活信息的分类
Q1 什么是分类
分类就是把一些新的数据项映射到给定类别的中的某 一个类别,比如说当我们发表一篇文章的时候,就可以自 动的把这篇文章划分到某一个文章类别。
下面给出划分:a1:{a<=0.05, 0.05<a<0.2, a>=0.2} a2:{a<=0.1, 0.1<a<0.8, a>=0.8} a3:{a=0(不是),a=1(是)}
2、获取训练样本 这里使用运维人员曾经人工检测过的1万个账号作为训练样本。
3、计算训练样本中每个类别的频率 用训练样本中真实账号和不真实账号数量分别除以一万,得到:
对于X (去年退税 否, 婚姻状况=婚姻中, 可征税收入 120K)
Q2 分类的流程
动物种 类 狗 猪 牛 麻雀 天鹅 大雁
动物A 动物B
体型
中 大 大 小 中 中 大 中
翅膀数 量 0 0 0 2 2 2 0 2
脚的只数
4 4 4 2 2 2 2 2
是否产 蛋 否 否 否 是 是 是 是 否
朴素贝叶斯分类实例 检测SNS社区中不真实账号
下面讨论一个使用朴素贝叶斯分类解决实际问 题的例子。
这个问题是这样的,对于SNS社区来说,不真 实账号(使用虚假身份或用户的小号)是一个普遍 存在的问题,作为SNS社区的运营商,希望可以 检测出这些不真实账号,从而在一些运营分析报告 中避免这些账号的干扰,亦可以加强对SNS社区 的了解与监管。
• 由于P(X)对于所有类为常数,只需要P(X|H)*P(H) 最大即可。
朴素贝叶斯分类ppt课件
件是次品的概率是多少
解 设事件 A 为“任取一件为次品”,
事件 Bi 为" 任取一件为 i 厂的产品" ,i 1,2,3.
B1 B2 B3 , Bi Bj , i, j 1,2,3.
2021精选ppt
9
由全概率公式得
30% 2% A 1% 1%
B1
20% B3
50%
B2
P( A) P(B1)P( A B1) P(B2 )P( A B2 ) P(B3 )P( A B3 ). P(B1) 0.3, P(B2 ) 0.5, P(B3 ) 0.2, P( A B1) 0.02, P( A B2 ) 0.01, P( A B3 ) 0.01,
2021精选ppt
28
统计结果
天气 E1
温度 E2
湿度 E3
有风 E4
打网球
PN
PN
PN
P NP
N
晴 2/9 3/5 热 2/9 2/5 高 3/9 4/5 否 6/9 2/5 9/14 5/14
云 4/9 0/5 暖 4/9 2/5 正常 6/9 1/5 是 3/9 3/5
雨 3/9 2/5 凉 3/9 1/5
• P(x2|y):表示y的细胞异常的概率是0.18(后验概率)
2021精选ppt
22
22
朴素贝叶斯分类
• 朴素贝叶斯分类的工作过程如下:
• (1) 每个数据样本用一个n维特征向量X= {x1,x2,……, xn}表示,分别描述对n个属性A1,A2,……,An样本的n个
度量。
• (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验
解 设事件 A 为“任取一件为次品”,
事件 Bi 为" 任取一件为 i 厂的产品" ,i 1,2,3.
B1 B2 B3 , Bi Bj , i, j 1,2,3.
2021精选ppt
9
由全概率公式得
30% 2% A 1% 1%
B1
20% B3
50%
B2
P( A) P(B1)P( A B1) P(B2 )P( A B2 ) P(B3 )P( A B3 ). P(B1) 0.3, P(B2 ) 0.5, P(B3 ) 0.2, P( A B1) 0.02, P( A B2 ) 0.01, P( A B3 ) 0.01,
2021精选ppt
28
统计结果
天气 E1
温度 E2
湿度 E3
有风 E4
打网球
PN
PN
PN
P NP
N
晴 2/9 3/5 热 2/9 2/5 高 3/9 4/5 否 6/9 2/5 9/14 5/14
云 4/9 0/5 暖 4/9 2/5 正常 6/9 1/5 是 3/9 3/5
雨 3/9 2/5 凉 3/9 1/5
• P(x2|y):表示y的细胞异常的概率是0.18(后验概率)
2021精选ppt
22
22
朴素贝叶斯分类
• 朴素贝叶斯分类的工作过程如下:
• (1) 每个数据样本用一个n维特征向量X= {x1,x2,……, xn}表示,分别描述对n个属性A1,A2,……,An样本的n个
度量。
• (2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样 本X(即没有类标号),分类器将预测X属于具有最高后验
贝叶斯网贝叶斯分类器
网
4
5
2
Chapter 7
6
1
*
图表设计
典型案例
EM算
法
*
7.5 贝叶斯网
贝叶斯网
结构
学习
推断
贝叶斯网(Bayesian network)
➢ 亦称“信念网”(belief network)
➢ 有向无环图(Directed Acyclic Graph) &条件概率表(CPT, Conditional Probability Table)
学习
结构
贝叶斯网联合概率分布定义:
给定父结点集 ,贝叶斯网假设每个属性与其非后裔属性独立:
1 , 2 , … , = ෑ ( | ) = ෑ |
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
朴素贝叶斯分类器(naïve Bayes classifiers)
例如:
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
拉普拉斯修正
拉普拉斯修正(Laplacian correction)
➢ 给定N 个类别标记 = {1 , 2 , … , },令 λij 代表将第 j 类样本误分类为第 i 类所产生的
损失,则基于后验概率,可知,将样本 x 分到第i 类的条件风险(risk)为:
= ( |)
=1
➢ 寻找一个判定准则 h 以最小化总体风险:
Geoff Webb
澳大利亚
Monash大学
(, ) ෑ ( |, )
4
5
2
Chapter 7
6
1
*
图表设计
典型案例
EM算
法
*
7.5 贝叶斯网
贝叶斯网
结构
学习
推断
贝叶斯网(Bayesian network)
➢ 亦称“信念网”(belief network)
➢ 有向无环图(Directed Acyclic Graph) &条件概率表(CPT, Conditional Probability Table)
学习
结构
贝叶斯网联合概率分布定义:
给定父结点集 ,贝叶斯网假设每个属性与其非后裔属性独立:
1 , 2 , … , = ෑ ( | ) = ෑ |
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
朴素贝叶斯分类器(naïve Bayes classifiers)
例如:
分别计算 , 2
拉普拉斯修正
分类器使用
*
7.3 朴素贝叶斯分类器
朴素贝叶斯分类器
拉普拉斯修正
拉普拉斯修正(Laplacian correction)
➢ 给定N 个类别标记 = {1 , 2 , … , },令 λij 代表将第 j 类样本误分类为第 i 类所产生的
损失,则基于后验概率,可知,将样本 x 分到第i 类的条件风险(risk)为:
= ( |)
=1
➢ 寻找一个判定准则 h 以最小化总体风险:
Geoff Webb
澳大利亚
Monash大学
(, ) ෑ ( |, )
7.贝叶斯分类器的学习
例如:T=5时,可能的观察序列V5=v3v2v3v4v1
HMM的参数表示
θπ,A,B
状态转移矩阵:A,M*M的方阵; 状态输出概率:B,M*K的矩阵; 初始概率:π,包括M个元素。
M个状态,K个可能的输出值。
HMM的三个核心问题
估值问题:已有一个HMM模型,其参数已知, 计算这个模型输出特定的观察序列VT的概率 – 前 向算法,后向算法;
pnx1nin1V1nxh-nxi
窗函数的形式
窗函数的宽度对估计的影响
识别方法
1. 保存每个类别所有的训练样本;
2. 选择窗函数的形式,根据训练样本数n选择 窗函数的h宽度;
3. 识别时,利用每个类别的训练样本计算待识 别样本x的类条件概率密度:
pn
xi
n1i jni1V1nx-hxij
it1arg1 m ja M x jtaji
P *VTθ1 m ja M x jT , w*Targ1 m ja M xjT
5. 路径回朔:
w*tw*t1t1
Viterbi算法图示
1 2
1 3
w1
w1
w1
...
2 2
2 3
w2
w2
w2
...
3 2
3 3
w3
w3
w3
...
.
.
.
.
.
.
.
.
.
M 2
隐状态输出的观察值可以是离散值, 连续值,也可以是一个矢量。
HMM的工作过程
HMM的工作原理
HMM的内部状态转移过程同Markov模型相同, 在每次状态转移之后,由该状态输出一个观察 值,只是状态转移过程无法观察到,只能观察 到输出的观察值序列。
HMM的参数表示
θπ,A,B
状态转移矩阵:A,M*M的方阵; 状态输出概率:B,M*K的矩阵; 初始概率:π,包括M个元素。
M个状态,K个可能的输出值。
HMM的三个核心问题
估值问题:已有一个HMM模型,其参数已知, 计算这个模型输出特定的观察序列VT的概率 – 前 向算法,后向算法;
pnx1nin1V1nxh-nxi
窗函数的形式
窗函数的宽度对估计的影响
识别方法
1. 保存每个类别所有的训练样本;
2. 选择窗函数的形式,根据训练样本数n选择 窗函数的h宽度;
3. 识别时,利用每个类别的训练样本计算待识 别样本x的类条件概率密度:
pn
xi
n1i jni1V1nx-hxij
it1arg1 m ja M x jtaji
P *VTθ1 m ja M x jT , w*Targ1 m ja M xjT
5. 路径回朔:
w*tw*t1t1
Viterbi算法图示
1 2
1 3
w1
w1
w1
...
2 2
2 3
w2
w2
w2
...
3 2
3 3
w3
w3
w3
...
.
.
.
.
.
.
.
.
.
M 2
隐状态输出的观察值可以是离散值, 连续值,也可以是一个矢量。
HMM的工作过程
HMM的工作原理
HMM的内部状态转移过程同Markov模型相同, 在每次状态转移之后,由该状态输出一个观察 值,只是状态转移过程无法观察到,只能观察 到输出的观察值序列。
第三讲 贝叶斯分类器
二、 各种贝叶斯分类器
根据分类决策规则的不同,贝叶斯分类有多种形式,下面介绍比较常见的几 种贝叶斯分类器。
1、 最小错误率贝叶斯分类器
当已知类别出现的先验概率 P (i ) 和每个类中的样本分布的类条件概率 密度 P ( x | i ) 时 ,可以求得一个待分类样本属于每类的后验概率 P( i | x) , 将其划归到后验概率最大的那一类中, 真正分类器称为最小错误率贝叶斯分 类器,其分类决策规则可表示为: 两类问题中,当 P (i | x ) P ( j | x) 时,判决 x i ; 对于多类情况,则当 P(i | x) max P( j | x) 时,判究所 高琪 gaoqi@
《模式识别》讲义 2011 版:第三讲 贝叶斯分类器
由此可见,在进行分类决策时,可通过计算某个特征向量的似然比,把它与 两类之间的判决门限值进行比较,就可以完成分类决策。 对于多类问题,分类决策规则为:
若Lij ( x) ij , 对于任意的i, j 1, 2, c,i j成立,则x i
如果根据样本属于各类的后验概率及其他因素对该样本进行分类决策,就 称为贝叶斯分类。 贝叶斯分类具有以下特点: 需要知道先验概率 先验概率是计算后验概率的基础。在传统的概率理论中,先验 概率可以由大量的重复实验 所获得的各类样本出现的频率来近似 获得,其基础是“大数定律” ,这一思想称为“频率主义” 。而在称 为“贝叶斯主义”的数理统计学派中,他们认为时间是单向的,许 多事件的发生不具有可重复性,因此先验概率只能根据对置信度的 主观判定来给出,也可以说由“信仰”来确定。这一分歧直接导致 了对贝叶斯公式应用范围和合理性的争议。 按照获得的信息对先验概率进行修正 在没有获得任何信息的时候,如果要进行分类判别,只能依据 各类存在的先验概率,将样本划分到先验概率大的一类中。而在获 得了更多关于样本特征的信息后,可以依照贝叶斯公式对先验概率 进行修正,得到后验概率,提高了分类决策的准确性和置信度。 分类决策存在错误率 由于贝叶斯分类是在样本取得某特征值时对它属于各类的概 率进行推测,并无法或者样本真实的类别归属情况,所以分类决策 一定存在错误率,即时错误率很低,分类错误的情况也可能发生。
第2章 贝叶斯分类器
P 1 0.995
P 2 0.005
Page 5
p 1 0.01
p 2 0.95
p 1 0.99
p - 2 0.05
王某试验结果为阳性(+),诊断结果是什么?
p x 1 P1 p 1 P1 0.010.995 0.00995 p x 2 P2 p 2 P2 0.950.005 0.00475
1 x 2 1 x 2
将不等式两边的分母消去 :
p x 1 P 1 p x 2 P 2
Page 3
推广到c类情况,最小错误率贝叶斯决策规则为: (1)后验概率形式
P i x P j x
j 1, 2,3, , c; j i
该人属正常人的概率为67.7%,换句话说,他属 癌症病人的概率为32.2%。 风险是什么?条件风险定义为:将模式判属某类 所造成的损失的条件数学期望。
Page 9
仍以细胞识别为例。假定: 模式x本属正常类而判属正常类所造成的损失为L11; 模式x本属癌变类而判属正常类所造成的损失为L21; 模式x本属正常类而判属癌变类所造成的损失为L12; 模式x本属癌变类而判属癌变类所造成的损失为L22。 根据条件风险的定义,将模式x判属正常类w1的条件风 险为将模式x判属w1类所造成的损失的条件数学期望:
图2.2 贝叶斯分类器的错误率
Page 16
1.一种特殊情况下的错误率的理论计算 假设为两类情况,模式服从正态分布,而且两类的协 方差矩阵相等,即
p x 1 p x 2 1
2
n 2
T 1 1 x m x m exp C 1 1 1 2 C2 T 1 1 x m x m exp C 2 2 1 2 C2
相关主题