十大算法朴素贝叶斯讲解

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

P(Y=yj X x) =MAX{P(Y=y1 X x),P(Y=y2 X x),...,P(Y=ym X x)}
而由贝叶斯公式：
P(Y
yj
X
x)
P(X
x / Y y j )P(Y P(X x)
yj)
其中，P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。
化整为零各个击破
说明全概率公式的主要用途在于它可以将一个
复杂事件的概率计算问题,分解为若干个简单事件的概率计算问题,最后应用概率的可加性求出最终结果.
B2
B1
A
B3
L Bn1 Bn
3. 贝叶斯公式
定义设为试验E的样本空间, A为E的事件,
B1, B2 ,L , Bn为的一个划分,且P( A) 0, P(Bi ) 0(i 1, 2,L , n),则
作B的后验概率。
P(B)是B的先验概率或边缘概率，也作标准化常量（normalized constant）.
贝叶斯定理：
关于贝叶斯分类：
对于贝叶斯网络分类器，若某一待分类的样本D，
其分类特征值为 x=(x1,x2 ,...,xn ) ，则样本D 属于类别yi 的概率
P( C = yi | X1 = x1 , X2 = x 2 , ... , Xn = x n) ，( i = 1 ,2 , ... , m) 应满足下式：
购买电脑实例：
购买电脑实例：
购买电脑实例：
（2）计算每个特征属性对于每个类别的条件概率：
P(age<=“30”|buys_computer=“yes”)=2/9=0.222 P(income<=“medium”|buys_computer=“yes”)=4/9=0.444 P(student<=“yes”|buys_computer=“yes”)=6/9=0.667 P(credit_rating<=“fair”|buys_computer=“yes”)=6/9=0.667
贝叶斯算法处理流程：
第二阶段——分类器训练阶段：主要工作是计算每个类别在训练样本中出现
频率以及每个特征属性划分对每个类别的条件概率估计。输入是特征属性和训练样本，输出是分类器。第三阶段——应用阶段：
这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。
朴素贝叶斯算法 Naïve Bayes
知识回顾
贝叶斯知识
1. 样本空间的划分
定义设为试验E的样本空间, B1, B2,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n;
20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间的一个划分.
P(Bi | A)
P( A / Bi )P(Bi )
n
,
i 1, 2,L , n.
P(A | Bj )P(Bj )
j 1
称此为贝叶斯公式.
证明
P(Bi
A)
P( A |Bi )P(Bi ) P( A)
条件概率
P(Bi )P( A | Bi )
n
的概念
P(Bj )P( A | Bj ) i 1,2, ,n.
P(age<=“30”|buys_computer=“no”)=3/5=0.600 P(income<=“medium”|buys_computer=“no”)=2/5=0.400 P(student<=“yes”|buys_computer=“no”)=1/5=0.2 P(credit_rating<=“fair”|buys_computer=“no”)=2/5=0.400
B2
B1
B3
B L Bn1
n
2. 全概率公式
定义设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分,且P(Bi ) 0 (i 1, 2,L , n),则 P( A) P( A | B1)P(B1) P( A | B2 )P(B2 ) L P( A | Bn )P(Bn )
在人工智能领域，贝叶斯方法是一种非常具有代表性的不确定性知识表示和推理方法。
贝叶斯定理：
P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考
虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率，也由于得自B的取值而被称
作A的后验概率。
P(B|A)是已知A发生后B的条件概率，也由于得自A的取值而被称
n
P(B)P( A | Bi ) i 1
全概率公式
证明 A A A I (B1 U B2 UL Bn ) AB1 U AB2 UL U ABn.
P(A) P(B1)P(A | B1) P(B2)P(A | B2) L
P(Bn )P(A | Bn )
图示
B2
B3
B1 A L Bn1 Bn
由以往的数据分析得到的概率, 叫做先验概率. 而在得到信息之后再重新加以修正的概率叫做后验概率.
• 贝叶斯定理简介 • 分类算法概念
• 朴素贝叶斯算法原理
朴素贝叶斯算法
• 朴素贝叶斯算法流程
Biblioteka Baidu
• 购买电脑实例
算法实例
• 算法优缺点总结 • 算法相关扩展
贝叶斯理论
简单的说，贝叶斯定理是基于假设的先验概率、给定假设下观察到不同数据的概率，提供了一种计算后验概率的方法。
j 1
若（，F ，P）是一个概率空间，B F ，且 P(B) 0,
对任意的A F ，称
P(A | B) P(AB) P(B)
为在事件 B 发生的条件下，事件 A发生的条件概率.
乘法定理：
设 P(A) 0, 则有 P(AB) P(B A)P(A) P(A B)P(B).
先验概率与后验概率
朴素贝叶斯算法原理：
朴素贝叶斯算法原理：
朴素贝叶斯算法原理：
朴素贝叶斯算法原理：
n
P( X | yi ) P(ak | yi ) k 1
朴素贝叶斯算法原理：
贝叶斯算法处理流程：
贝叶斯算法的处理流程：
第一阶段——准备阶段：
该阶段为朴素贝叶斯分类做必要的准备。主要是依据具体情况确定特征属性，并且对特征属性进行适当划分。然后就是对一部分待分类项进行人工划分，以确定训练样本。这一阶段的输入是所有的待分类项，输出时特征属性和训练样本。分类器的质量很大程度上依赖于特征属性及其划分以及训练样本的质量。