十大算法朴素贝叶斯讲解
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P(Y=yj X x) =MAX{P(Y=y1 X x),P(Y=y2 X x),...,P(Y=ym X x)}
而由贝叶斯公式:
P(Y
yj
X
x)
P(X
x / Y y j )P(Y P(X x)
yj)
其中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。
化整为零 各个击破
说明 全概率公式的主要用途在于它可以将一个
复杂事件的概率计算问题,分解为若干个简单事件 的概率计算问题,最后应用概率的可加性求出最终 结果.
B2
B1
A
B3
L Bn1 Bn
3. 贝叶斯公式
定义 设为试验E的样本空间, A为E的事件,
B1, B2 ,L , Bn为的一个划分,且P( A) 0, P(Bi ) 0(i 1, 2,L , n),则
作B的后验概率。
P(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant).
贝叶斯定理:
关于贝叶斯分类:
对于贝叶斯网络分类器,若某一待分类的样本D,
其分类特征值为 x=(x1,x2 ,...,xn ) ,则样本D 属于类别yi 的概率
P( C = yi | X1 = x1 , X2 = x 2 , ... , Xn = x n) ,( i = 1 ,2 , ... , m) 应满足下式:
购买电脑实例:
购买电脑实例:
购买电脑实例:
(2)计算每个特征属性对于每个类别的条件概率:
P(age<=“30”|buys_computer=“yes”)=2/9=0.222 P(income<=“medium”|buys_computer=“yes”)=4/9=0.444 P(student<=“yes”|buys_computer=“yes”)=6/9=0.667 P(credit_rating<=“fair”|buys_computer=“yes”)=6/9=0.667
贝叶斯算法处理流程:
第二阶段——分类器训练阶段: 主要工作是计算每个类别在训练样本中出现
频率以及每个特征属性划分对每个类别的条件 概率估计。输入是特征属性和训练样本,输出 是分类器。 第三阶段——应用阶段:
这个阶段的任务是使用分类器对待分类项进行分类 ,其输入是分类器和待分类项,输出是待分类项与类 别的映射关系。
朴素贝叶斯算法 Naïve Bayes
知识回顾
贝叶斯知识
1. 样本空间的划分
定义 设 为试验E的样本空间, B1, B2,L , Bn 为 E 的一组事件,若
1 0 Bi Bj , i, j 1, 2,L , n;
20 B1 U B2 UL U Bn , 则称 B1, B2 ,L , Bn 为样本空间 的一个划分.
P(Bi | A)
P( A / Bi )P(Bi )
n
,
i 1, 2,L , n.
P(A | Bj )P(Bj )
j 1
称此为贝叶斯公式.
证明
P(Bi
A)
P( A |Bi )P(Bi ) P( A)
条件概率
P(Bi )P( A | Bi )
n
的概念
P(Bj )P( A | Bj ) i 1,2, ,n.
P(age<=“30”|buys_computer=“no”)=3/5=0.600 P(income<=“medium”|buys_computer=“no”)=2/5=0.400 P(student<=“yes”|buys_computer=“no”)=1/5=0.2 P(credit_rating<=“fair”|buys_computer=“no”)=2/5=0.400
B2
B1
B3
B L Bn1
n
2. 全概率公式
定义 设为试验E的样本空间, A为E的事件, B1, B2 ,L , Bn为的一个划分,且P(Bi ) 0 (i 1, 2,L , n),则 P( A) P( A | B1)P(B1) P( A | B2 )P(B2 ) L P( A | Bn )P(Bn )
在人工智能领域,贝叶斯方法是一种非常具有 代表性的不确定性知识表示和推理方法。
贝叶斯定理:
P(A)是A的先验概率或边缘概率。之所以称为“先验”是因为它不考
虑任何B方面的因素。
P(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称
作A的后验概率。
P(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称
n
P(B)P( A | Bi ) i 1
全概率公式
证明 A A A I (B1 U B2 UL Bn ) AB1 U AB2 UL U ABn.
P(A) P(B1)P(A | B1) P(B2)P(A | B2) L
P(Bn )P(A | Bn )
图示
B2
B3
B1 A L Bn1 Bn
由以往的数据分析得到的概率, 叫做先验 概率. 而在得到信息之后再重新加以修正的概率 叫做后验概率.
• 贝叶斯定理 简介 • 分类算法概念
• 朴素贝叶斯算法原理
朴素贝叶 斯算法
• 朴素贝叶斯算法流程
Biblioteka Baidu
• 购买电脑实例
算法实例
• 算法优缺点 总结 • 算法相关扩展
贝叶斯理论
简单的说,贝叶斯定理是基于假设的先验概率 、给定假设下观察到不同数据的概率,提供了 一种计算后验概率的方法。
j 1
若(,F ,P)是一个概率空间,B F ,且 P(B) 0,
对任意的A F ,称
P(A | B) P(AB) P(B)
为在事件 B 发生的条件下,事件 A发生的条件概率.
乘法定理:
设 P(A) 0, 则有 P(AB) P(B A)P(A) P(A B)P(B).
先验概率与后验概率
朴素贝叶斯算法原理:
朴素贝叶斯算法原理:
朴素贝叶斯算法原理:
朴素贝叶斯算法原理:
n
P( X | yi ) P(ak | yi ) k 1
朴素贝叶斯算法原理:
贝叶斯算法处理流程:
贝叶斯算法的处理流程:
第一阶段——准备阶段:
该阶段为朴素贝叶斯分类做必要的准备。主要是依 据具体情况确定特征属性,并且对特征属性进行适当 划分。然后就是对一部分待分类项进行人工划分,以 确定训练样本。 这一阶段的输入是所有的待分类项,输出时特征属性 和训练样本。分类器的质量很大程度上依赖于特征属 性及其划分以及训练样本的质量。