朴素贝叶斯算法 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

P(student = “yes” | buys_computer =“no”)
=0.200
P(credit_rating = “fair” |buys_computer = “yes”) = 0.667
P(credit_rating = “fair” |buys_computer = “no”) = 0.400
的概率。
朴素贝叶斯算法流程
• 1.设X {a1,a2,am}为一个待分类项，而每个ai为 x的一个特征属性。且特征属性之间相互独立（此处是朴素贝叶斯的假设）。
• 2.设C {y1, y2,, ym}为一个类别集合。 • 3.计算 P(y1|x),P(y2|x),P（y3|x）,,P(ym|x)。 • 4.如果
P(buys_computer = no) = 5/14 = 0.357
2.计算后验概率P(X |Ci)， i = 1,2（假设属性独立）
P(age = “<30” | buys_computer = “yes”)
=0.222
P(age = “<30” | buys_computer = “no”)
朴素贝叶斯算法存在的问题及应用
• 朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。
• P(X | buys_computer = “yes”)
= 0.222×0.444×0.667×0.667 = 0.044
• P(X | buys_computer = “no”)
= 0.600×0.400×0.200×0.400 = 0.019
3. 对每个类Ci，计算P(X |Ci )P(Ci)
Credit rating fair
excellent fair fair fair
excellent excellent
fair fair fair excellent
Class: buys computer no no yes yes yes no yes no No yes yes
12
31-40
• 条件概率：P(A|B) 表示事件B已经发生的
前提下，事件A发生的概率，叫做事件B
发生下事件A的条件概率。其基本求解
公式为：
P(A|B)
P(AB) P(B)
• 为了得出P(B|A) ，我们不加证明的给出
贝叶斯定理。
P（B|A） P(A|B)P(B)
P(A)
先验概率和后验概率
• 先验概率：由以往的数据分析得到的概率。 • 后验概率：得到信息之后再重新加以修正
X = (age ="<= 30", income ="medium", student =" yes", credit _ rating =" fair").
1.我们需要最大化P(X | Ci)P(Ci)，i = 1,2。每个类的先验概率P(Ci )可以根据训练样本计算： P(buys_computer = yes) = 9/14 = 0.643
朴素贝叶斯算法
Naive Bayes
算法流程图
准备工作阶段
确定特征属性
获取训练样本
对每个类别计
算P(yi)
分
类
训
练
对每个特征属性计算所有划
阶段
分的条件概率
以最大项作为所属类别
P(x|yi)P(yi)
对每个类别计算P(x|yi)P(yi)
应用阶段
内容大纲
Table of Contents
01 朴素贝叶斯算法原理
朴素贝叶斯分类例子
RID
age
1
<=30
2
<=30
3
31-40
4
>40
5
>40
6
>40
7
31-40
8
<=30
9
<=30
10
>40
11
<=30
income high high high
medium low low low
medium low
medium medium
student no no no no yes yes yes no yes yes yes
P(X | buys_computer = “yes”) P(buys_computer = “yes”) = 0.044×0.643 = 0.028
P(X | buys_computer = “no”) P(buys_computer = “no”) = 0.019×0.357 = 0.007
• 因此，对于样本X，朴素贝叶斯分类预测buys_computer =” yes”。
=0.600
P(income =“medium” |buys_computer =“yes”) =0.444
P(income = “medium” | buys_computer =“no”) = 0.400
P(student = “yes” | buys_computer =“ yes”) =0.667
02
贝叶斯定理朴素贝叶斯算法流程
03 购买电脑实例
04 朴素贝叶斯算法存在的问题及应用
朴素贝叶斯算法原理
• 朴素贝叶斯算法是分类算法中的一种。朴素贝叶斯的思想基础是这样的：对于给定的待分类
项各个X 类{别a1,ay2i出,现的,a概n} ，率，求哪解个在P此(y项i|x出)最现大的。条就件把下此
P( yk | x) max{P( y1| x),P( y2| x),P（y3| x）,,P( ym| x)} 则 xyk。
• 接下来，由于假设各个特征属性都是条件独立的，那么根据贝叶斯定理有如下推导，因为分母对于所有类别为常数，因此将分子最大化即可。
• 即：
P（x| yi）P(yi)P(a1| yi)P(a2| yi)P(am| yi)P(yi)P(yi)m P(aj| yi) j1
待分类项归于哪个类别。
• 通俗来说，就好比你在街上看到一个黑人，我问你你猜这个人哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。
贝叶斯分类的基础——贝叶斯定理
medium
no
excellent
yes
13Βιβλιοθήκη Baidu
31-40
high
yes
fair
yes
14
>40
medium
no
excellent
no
数据样本用属性age, income, student 和credit rating 描述。类别属性buys computer 具有两个不同值（即{yes, no}）。设 C1对应于类buys computer = “yes”，而C2 对应于类buys computer = “no”。我们分类的未知样本为：
• 朴素贝叶斯算法目前在过滤垃圾邮件和文字分类方面得到很好的应用。