朴素贝叶斯算法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P(student = “yes” | buys_computer =“no”)
=0.200
P(credit_rating = “fair” |buys_computer = “yes”) = 0.667
P(credit_rating = “fair” |buys_computer = “no”) = 0.400
的概率。
朴素贝叶斯算法流程
• 1.设X {a1,a2,am}为一个待分类项,而每 个ai为 x的一个特征属性。且特征属性之间 相互独立(此处是朴素贝叶斯的假设)。
• 2.设C {y1, y2,, ym}为一个类别集合。 • 3.计算 P(y1|x),P(y2|x),P(y3|x),,P(ym|x)。 • 4.如果
P(buys_computer = no) = 5/14 = 0.357
2.计算后验概率P(X |Ci), i = 1,2(假设属性独立)
P(age = “<30” | buys_computer = “yes”)
=0.222
P(age = “<30” | buys_computer = “no”)
朴素贝叶斯算法存在的问题及应用
• 朴素贝叶斯分类器(Naive Bayes Classifier,或 NBC)发源于古典数学理论,有着坚实的数学基础, 以及稳定的分类效率。同时,NBC模型所需估计 的参数很少,对缺失数据不太敏感,算法也比较 简单。理论上,NBC模型与其他分类方法相比具 有最小的误差率。但是实际上并非总是如此,这 是因为NBC模型假设属性之间相互独立,这个假 设在实际应用中往往是不成立的,这给NBC模型 的正确分类带来了一定影响。
• P(X | buys_computer = “yes”)
= 0.222×0.444×0.667×0.667 = 0.044
• P(X | buys_computer = “no”)
= 0.600×0.400×0.200×0.400 = 0.019
3. 对每个类Ci,计算P(X |Ci )P(Ci)
Credit rating fair
excellent fair fair fair
excellent excellent
fair fair fair excellent
Class: buys computer no no yes yes yes no yes no No yes yes
12
31-40
• 条件概率:P(A|B) 表示事件B已经发生的
前提下,事件A发生的概率,叫做事件B
发生下事件A的条件概率。其基本求解
公式为:
P(A|B)
P(AB) P(B)
• 为了得出P(B|A) ,我们不加证明的给出
贝叶斯定理。
P(B|A) P(A|B)P(B)
P(A)
先验概率和后验概率
• 先验概率:由以往的数据分析得到的概率。 • 后验概率:得到信息之后再重新加以修正
X = (age ="<= 30", income ="medium", student =" yes", credit _ rating =" fair").
1.我们需要最大化P(X | Ci)P(Ci),i = 1,2。 每个类的先验概率P(Ci )可以根据训练样本计算: P(buys_computer = yes) = 9/14 = 0.643
朴素贝叶斯算法
Naive Bayes
算法流程图
准备工作阶段
确定特征属性
获取训练样本
对每个类别计
算P(yi)
分
类
训
练
对每个特征属 性计算所有划
阶 段
分的条件概率
以最大项作为 所属类别
P(x|yi)P(yi)
对每个类别计 算P(x|yi)P(yi)
应用阶段
内容大纲
Table of Contents
01 朴素贝叶斯算法原理
朴素贝叶斯分类例子
RID
age
1
<=30
2
<=30
3
31-40
4
>40
5
>40
6
>40
7
31-40
8
<=30
9
<=30
10
>40
11
<=30
income high high high
medium low low low
medium low
medium medium
student no no no no yes yes yes no yes yes yes
P(X | buys_computer = “yes”) P(buys_computer = “yes”) = 0.044×0.643 = 0.028
P(X | buys_computer = “no”) P(buys_computer = “no”) = 0.019×0.357 = 0.007
• 因此,对于样本X,朴素贝叶斯分类预测buys_computer =” yes”。
=0.600
P(income =“medium” |buys_computer =“yes”) =0.444
P(income = “medium” | buys_computer =“no”) = 0.400
P(student = “yes” | buys_computer =“ yes”) =0.667
02
贝叶斯定理 朴素贝叶斯算法流程
03 购买电脑实例
04 朴素贝叶斯算法存在的问题及应用
朴素贝叶斯算法原理
• 朴素贝叶斯算法是分类算法中的一种。朴素贝叶 斯的思想基础是这样的:对于给定的待分类
项各个X 类{别a1,ay2i出,现的,a概n} ,率,求哪解个在P此(y项i|x出)最现大的。条就件把下此
P( yk | x) max{P( y1| x),P( y2| x),P(y3| x),,P( ym| x)} 则 xyk。
• 接下来,由于假设各个特征属性都是条件 独立的,那么根据贝叶斯定理有如下推导, 因为分母对于所有类别为常数,因此将分 子最大化即可。
• 即:
P(x| yi)P(yi)P(a1| yi)P(a2| yi)P(am| yi)P(yi)P(yi)m P(aj| yi) j1
待分类项归于哪个类别。
• 通俗来说,就好比你在街上看到一个黑人,我问 你你猜这个人哪里来的,你十有八九猜非洲。为 什么呢?因为黑人中非洲人的比率最高,当然人 家也可能是美洲人或亚洲人,但在没有其它可用 信息下,我们会选择条件概率最大的类别,这就 是朴素贝叶斯的思想基础。
贝叶斯分类的基础——贝叶斯定理
medium
no
excellent
yes
13Βιβλιοθήκη Baidu
31-40
high
yes
fair
yes
14
>40
medium
no
excellent
no
数据样本用属性age, income, student 和credit rating 描述。类别属性buys computer 具有两个不同值(即{yes, no})。设 C1对应于类buys computer = “yes”,而C2 对应于类buys computer = “no”。 我们分类的未知样本为:
• 朴素贝叶斯算法目前在过滤垃圾邮件和文 字分类方面得到很好的应用。