第三章3-朴素贝叶斯分类器-20140925

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
近似,即 P(c j )=
|c j | |D|
联合概率P(x|cj)
联合概率是指当已知类别为cj的条件下,看到 样本x出现的概率。
若设x = <a1,a2…am> 则P(x|cj)= P(a1,a2…am| cj)
后验概率P(cj |x)
即给定数据样本x时cj成立的概率,而这正是我们 所感兴趣的
Humidity High Normal
Wind Weak Strong
PlayTennis
2 3
4 0
3 2
2 2
4 2
3 1
3 4
6 1
6 2
3 3
Yes No
9 5
估计先验概率和条件概率
Outlook
Sunny Overcast Rain Hot
Temperature
Mild Cool
Humidity
等于yes的概率 P(Yes|x) = p(Yes)*p(Sunny|Yes)* p(Hot|Yes)* p(High|Yes)* p(Weak|Yes)* =9/14*2/9*2/9*3/9*6/9 =0.007039 等于No的概率 P(No|x) = p(No)*p(Sunny| No)* p(Hot| No)* p(High| No)* p(Weak| No)* =5/14*3/5*2/5*4/5*2/5 =0.027418
Day D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14
现在假设有一个样例x x = {Sunny,Hot,High,Weak}
第一步统计个数
表1 类别为cj及在cj条件下Ai取ai的样例数
Outlook Sunny Overcast Rain Hot
Temperature Mild Cool
设x = <a1,a2…am>,为一个有m个属性的样例 P(cMAP|x)= max P(cj|x) j∈(1,|C|) = max P(cj|a1,a2…am) = max P(a1,a2…am|cj)P(cj)
P(a1,a2…am)
(1)
Байду номын сангаас
= max P(a1,a2…am|cj)P(cj)
朴素贝叶斯分类器二
朴素贝叶斯分类器基于一个简单的假定:在给 定目标值时属性值之间相互条件独立。换言之,该 假定说明给定实例的目标值情况下,观察到联合的 a1,a2…am的概率正好是对每个单独属性的概率乘积
P(a1 ,a 2 ,...,a m | c j )= P(a i | c j )
i 1
m
(2)
将(2) 式其代入(1)式中,可得到朴素贝叶斯 分类器,如下
贝叶斯定理
设x∈Ω是一个类别未知的数据样本,cj为某个类别,若数据 样本x属于一个特定的类别cj,那么分类问题就是决定P(cj|x), 即在获得数据样本x时,确定x的最佳分类。所谓最佳分类,一种 办法是把它定义为在给定数据集D中不同类别cj先验概率的条件下 最可能(most probable)分类。贝叶斯理论提供了计算这种可 能性的一种直接方法 更精确地讲,贝叶斯法则基于假设的先验概率、给定假设下 观察到不同数据的概率,提供了一种计算假设概率的方法
Day D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14
现在假设有一个样例x x = {Sunny,Hot,High,Weak}
贝叶斯公式
P( cj|x) =

P(x|cj)P(cj) P(x)
先验概率P(cj) 联合概率P(x|cj) 后验概率P(cj|x)
朴素贝叶斯分类
软件工程学院
郑皎凌
大 纲

贝叶斯理论 贝叶斯分类器
描述用到的符号
我们用Ai表示第i个属性,C表示决策属性;aik表示 第i个属性的第k个取值,cj表示第j类;加上绝对值则 表示相应的个数,如|Ai|表示第i个属性的取值个数, |cj|表示第j类样例个数。 Ω={A1×A2×...×Am},是由所有未知类别的可能 样本组成的集合; Ωc={A1×A2×...×Am×C}是由所有 是训练样例集合。 已知类别的样本组成的集合。D Ωc Ω中的元素x表示为x = <a1,a2 ,…,am>。 Ωc中的 元素x表示为x = <a1,a2 ,…,am,cj>。其中ai表示第i个 属性的某个取值。
P(cj|x )被称为C的后验概率(posterior
probability),因为它反映了在看到数据样本x后cj 成立的置信度
贝叶斯分类
我们现在计算
P(cMAP|x) = max P(cj|x) 则P(cMAP|x)称为最大后验概率 j∈(1,|C|)
然后我们就把x分到cMAP类中
朴素贝叶斯分类器一
High Normal
Wind
Weak Strong
PlayTennis
2 3
4 0
3 2
2 2
4 2
3 1
3 4
6 1
6 2
3 3
Yes No
9 5
表2 先验概率P(cj) 和条件概率P(ai|cj)
Outlook
Sunny 2/9 3/5 Overcast 4/9 0 Rain 3/9 2/5 Hot 2/9 2/5
3.如果对任意的j,zj不为0且不相等,则取zj最小者对应的类别作 为CNB。若zj最小者不唯一,则对这些最小值对应的j采用第二条规 则进行判别。
结果分析
朴素贝叶斯分类器的以下几个特点:
训练精度≈测试精度 意义明确,便于理解 时间复杂度低,可以应用大型数据库 易于实现增量
Temperature
Mild 4/9 2/5 Cool 3/9 1/5
Humidity
High 3/9 4/5 Normal 6/9 1/5
Wind
Weak 6/9 2/5 Strong 3/9 3/5
PlayTennis
Yes No
9/14 5/14
样例判别
现在假设有一个样例x x = {Sunny,Hot,High,Weak}
举例说明
目标概念PlayTennis的训练样例 Outlook Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temperatur Hot e Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild Humidity High High High High Normal Normal Normal High Normal Normal Normal High Normal High Wind Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong PlayTenni s No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No
max (P(Yes|x), P(No|x) ) = P(No|x) ,所以我们把x分类为No
概率为零
在大多数情况下,观察到的比例P(ai|cj) 是对其真实概率的一个良好估计,但当 |Ai=ai∧C=cj|很小时估计较差。特别是当 |Ai=ai∧C=cj|等于0时,P(ai|cj)也等于0,如 果将来的待估样例中,包含第i个属性的取值ai 时,此概率项会在分类器中占统治地位。
概率为零之m-估计
一般采用m-估计来解决这个问题。 m-估计定义如下:
nij mpi nj m
nij | Ai aik C c j |, n j | C c j |
pi是将要确定的概率P(ai|cj)的先验概率,而m是等 效样本大小的常量,它确定了对于观察到的数据如何衡 量pi的作用。在缺少其他信息是选择p的一种典型方法 是假定pi =1/|Ai|。也就是将nj个实际观察扩大,加上m 个按pi分布的虚拟样本。
P (c j )
| cj | | D|
P(ai | c j )
| Ai ai C c j | | C cj |
举例说明
目标概念PlayTennis的训练样例 Outlook Sunny Sunny Overcast Rain Rain Rain Overcast Sunny Sunny Rain Sunny Overcast Overcast Rain Temperatur Hot e Hot Hot Mild Cool Cool Cool Mild Cool Mild Mild Mild Hot Mild Humidity High High High High Normal Normal Normal High Normal Normal Normal High Normal High Wind Weak Strong Weak Weak Weak Strong Strong Weak Weak Weak Strong Strong Weak Strong PlayTenni s No No Yes Yes Yes No Yes No Yes Yes Yes Yes Yes No
朴素贝叶斯分类器三
CNB=argmax P(cj)
cj C
m P(a i | c j )
i 1
( 3)
其中CNB表示朴素贝叶斯分类器输出的目标值。注意在朴素贝 叶斯分类器中,须从训练数据中估计的不同P(ai|cj)项的数量只是 不同的属性值数量乘以不同目标值数量——这比要估计 P(a1,a2…am|cj)项所需的量小得多 概括地讲,朴素贝叶斯学习方法需要估计不同的P(cj)和 P(ai|cj)项,也就是它们在训练数据上的频率。然后使用公式(3)来 分类新实例。
概率为零之个数比较
在本次实现中我们采用的不是m-估计,而是下面一种简单的0个 数比较法。即下面的几条规则。在公式(3)中,对每一个类别j, 统计P(ai|cj)=0的个数,记为zj。然后按以下3条规则得到CNB。 1.如果对任意的j,zj都为0,则直接按公式(3)得到CNB
2.如果对任意的j,zj不为0且相等,则按公式(3)计算时只计 算P(ai|cj)为非零的项,然后得到CNB
先验概率P(cj)
P(cj)代表还没有训练数据前,cj拥有的初始概率。 P(cj)常被称为cj的先验概率(prior probability) ,它反 映了我们所拥有的关于cj是正确分类机会的背景知识, 它应该是独立于样本的。 如果没有这一先验知识,那么可以简单地将每 一候选类别赋予相同的先验概率。不过通常我们可 以用样例中属于cj的样例数|cj|比上总样例数|D|来
相关文档
最新文档