朴素贝叶斯分类器
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
P(x1,x2,x3, „,xm ∣c)值的数量等于可能实例的数量乘以可能
类的数量。
因此,为获得合理的估计,实例空间中每个实例必须出现多次,这要求
训练实例集非常大。为此,提出了相互条件独立的朴素贝叶斯分类器。
一、朴素贝叶斯分类器理论和计算过程
朴素贝叶斯分类器在贝叶斯分类器中结构最简单,它是包含 一个根节点、多个叶节点的树状贝叶斯网,其结构如下图所示。 其中叶节点A1,A2,...,An是属性变量,描述待分类对象的属性; 根节点C是类别变量,描述对象的类别。
互独立的情况下提出来的,这在现实生活中是很难实现的,所以
针对这个问题人们做了大量的工作来解决这一缺点。 (1)如果特征属性之间是有联系的,并且是一个有向无环图, 可以采用另一个相关的贝叶斯分类算法—贝叶斯网络。 (2)除了贝叶斯网络,人们还提出了半朴素贝叶斯算法,该
算法就是将特征相关的属性划分为一组,然后假设不同组中的属
一、朴素贝叶斯分类器理论和计算过程
朴素贝叶斯分类器假定:在给定类标记时属性值之间是 相互条件独立的。也就是说,在给定实例的情况下,观察到 的联合概率正好是每个属性值概率的乘积。具体的数学表达 式如下:
P( x1, x 2, x3,, xm | c) P( xj | c)
j 1
m
将其代入上个式子,可以得到朴素贝叶斯分类器的分类 公式:
壮性比较好。 分类法一样,许多神经网络和曲线拟合算法输出的最大的后验假定。 那么“朴素贝叶斯分类法的效率如何呢?” 实际使用中,我们有可能遇见两个问题: 该分类法与决策树和神经网络分类法的各种比较试验表明, ( 1)朴素贝叶斯分类项的特征属性都是离散值,如果是连续值 在某些领域,朴素贝叶斯分类法足以与它们媲美。理论上讲, 该怎么进行特征属性划分?如果 P(aj|yi)=0怎么办?
总结
朴素贝叶斯算法的优点: 然而,实践中并非总是如此,这是因为对其使用的假定(如类 条件独立性)的不正确性,以及缺乏可用的概率数据造成的。 a.算法逻辑简单,易于实现; b.分类过程中空开销小; 贝叶斯分类法还可以用来为不直接使用贝叶斯定理的其它分类
法提供理论判定。例如,在某些假定下,可以证明:与朴素贝叶斯 c.算法稳定,对于不同的数据特点其分类性能差别不大,健
P(Ci | X ) P(Cj | X ),1 i, j m, i j
P(Ci | X ) P( X | Ci ) P(Ci ) P( X )
根据贝叶斯定理
,最大化P(Ci | X ) 即可进行分类。其中
P(Ci | X ) 最大的类Ci称为最大后验假定。
(3)其中P(X)代表属性集A1,A2,A3,„,AN取值为x1,x2,x3,„,xn时的联合概率,为一
yi
,σ
yi)。所以只要计算出训练样本中
在各个类别中该特征项划分的各个均值和标准差,代入公式即
对于P(ak|yi)=0的情况可以引入拉普拉斯校准,对每类别下 所有划分的计数加一,这样如果训练样本集数量充分大时,并 不会对结果产生影响,并且解决了上述频率为0的情况
扩展
针对第二个问题:朴素贝叶斯算法是在假定各个特征属性相
Baidu Nhomakorabea
一、朴素贝叶斯分类器理论和计算过程
P( X | Ci )
P( x
k 1
m
k
| Ci )
概率P(x1|Ci), P(x1|Ci),„, P(x1|Ci)可以由训练样本估值,其中: (a)如果Ak是离散属性,P(xk|Ci)=N(Ak=xk,C=Ci)/N( C=Ci )。其中 N(C=Ci)是样本集中属于类Ci的样本个数。N( Ak=xk,C=Ci )是样本集中属于类型Ci 且属性Ak取值为xk的样本个数。
C ( x) arg max P(c) P( xj | c)
j 1
m
一、朴素贝叶斯分类器理论和计算过程
贝叶斯算法处理流程
一、朴素贝叶斯分类器理论和计算过程
具体的计算过程:
(1)每个数据样本用一个n维特征向量X(x1,x2,x3,„,xn)表示,分别描述对n个 属性A1,A2,A3,„,AN样本的N个度量。 (2)假定有m个类C1,C2,C3,„,C4,给定一个未知的数据样本X(x1,x2,x3,„,xn) (即没有类标号),朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当
与其他所有分类算法相比,朴素贝叶斯分类算法最有最小的错 (2)如果特征属性之间是有关联的,而不是相互独立的该怎么
误率。 解决?
扩展
针对第一个问题:特征属性是连续值的时候,通常假定其值 是服从高斯分布的,即:
g ( x, , ) 1 e 2
( x )2 2 2
而P(ak|yi)=g(ak,η 可得到其估计值。
常数。类的先验概率可以用P( Ci )= si/s计算,其中si是类Ci中训练样本数,而s 是训练样本总数。 (4)给定具有许多属性的数据集,计算P(X|Ci)即P(A1=x1,„,An=xn|Ci)的开销 可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定样本 的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样有:
显然,我们的任务就是要预测此新实例的类属性Buy computer 的取值(yes或no)。为此,我们构建如上图所示的朴素贝叶斯网络分 类器。图中的类结点C表示类属性Buy computer ,其他4个结点A1, A2,A3,A4分别代表4个属性age, income, student和credit rating, 类结C是所有属性结点的父亲结点,属性结点和属性结点之间没有 任何的依赖关系。
朴素贝叶斯分类器
学院:汽车学院 专业:车辆工程 姓名: 李振江
主要内容
朴素贝叶斯分类器理论和计算过程 具体实例
一、朴素贝叶斯分类器理论和计算过程
应用MAP假设分类新实例x的目标是在给定描述实例的属性值 X{x1,x2,x3, „,xm}的情况下,得到最可能的类标记c(i)。应用公式得到:
C(i) arg max P( x1, x2, x3, ,xm / c) P(c)
性是相互独立的,同一组中的属性是相互关联的。 (3)还有一中具有树结构的TAN分类器,它放松了朴素贝叶
斯中的独立性假设条件,允许每个属性结点最多可以依赖一个非
类结点。TAN具有较好的综合性能,算是一种受限性的贝叶斯网 络算法。
其P(X|Ci)P(Ci)最大的类Ci。
二、具体实例
根据顾客的基本情况来判断其是否会买电脑。给定下表所示 的14个训练实例,其中每一个顾客用属性age, income, student和 credit rating来描述,类属性为buy computer 现有一测试实例x:<age<=30, income=medium, student=yes, credit rating=fair>,问这一顾客是否会买电脑。
(b)若Ak是连续值属性,常用的处理方法有两种:一种是对其离散化,然后按
着离散值处理;另一种就是假定这一属性服从某一分布,常假定服从正态分布。 (5〕对末知样本X分类的时候,对每个类Ci.计算P(X|Ci)P(Ci)。样本X被指派到类
Ci当且仅当P(X|Ci)P(Ci)>P(X|Ci)P(Ci),1 ≤ j ≤ m,j ≠ i。换言之,X被指派到
二、具体实例
根据公式有
为计算C(x),需要从14个训练实例中估计出概率:P(yes), P(<=30|yes),P(medium|yes), P(yes|yes), P(fair|yes), P(no), P(<=30|no), P(medium|no), P(yes|no), P(fair|no)。
具体的计算过程如下:
二、具体实例
使用以上概率,我们可以得到
P(yes)P(<=30|yes)P(medium|yes)P(yes|yes)P(fair|yes)=0.028
P(no)P(<=30|no)P(medium|no)P(yes|no)P(fair|no)=0.007
可见,朴素贝叶斯分类器将此实例分类为yes。将上述概率 归一化,可得到朴素贝叶斯分类器分类此实例为yes的概率是 0.028/(0.028+0.007)=0.8。
现在要做的就是基于训练实例集估计式中的两个概率值。估 计每个P(c)值很容易,只要计算每个类标记c出现在训练实例集 中的频率就可以。然而,估计每个P(x1,x2,x3, „,xm ∣c)值不 太可行,原因在于:①完整估计P(x1,x2,x3, „,xm ∣c)值的时间 复杂度相当于学习一个贝叶斯网络,是一个NP-难问题。②这些