贝叶斯分类器介绍

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最常提及的贝叶斯分类算法介绍：

1. 朴素贝叶斯分类器（Naive Bayesian NB ）：

朴素贝叶斯分类器是使用最广泛的贝叶斯分类器，它结构简单，忽略了分类属相之间的影响，将每个分类属性独立于其分类属性，这是一种不切合事实但又相对有效的假设，在这假设下，我们几乎不需要构造模型，因为模型架构是固定的，只需要在训练集中获得相对较少的信息，因此所需的存储空间也不大。正是由于NB 结构上的这些特点，导致它的复杂度要低于其他贝叶斯分类算法，并且在某些数据集上表现的分类性能要超过其他更复杂精细的贝叶斯分类器。但是总体来看，其优势范围分布在较小的数据集。NB 结构如下图所示。

后验概率计算公式：

P (C =c|x 0,x 1,⋯,x n−1)∝P (C=c)∏P(x i |C =c)n−1i=0

预测结果为：

c 预测=argmax(P (C =c|x 0,x 1,⋯,x n−1))

X 1 X 2 X 3

X 0

2.树扩展朴树贝叶斯（Tree-augmented Naïve Bayes TAN）:

TAN是在NB的基础上，破坏了条件独立性假设（属性间相互独立的假设），提出的。在TAN结构中，除了根节点（默认X0，谁作为根节点都一样），其他每个分类属性都有两个父节点，类是所有分类属性的父节点，根节点只有一个父节点。它的构造过程就是根据分类属性间关系强弱构造一个最优树型结构的过程，其中属性间的关系强弱用条件互信息衡量。可简单描述如下（红色条件互信息表示最大的，红色属性表示已加入贝叶斯网络中的）：

TAN是目前效果很好的一阶依赖贝叶斯分类器，它在大部分数据集上效果要好于NB，但是其结构比较固定，不易扩展，这里的扩展指的是依赖复杂度。总所周知，随着数据的完善，依赖关系越多效果越好，而TAN的固定一阶结构就限制了自身。

3.K阶依赖贝叶斯分类器（k-dependence Bayesian Classifier KDB）：

KDB提出了一种灵活的贝叶斯构建规则，它不局限于任何依赖复杂度，通过设定K值，是可以构造0到满阶所有情况的。它完美的补充了NB和TAN。其构造规则是：根据每个属性与类c的关系强弱，降序排列；每个属性只能在高于它的分类属性中寻找最多K个关系最强的分类属性作为父节点；c是所有分类属性的公共父节点，不算入K。

KDB只能说是弥补了NB和TAN但是无法替代，因为K=0就是NB，K=1分类效果是不如TAN的。其结构如下图所示(顺序：X0，X1，X2):

4.平均一阶估计器（Averaged One-Dependence Estimators AODE）：

AODE以NB为基础构建的，每次选取NB中的一个分类属性作为公共父节点，构造出一个SPODE模型，以此类推N个分类属性就有N 歌SPODE模型，然后分别计算后验概率，最后将后验概率加和平均，即最终预测结果。其中一个SPODE模型如下图所示：

X1X2X3