基于距离类中心最近分类器和朴素贝叶斯分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于距离类中心最近分类器和朴素贝叶斯分
类器的投票规则
刘志杰学号:mg0633026
(南京大学计算机与科学技术系南京市 210093)
Voting Principle Based on Nearest kernel classifier and Naive Bayesian classifier
Liu Zhijie
Abstract: This paper presented a voting principle based on multiple classifiers. This voting principle was based on the naïve Bayesian classification algorithm and a new method based on nearest to class kernel classifier that was proposed. The recognition ability of each classifier to each sample is not the same. A model of each classifier was obtained by the training on the train data, which acts as basis of the voting principle. After that, They were collected to make a decision according to the majority voting. The experiment shows that the presented voting principle achieves good performance for high recognition.
Key words: V oting principle; Multiple classifiers; Naive Bayesian classifier; Nearest kernel classifier
摘 要: 本文提出了一个基于多种分类器的投票规则。它基于一种新的距离类中心最近的分类算法和朴素贝叶斯分类算法。每种分类器对不同的模式的识别率不相同。每种分类器从训练集上训练所得的模型构成了投票规则的基础,最后的结论由相对多数投票决定。实验数据表明,该方法可以提高分类的准确率。
关键词: 投票规则;多分类器;朴素贝叶斯分类器;最近距离分类器
1 前言
分类技术有着非常广泛的应用,分类技术的核心是构造分类器,常见的分类器有决策树、神经网络、贝叶斯分类器等。但在使用过程中,单一的分类算法难以获得完全令人满意的性能,同时在分类中利用不同的分类器得到不同的分类结果,这些结果之间往往存在着很强的互补性[1][2]。因此通过把多个分类器的分类结果进行融合能有效的提高分类识别效果及增强识别系统的鲁棒性,因此目前多分类器融合方法得到了广泛的应用并成为了一个令人关注的热点[3]。
对分类器进行融合的简单方法就是进行投票表决,如多数票同意规则和完全一致规则等等。本文采用的分类器技术为朴素贝叶斯分类算法和最近距离分类算法。
在多种分类技术中,朴素贝叶斯分类器由于具有坚实的数学理论基础及综合先验信息和数据样本信息的能力,而且简单有效,所以得到了广泛的应用。但是,朴素贝叶斯分类器基于“独立性假设”前提,而现实世界中,这种独立性假设经常不满足,因此影响了朴素贝叶斯分类器的分类精确度。如果将属性间的依赖性考虑进来,放松独立性假设条件,就可以进一步扩展朴素贝叶斯分类器[4]。
本文提出了一种新的分类器算法,对于每一类,基于训练样本构造出类中心点的坐标。然后对每一个测试数据,求出它到每一类中心点的距离,其中距离最短的即为其分类,也即为测试样本到哪一类的中心最近,即属于那一类。
在本文中,第2部分介绍朴素贝叶斯分类算法在分类过程中的应用。第3部分介绍最近距离分类算法的应用。第4部分介绍在使用两种分类算法得出的结果之上进行处理并投票决定最后的分类结果。第5部分为
对分类算法进行10-折交叉验证法(10-fold cross-validation)评估得出的数据,表明此投票规则具有较好的分类精确度。第6部分对全文进行综述。
2 朴素贝叶斯分类算法
贝叶斯分类算法是数据挖掘中一项重要的分类技术,可与决策树和神经网络等分类算法相互媲美。从理论上来说,在所有的分类算法中,贝叶斯分类算法具有最小的出错率[6],因而在实际应用中有着广泛的应用前景。
2.1 朴素贝叶斯分类算法概述
朴素贝叶斯分类器基于贝叶斯公式中的先验概率和条件概率,它将事件的先验概率与后验概率结合起来,利用已知信息来确定新样本的后验概率。贝叶斯分类算法的目标就是求待分类样本数据在不同类中的最大后验概率,并将此样本数据归纳为具有最大后验概率的类。
2.2 分类过程中遇到的问题
2.2.1 贝叶斯概率为零的处理
在求解贝叶斯概率的过程中,有时候会遇到某一类贝叶斯概率为零的情形。在这种情况下,如果不进行调整的话,就会使最后的分类结果产生偏差。在解决的过程中采取的方法为:首先,如果某一个属性在每一类中都没有出现过,即全部为0,则将此属性所对应的概率置为1。这样此属性在求解分类概率过程中不起作用,也相当于对这个属性进行约简;其次,如果某一个属性在一部分类中没有出现,而其它类中出现过。在出现过的那部分类中不会发生此属性概率为0的情况,无需调整;而在没有出现过的这一部分类中就会出现此属性概率为0的情形,这时候就需要调整。调整方法为让每个属性至少出现一次,即如果有n个属性A1,A2,…,A n.则在求解概率过程中,分子个数加1,分母的个数加n[5]。
3 最近距离分类器
3.1 最近距离分类算法概述
最近距离分类算法是按如下方法进行分类的:
每个数据样本用一个n维特征向量X={x1,x2,…,x n}表示,分别描述对n个属性A1,A2,…,A n样本的n个度量。假定有m个类C1,C2,…,C m。
首先对于训练样本,求出每个类的中心点的位置l1,l2,…,l m。假设第i类C i中的样本数为s i个,这s i个样本的n个属性A1,A2,…,A n之和为N1,N2,…N n个。则第i类的中心点位置为:l i= {N1,N2,…N n}/s i。对于测试样本Y中每一个要测试的数据y i,求出它到每一类中心点的距离,若到第i类C i中的距离最小,那么就把y i,标识为第i类C i。
3.2 最近距离分类算法和K-近邻算法的区别
最近距离分类算法有点类似于k-近邻算法,都是基于距离的远近来对样本进行分类。但二种算法又有明显的区别:
3.2.1 比较距离的对象不同
最近距离分类算法是对训练样本求出每一类中心点的坐标,在内存中只保存类中心点坐标的数据。然后在测试时求出测试数据到每一类中心点的距离,距离最近的即为其分类。
k-近邻算法是一种懒散的算法。它不需要训练,将所有训练样本保存在内存中。对测试数据,求出它到每一个训练样本的距离,距离最近的样本的分类也即为其分类。
因此,在比较的对象上,k-近邻算法是要和所有的训练样本比较,而最近距离分类算法只和每一类中心点比较。