基于代价敏感的朴素贝叶斯不平衡数据分类研究_蒋盛益 (1)

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期：２０１０－１２－１０基金项目：国家自然科学基金项目（６０６７３１９１，６１０７００６１）；广东省自然科学基金项目（９１５１０２６００５０００００２）
３８８
计算机研究与发展２０１１，４８（增刊）
Ｔｉｎｇ在文献［１］中通过样本加权方法构造代价敏感决策树，该算法在两类不平衡数据中效果显著，但在多类不平衡数据中效果不及Ｄｏｍｉｎｇｏｓ在文献［２］中提出了一种ＭｅｔａＣｏｓｔ方法，ＭｅｔａＣｏｓｔ方法是一种将一般分类模型转换成为代价敏感模型的一般方法，通过一个 “元学习 ”过程，根据最小期望代价修改训练样本的类标记，并使用基于错误率的分类器学习在修改过的训练集上重新学习新的模型．文献［３］提出了使误分代价和测试代价最小化的测试代价敏感贝叶斯算法．ＡｄａＣｏｓｔ算法是［４］ＡｄａＢｏｏｓｔ算法的一个变体，保持了ＡｄａＢｏｏｓｔ算法的核心理论，并在其中加入新的成份以使其成为高效的低误分类代价敏感分类算法，使用ＡｄａＣｏｓｔ算法进行模型训练的关键是如何合理给出训练实例的误分类代价因子．杨强等研究了代价敏感机制与决策树及贝叶斯分类器的结合以及代价敏感分类时的数据预处理问题．［５－７］
类ｃｉ所占比例，ｘｊ为类别ｃｊ所占比例．
蒋盛益等：基于代价敏感的朴素贝叶斯不平衡数据分类研究
２朴素贝叶斯分类算法描述
朴素贝叶斯算法基于各属性之间相互独立以及连续属性的条件概率服从正态分布２个假设．假设Ｄ是由一组已分类的实例构成的集合（称Ｄ为训练集），Ｄ中的每个实例用一个（ｍ＋１）维特征向量（Ａ１，Ａ２，…，Ａｍ，Ｃ）来描述ｍ个属性的值和类变量值，其中Ａｉ为属性变量（ｉ＝１，２，…，ｍ），Ｃ为类变量，其所有可能的取值为ｃ１，ｃ２，…，ｃｌ．对于Ａ１，Ａ２， …，Ａｍ的任意一组赋值ａ１，ａ２，…，ａｍ和Ｃ的任意取值ｃｊ，在条件独立性假设下有：
结果对应的类中的记录．
３基于代价敏感的朴素贝叶斯分类算法
３．１代价函数的构造
所谓的代价有２种，就是把多数类误分为少数
类的代价和把少数类误分为多数类的代价．传统的
分类算法中默认了２种不同情况下的代价是相等
的，但在实际应用中很多情况下两者的代价是不同
的．把少数类误分为多数类的代价通常高于把多数
类误分为少数类的代价．本文基于数据分布提出一
种构造代价函数的策略，首先基于整个数据集计算
出每个类所占比例，构造的代价函数以每个类所占
感理论的应用，只有将代价敏感理论同具体的应用领域有效结合才可以有效解决实际问题．代价敏感分类就是为不同类型的错误分配不同的代价，注重在分类时尽量避免产生高代价的错误，以达到分类时产生的错误总代价最低的目标．这种思想更加符合现实中的分类问题，在入侵检测、欺诈检测、医疗诊断等众多领域有广泛的应用前景．近年来，一些代价敏感算法被提出用于解决不平衡数据分类问题．
计算机研究与发展ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ
ＩＳＳＮ１０００－１２３９?ＣＮ１１－１７７７?ＴＰ４８（Ｓｕｐｐｌ．）：３８７－３９０，２０１１
基于代价敏感的朴素贝叶斯不平衡数据分类研究
Байду номын сангаас
蒋盛益１谢照青１余雯２
ＪｉａｎｇＳｈｅｎｇｙｉ１，ＸｉｅＺｈａｏｑｉｎｇ１，ａｎｄＹｕＷｅｎ２
１（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｃｓ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＦｏｒｅｉｇｎＳｔｕｄｉｅｓ，Ｇｕａｎｇｚｈｏｕ５１０００６）２（ＳｃｈｏｏｌｏｆＭａｎａｇｅｍｅｎｔ，ＧｕａｎｇｄｏｎｇＵｎｉｖｅｒｓｉｔｙｏｆＦｏｒｅｉｇｎＳｔｕｄｉｅｓ，Ｇｕａｎｇｚｈｏｕ５１０００６）
ＡｂｓｔｒａｃｔＴｈｅｉｄｅａｏｆｃｏｓｔｓｅｎｓｉｔｉｖｅｍｅｔｈｏｄｃｏｕｌｄｂｅｃｏｍｂｉｎｅｄｗｉｔｈｔｒａｄｉｔｉｏｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｔｏｓｏｌｖｅｔｈｅｉｍｂａｌａｎｃｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｓｉｎｃｅｔｒａｄｉｔｉｏｎａｌｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｄｏｅｓｎｏｔｐｅｒｆｏｒｍｖｅｒｙｗｅｌｌｆｏｒｉｍｂａｌａｎｃｅｄｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎ．Ｏｎｔｈｅｏｔｈｅｒｈａｎｄ，ｉｎｔｈｅｃｏｓｔ－ｓｅｎｓｉｔｉｖｅｌｅａｒｎｉｎｇ，ｃｏｓｔｖａｌｕｅｄｅｔｅｒｍｉｎａｔｉｏｎｎｅｅｄｓｅｎｏｕｇｈｐｒｉｏｒｋｎｏｗｌｅｄｇｅａｎｄｉｔｉｓｈａｒｄｔｏｄｅｆｉｎｅｉｎａｄｖａｎｃｅ．Ｔｏｒｅｍｅｄｙｔｈｅｄｒａｗｂａｃｋｓｍｅｎｔｉｏｎｅｄａｂｏｖｅ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｉｍｐｒｏｖｅｄＮａｉｖｅＢａｙｅｓａｌｇｏｒｉｔｈｍｂｙｃｏｎｓｔｒｕｃｔｉｎｇａｃｏｓｔｆｕｎｃｔｉｏｎｗｈｉｃｈｃｏｕｌｄｂｅａｄａｐｔｉｖｅｔｏｉｍｂａｌａｎｃｅｄｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎａｎｄｉｎｔｒｏｄｕｃｉｎｇａｇｌｏｂａｌｃｏｓｔｍａｔｒｉｘ．ＴｈｅｅｘｐｅｒｉｍｅｎｔｓｃａｒｒｉｅｄｏｎｂｅｎｃｈｍａｒｋｄａｔａｓｅｔｓｆｒｏｍｔｈｅＵＣＩｍａｃｈｉｎｅｌｅａｒｎｉｎｇｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｐｅｒｆｏｒｍａｎｃｅｏｆｏｕｒａｌｇｏｒｉｔｈｍｉｓｅｆｆｅｃｔｉｖｅａｎｄｐｒａｃｔｉｃａｂｌｅｆｏｒｉｍｂａｌａｎｃｅｄｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎ．
比例为自变量，通过设定参数的值将两种代价之间
的差值体现出来．基于这个策略构造的代价函数如
式（５）所示：
（）烄ｘｉｘｊ
β
，ｘｉ＞ｘｊ；
（）Ｆ（ｃｉ，ｃｊ）＝
烅
ｘｊｘｉ
α
，ｘｉ＜ｘｊ；
（５）
１，ｘｉ＝ｘｊ；
烆０，ｉ＝ｊ．
其中Ｆ（ｃｉ，ｃｊ）为类别ｃｉ误分为类别ｃｊ的代价，ｘｉ为
Ｋｅｙｗｏｒｄｓｃｏｓｔ－ｓｅｎｓｉｔｉｖｅ；ｎａｉｖｅｂａｙｅｓ；ｉｍｂａｌａｎｃｅｄｄａｔａｃｌａｓｓｉｆｉｃａｔｉｏｎ
摘要传统数据挖掘分类算法在不平衡数据集上分类效果不佳，可以将代价敏感思想与传统分类算法相结合解决不平衡数据分类问题．但在代价敏感学习中，代价的确定需要足够的先验知识，难以把握．针对上述不足，构造针对不平衡数据分布的自适应代价函数，引进全局代价矩阵，对传统的朴素贝叶斯分类算法进行改进．在ＵＣＩ数据集上的实验结果表明，提出的基于代价敏感的朴素贝叶斯分类算法对于不平衡数据分类是有效可行的．
验概率Ｐ（ｃｉ｜ｕ），ｉ＝１，２，３，…，ｌ．其中Ｐ（ｃｉ｜ｕ）可以用贝叶斯公式来计算：
Ｐ（ｃｉ｜ｕ）＝Ｐ（ｕ｜Ｐｃ（ｉｕ）Ｐ）（ｃｉ）＝
Ｐ（ｕ｜ｃｉ）Ｐ（ｃｉ），
ｌ
∑Ｐ（ｕ｜ｃｉ）Ｐ（ｃｉ）
ｉ＝１
ｉ＝１，２，… ，ｌ．
（２）
在使用０～１损失函数的情况下，为使分类误差
１（广东外语外贸大学信息学院广州５１０００６）２（广东外语外贸大学国际工商管理学院广州５１０００６）
（ｊｉａｎｇｓｈｅｎｇｙｉ＠１６３．ｃｏｍ）
ＮａｉｖｅＢａｙｅｓＣｌａｓｓｉｆｉｃａｔｉｏｎＡｌｇｏｒｉｔｈｍＢａｓｅｄｏｎＣｏｓｔＳｅｎｓｉｔｉｖｅｆｏｒＩｍｂａｌａｎｃｅｄＤａｔａＤｉｓｔｒｉｂｕｔｉｏｎ
关键词代价敏感；朴素贝叶斯；不平衡数据分类
中图法分类号ＴＰ３０９
目前的分类算法大多强调分类的准确率，并且基于所有错误分类的代价都相同的假设，但在很多实际应用中，不同类型的分类错误往往对应不同的代价．当样本的误分类代价不相等时，基于精度的传统分类算法通常不能直接使用．自１９９７年Ｃｏｌｕｍｂｉａ大学的Ｌｅｅ等人提出代价敏感理论以来，经过１０余年的发展，代价敏感理论已经被成功应用于多个领域中．数据的代价敏感性问题的解决依赖于代价敏
ｍ
∏ Ｐ（ａ１，ａ２，…，ａｍ｜ｃｊ）＝Ｐ（ａｉ｜ｃｊ）．（１）ｉ＝１
对于所给的未分类实例ｕ＝（ｕ１，ｕ２，…ｕｍ），使
用朴素贝叶斯分类方法将ｕ进行分类的过程可以描
述如下：首先根据训练集Ｄ和式（１）计算条件概率
密度Ｐ（ｕ｜ｃｉ）和类别先验概率Ｐ（ｃｉ），然后求类别后
最小化，ｕ的类别ｃ确定为：
ｃ＝ａｒｇｍａｘ｛Ｐ（ｃｉ｜ｕ）｝．１≤ｉ≤ｌ
（３）
ｌ
∑ 由于Ｐ（ｕ）＝Ｐ（ｕ｜ｃｉ）Ｐ（ｃｉ）对于每个ｉ来ｉ＝１
说为常数，利用表达式（２），式（３），得：
ｃ＝ａｒｇｍａｘ｛Ｐ（ｕ｜ｃｉ）Ｐ（ｃｉ）｝．１≤ｉ≤ｌ
（４）
由此可以将相应的记录判别为表达式（４）所求
代价敏感学习能［８］有效地提高稀有类的识别率，可用于不平衡类的分类，但仍存在以下局限：１）在实际应用中，每个类的错误分类代价应该是不同的，但这需要先验知识，这使得真实的错分代价很难被准确地估计；２）虽然许多分类器可以直接引入代价敏感学习机制，如支持向量机和决策树，但也有一些分类器不能直接使用代价敏感学习，只能通过调整正负样本比例或者决策阈值间接地实现代价敏感学习，这样不能保证代价敏感学习的效果．因此，在缺少领域知识的情况下，如何将代价敏感学习策略与不平衡数据特性有效结合仍是一个需要深入研究的问题．针对目前稀有类分类算法中代价函数难以根据具体数据分布自适应确定的问题，本文算法通过构造自适应数据分布的代价函数，引进全局代价矩阵，对朴素贝叶斯分类进行了改进．