不确定性数据的分类方法研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第19卷第4期重庆科技学院学报(自然科学版)2017年8月不确定性数据的分类方法研究综述
沈杰许高建杨阳李绍稳
(安徽农业大学信息与计算机学院,合肥230036)
摘要:传统的数据挖掘分类方法能够成功地应用于确定性数据分类,但却无法满足绝大多数领域中复杂的不确定性数据的分类需求,由此出现了一系列针对不确定性数据的分类方法。通过大量研究,目前经典的分类算法及针对不确定数据分类的改进方法得到了很大发展,如改进后的支持向量机算法、朴素贝叶斯算法、决策树算法等日渐成熟。
关键词:不确定性数据;分类;支持向量机;朴素贝叶斯;决策树
中图分类号:TP301 文献标识码:A文章编号=1673 -1980(2017)04 -0096 -04
面临海量的、复杂的不确定性数据,针对不确定 性数据的数据挖掘成为智能分析数据并获取知识的 重要手段,分类算法成为其主要的研究方向之一。2006年,第六届ffiEE数据挖掘国际会议(I C D M)评 选了最具影响的10个数据挖掘算法,其中分类算法 占据了 6 个:k - N N、Naive Bayes、C4. 5、C A R T、S V M、AdaB〇〇s t[1]。分类的任务就是通过分析来建 立区分对象的分类模型,即分类器。传统的分类算 法通常将精确数据作为研究背景,只考虑了精准数 据的输入和分类,因而不能直接应用于不确定性数 据分类,如支持向量机(S V M)、决策树、朴素贝叶斯 算法等。针对此现象,基于这些算法的原有经典模 式加以改进,加入不确定性数据分析,可使得不确定 知识数据挖掘技术更加成熟。
1不确定性数据
1.1不确定性数据的产生
数据的不确定性源于数据本身。数据不确定性 分以下几种情况:采集数据时出现缺省值、干扰值 等;在实验时受周围环境的影响而导致数据不确定; 在数据传输过程中的失真导致不确定性。
1.2不确定性数据的表示
不确定性一般可分为存在(元组级)不确定性 和值(属性级)不确定性[2]。其中,存在(元组级)不 确定性是指一个对象即有出现的可能性,也有不出 现的可能,如某天可能会下雨或者可能不会下雨;而值(属性级)不确定性是指这个对象取值的不确定 性。在高维空间中,确定性数据对象表现为某些具 体的点,而不确定数据对象的表现形式为满足某种 分布的一个范围。
2常见的不确定性数据分类方法
2.1支持向量机算法
Vapnik等人提出的传统支持向量机是一种基 于统计学理论、以结构风险最小化为原则的判别式 分类器[>5]。其基本思想是,在《维数据空间中寻 找一个超平面,可以极大化地将空间属于不同类别 的样本点分开,对于精确的小样本数据有很好的分 类效果。孙喜晨等人对不确定数据作了预处理,在 属性均值聚类(A M C)与支持向量机(S V M)的基础 上,提出基于(属性)聚类的属性支持向量机(A M C -A S V M)算法[6]。该算法对样本进行属性均值聚 类,然后将各个聚类中心及其属性作为新的样本点 来训练,进而得到分类器[7]。但该方法本质上是将 数据的不确定性转化为确定性来处理,对不确定性 考虑得不够充分。
Jianqiang Y a n g等人在S V M中引入多维高斯分 布模型来描述不确定数据的,提出U S V C、A U S V C 及M P S V C支持向量机分类算法[8]。U S V C的原始 问题通过引入约束得到,将机会约束的规划问题转 化为二次规划问题来求解。而A U S V C以及M P S V C 是由U S V C算法改进而来,即通过调整U S V C中的
收稿日期=2017 -03 -23
基金项目:国家自然科学基金项目“农业领域(茶学)云本体建模与方法研究”(31271615)作者简介:沈杰(1990 —),女,合肥人,在读硕士研究生,研究方向为人工智能和数据挖掘• 96 •
沈杰,等:不确定性数据的分类方法研究综述
机会约束的置信参数来减小不确定性对构造分类器 的负面影响。但该算法由于二次规划问题而导致计 算过程复杂、难以理解。
相对于区间的不确定,李文进等人提出了区间 不确定性超球支持向量机(I U H S V M)[9]。该方法的 基本思想是:将不确定数据表示为球体凸集区域,形 成区间,找到一个超平面使得各类球体区域之间的 间隔尽可能大,使其能正确划分。建立超球支持向 量机模型,将该模型转化为2层嵌套约束规划问题,使得其在寻找最优超平面的计算过程中,降低计算 难度。大量的实验结果表明,I U H S V M算法相比其 他算法有较强的多分类处理能力,其球体凸集模型 能较好地描述不确定性。
2.2贝叶斯分类算法
贝叶斯分类算法是基于贝叶斯定理的一种算法 统称。在统计资料的基础上,依据某些特征,计算各 个类别的概率,以后验条件概率来判断是否属于该 类,从而实现分类。朴素贝叶斯(Naive Bayes)法是 是基于贝叶斯定理和特征条件独立假设的分类方 法。对于给定的训练数据集,首先基于特征条件独 立假设学习输入/输出的联合分布概率;然后基于此 模型,对给定的输入x,再利用贝叶斯定理求出其后 验概率最大的输出;T[W]。
对不确定性数据进行贝叶斯分类时,会使用概 率分布函数来表示该不确定区域[11]。当数值型数 据属性是不确定的时候,称之为不确定性数值属性 (U N A)[12]。有3种扩展的贝叶斯方法可以解决不 确定性数据分类,分别是均值的方法、基于分布的方 法及基于公式的方法[13]。
均值的方法是最为简单直接的一种方法。用平 均值(期望)代替概率密度函数,从而使其变为点 值,实际上也是将不确定性数据转化为确定性数据,再使用原本的贝叶斯模型和核密度函数实现分类。这个方法最大的优势就是简单明了,不需要使用新 的不确定性数据分类算法。但其缺点也很明显:用 平均值代替区间同样对不确定性考虑得不够充分; 基于分布的方法重点在于对不确定性数据的类条件 分布进行估计,用概率密度函数来表示不确定数据,再将原本的核密度估计函数进行扩展,来进行不确 定性数据的分类。相对而言,基于分布的方法对不 确定性数据的处理更完善;而基于公式的方法是通 过这些不确定性数据来确定新的核密度估计公式,再利用这个核密度估计公式完成分类。该方法的 关键在于正确地生成核密度估计函数的公式,但 该方式仅仅适用于一些密度函数和概率分布函数的联合。
2.3决策树算法
决策树,是一种用某种策略筛选条件而建立起
来的树,利用递归的方式和分治的思想,自顶向下的
分类方法。决策树学习的目的是为了产生一颗范化
能力强,即处理未见示例能力强的决策树,其基本流
程遵循简单且直观的分而治之策略。
针对不确定性数据,目前有Dem pste和Shafe提 出的“证据理论”和经典决策树结合的D- S决策树
算法[14]。D-S决策树在不确定环境中(即目标所 在的类和属性的值是不确定的),通过证据理论决 策树分类模型中的置信度和似然函数来表达这个不 确定的值[1546]。在该算法中利用不确定测量函数 (称为D- S熵)来选择划分属性,用经典决策树方 法生成决策树。首先计算全集£»的不确定测量,假 设用£(£»)表示;然后求不确定区间的中心,即全集 的信任函数与全集的最大似然函数和的二分之一,假设用斤(£〇表示,最后求出的总不确定度测量函 数是两者之和,=£(£〇 +〜(£»)。若要选择 属性4作为划分属性,且有F个可能取值,则要计算 4属性的D - S熵,最终求出平均互信息量[14]。具 有最大互信息量的属性将作为划分属性。在该算法 中,主要运用了置信度和最大似然函数来表达不确 定性,建树的过程参考经典决策树。
D T U[W]&是一种利用决策树处理不确定性数 据的算法,主要是通过扩展传统的信息熵和信息增 益来建立不确定性的决策树分类模型,当元组的概 率密度函数(probability density function, PD F)所在的域跨越分裂点时,P D F通过分数元组技术将元组 分裂到子集中[18_19]。
3不确定性数据的组合分类算法
上述几种分类算法最终形成的分类器也只是单
一的分类器,每一种分类器都有各自适用的场合。
在实际应用中,单一的分类器很难使其具有稳定性。
组合分类器可通过参考多个分类信息来提高分类精
度,优化单一分类器的稳定性。
3.1基于期望值的A U G算法
A U G(Average)算法处理不确定性问题的一般 思路是,将不确定性输入转化为确定性的输入。在 高维空间中,不确定性表现为集中的一团数据。在 这一团数据中有一个期望值,那么取这个期望值作 为新的样本,如此问题可转化为确定性分类,继而直 接使用传统的分类算法即可。但该算法的严重缺点 在于,损失了大量的不确定信息,使得其分类结果不
• 97 •