基于聚类离群因子和相互密度的离群点检测算法

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Vol. 25 No. 9Sep. 2 0 19

第25卷第9期2 0 19年9月

计算机集成制造系统

Computer Integrated Manufacturing Systems

D"I ：10. 13196/j. cims. 2019. 09. 018

基于聚类离群因子和相互密度的离群点检测算法

张忠平12,邱敬仰1,刘丛1,朱梦凡1,章德斌3

(1燕山大学信息科学与工程学院，河北秦皇岛066004；

2.燕山大学河北省计算机虚拟技术与系统集成重点实验室，河北秦皇岛066004；

3.河北省教育考试院，河北石家庄050000)

摘要：针对大多基于聚类的离群点检测算法往往需要人工输入参数，对于不同的数据集很难选择一个合适

参数的问题，将无参数的基于自然邻居的离群点检测算法的自然邻居搜索算法和密度峰值聚类算法相结合，提出

一种基于聚类离群因子和相互密度的离群点检测算法$该算法使用相互密度和1密度构造决策图，将1密度异常大的样本点作为聚类中心进行聚类，最后根据聚类的离群因子找出离群聚类边界检测离群点，该算法不需要人工

输入参数$在模拟数据集和真实数据集下进行了实验，证明了所提算法能很好地进行聚类和离群数据的挖掘$

关键词：离群点；数据挖掘；聚类离群因子；相互密度；1密度

中图分类号:TP311

文献标识码:A

Outlier detection based on cluster outlier factor and mutual density

ZHANGZhongping 1& , QlUJingyang 1 , LlUCong 1 , ZHUMengfan 1 , ZHANG Debin 5

(1. School of Information Science and Engineering , Yanshan University , Qinhuangdao 066004, China ；

2. The Key Laboratory for Computer Virtual Technology and System Integration of

HebeiProvince &Qinhuangdao066004&China ；

3'HebeiEducationExaminationsAuthority &Shijiazhuang050000&China )

Abstract ： Most outlier detection algorithms based on clustering often need to input parameters artificially, which was di f iculttoselectasuitableparameterfordi f erentdatasets.Tosolvethisproblem , anoutlierdetectionalgorithm

basedonclusteroutlierfactorand mutualdensitywasproposedbycombiningthenaturalneighborsearchalgorithm of NOF algorithm with DPC algorithm. The mutual density and 2 density was used to construct decision graph , and

thed5t5pointswithg5mm5-density5nom5louslyl5rgeindecisiongr5ph weretre5ted5sclustercenters.According totheClusterOutlierF5ctor (COF ),thebound5ryofoutlierclusterw5sdetectedtofindthep5r5meter5utom5tic5l-

ly.Theexperimentsshowedth5ttheproposed methodcould5chievegoodperform5nceinclustering5ndoutlierde-

tection.

Keywords :outlier ； data mining ； cluster outlier factor ； mutual density ； y density

1问题的提出

离群点检测作为数据挖掘中的一个重要分支,在

很多领域中得到应用，如信息安全）］*、金融欺诈检测⑵、医疗与公共卫生检测卩4、气象预测等5 $离群

点检测的核心思想是:首先在数据中创建一个正常模式,然后为每个点偏离这个正常模式的程度赋予一个

离群因子匚6*,其聚焦点在于发掘数据中偏离正常数据模式的数据点，进而挖掘出更加有价值的信息。

目前，国内外学者在离群点检测领域的研究十分

活跃，提出了很多优秀的算法,传统研究方法大致可以分为基于分布的、基于深度的、基于距离的、基于密

度的和基于聚类的5种⑴，近年也有新的检测算法提出，如将数据属性作为上文有关信息，给出一种基于

收稿日期：2018-01-22 ;修订日期：2018-06-19 $ Received 22 Jan. 2018 ；accepted 09 June 201 &

第9期张忠平等：基于聚类离群因子和相互密度的离群点检测算法2315

微粒群算法的上下文有关的离群数据挖掘算法。每种类型的离群点检测算法都有自身的优势和不足。

基于分布的算法中认为偏离正常分布或概率模型的点为离群点⑻，在已知数据集分布的情况下能够快速高效地挖掘出离群点。但是该算法不适用于高维数据集和数据集分布未知的情况；基于距离「9的勺方法认为如果数据集中有超过化方％个的数据对象距离目标点的距离大于dmin,则目标点被认为是离群点$基于距离的方法因其简单、高效而被广泛应用，但是该算法只能检测出全局离群点,无法检测出局部离群点;基于微粒群算法的上下文的离群数据挖掘算法)0*可以有效提高离群数据的可解释性$但是该算法随着数据规模变大,所包含的离群点个数可能增加，同时由于迭代次数不变，可能导致挖掘精度降低；基于密度「**勺勺方法很好地解决了上述方法的不足,如基于密度的局部离群因子检测(Loal Outlier Factor,LOF)「12*算法、使用不稳定因子的健壮离群点检测INS(INStability factor)算法、使用对称邻域关系排列异常值INFLO(INFLuenced Outlierness)算法)4*但是这些方法需要参数,离群点检测的准确性受到参数的限制$为解决该问题，提出了无参数的基于自然邻居的离群点检测(Ntual Outlier Factor, NOF)算法)5*该方法可以在不同的数据集下自适应获取自然邻居的数量虹从而确定怡邻域和反怡邻域,将怡邻域和反怡邻域的并集称作影响空间，将数据对象所处影响空间的可达密度的平均值和自身局部密度的比值定义为该点的自然离群因子NOF,根据NOF值的大小确定数据点的离群程度$

以上基密的法都将离群点作为离

常模式的单独的点进行处理，因此要扫描所有数据集，然后通过对离群因子排序来检测离群点$由此可见，对于很多正常点，基于密度的离群点检测算法要重复多次扫数据描集，但其离群因子值的计算是没有必要的$为解决基于密度的方法存在的问题,提出了基于聚类的方法)6*，该方法可以对原始数据集进行筛选，只计算那些处在聚类边界的数据的离群程度，文献)7］将偏离正常聚类的一个小簇作为离群聚类，文献)8］提出了基于累积全V的子空间离群点法SODCH(subspace outlier de

tection algorithm based on cumulative holoentropy for clustering),利用k-means对子空间进行聚类，根据累计全V检测离群点，大大提高了算法处理数据的粒度，该算法具有很高的效率，但是基于聚类的离群点检测方法通常需要引入新的参数$文献［19］针对^-means聚类算法存在的缺点，提出一种基于粒子群的<均值聚类算法，该算法有较好的全局收敛性，能有效克服传统的<-means算法易陷入局部最小值的问题。例如文献［20］提出的密度峰值聚类法DPC(Clustering byfastsearch andfind of Density Peaks)，该算法数据点的局部密度q和5密度构建如图1所示的决策图,5密度和局部密度Q 异常大的点作为聚类中心,聚类中心位于决策图的右上侧区域,然后根据数据点和密度大于自身的最近邻居属于同一聚类这个理念,对剩余的样本点进行聚类，从而实现一步完成聚类,该聚类算法效率很高，但是该方法面临两个问题：

(1)需要引入参数必(裁剪距离),R距离直接

数据象密该法的

数R的影响十分敏感,而且DPC算法很难获取合适的必参数$

(2)当决策欺诈(decision graph fraud)现象［17］出现时,根据决策图将5密度和局部密度奇异大的点确定为聚类的中心,可能产生错误的聚类中心。如图2所示为一个&形状的聚类,决策图如图1所示,图2中有两个2密度和局部密度奇异大的数据点,如果将这两个数据点作为聚类的中心进行聚类,则将原来的聚类分割为两个聚类,此时聚类的边界相互交织,聚类的边界密度就会很大,该算法就会将很多数据点当做离群点进行处理,因此决策欺诈会降低DPC算法的聚类和离群点检测准确性以及可靠性$

为解上法的问题文提出一基

聚类离群因子和相互密度的离群点检测(Cluster Outlier Factor,COF)算法，该算法不需要人工输入参数$首先,引入NOF

算法中相互邻居搜索的