一种基于密度的离群点检测方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第 33卷 第 1期 2018年 3月
西 南 科 技 大 学 学 报 JournalofSouthwestUniversityofScienceandTechnology
Vol.33No.1 Mar.2018
一种基于密度的离群点检测方法
王向阳
(陕西学前师范学院 陕西西安 710160)
源自文库
离群点可理解为远离其他数据点或不服从基于 多数样本 数 据 建 立 的 统 计 模 型 的 数 据[1]。 尽 管 离 群点在样本数据集中所占比例通常很小,但在某些 领域内离群点检测工作却发挥着重要作用。例如在 网络安全领域,异常的网络行为数据可能意味着网 络入侵事件的发生。在电力行业,异常的用电行为 数据可能意味着窃电现象或电力故障的发生。
收稿日期:2017-10-20 作者简介:王向阳,男,工程师,研究方向为计算机应用,Email:wxy022@163.com
76
西 南 科 技 大 学 学 报 第 33卷
群因子来解决离群点的密度与邻近点密度接近的情 况[9]。Liu等 利 [10] 用核 K均值方法和核离群因子 来计算每个样本数据认定为正例或负例样本的可能 性,并基于支持向量数据描述来构建分类模型。Mi ao等[11]采用核局部离群因子来解决邻居点分布不 均匀的情况。
A DensitybasedOutlierDetectionMethod
WANGXiangyang
(ShaanxiXueqianNormalUniversity,Xi'an710160,Shaanxi,China)
Abstract:Outlierdetectionmethodsbasedonthedifferencebetweenthelocaldensityofsamplepoints havedifficultydealingwiththecasethatoutliersgettogether.Theproposedmethodwasfirstappliedin theDBSCANalgorithmforglobaloutlierdetection,andthentheboundarysamplepointsclusteredintothe wrongclusterwereidentifiedbythelocaloutlierfactor.Atlast,otherlocaloutlierpointswithintheneigh borhoodoftheboundarypointswererecognizedbymeasuringthedistanceandlocaldensity.Experimental resultsshowthattheproposedmethodisfeasibleandeffective. Keywords:Outlierpoint;Localdensity;Localoutlierfactor;Boundarysamplepoint
局部离群点[2-4]。例如 Alex等在其提出的方法中 假定离群点必须满足局部密度小、与高局部密度数 据点的距离很远[5]。针对大规模的数据集而言,离 群点检测的工作量大,时间效率低。对此,苟杰等先 将数据集分割为互有重叠的子集,在子集中寻找 K 近邻并计 算 离 群 度,最 后 合 并 结 果 并 遴 选 出 离 群 点[6]。姜开元等通过 R2TREE的结构来提高数据 检索效率,并借鉴 LOF方法通过计算数据对象落在 不同区域的概率来发现离群点[7]。针对高密度、多 义性数据集,钱景辉将数据拆分成多示例包形式,运 用退化策略及权重调整,计算离群点因子来判别离 群点[8]。离群 点 的 密 度 会 受 邻 域 划 分 程 度 及 样 本 数据集稀疏性的影响,对此,王茜等鉴于近邻中不同 的邻近程度发挥的作用不同,采用了基于链接的离
摘要:基于局部密度的差异来发现离群点的检测方法很难处理离群点聚集在一起的情况,提出一种基于密度的离群 点检测方法,该方法先采用 DBSCAN聚类算法检测出全局离群点,然后借鉴局部离群因子的评估策略来确定大类 簇边界区域内的“错聚”样本点,进而从“错聚”样本点的邻居点中依据距离和局部密度识别出其他局部离群点。实 验结果表明该方法具有一定的可行性和有效性。 关键词:离群点 局部密度 局部离群因子 边界样本点 中图分类号:TP391 文献标志码:A 文章编号:1671-8755(2018)01-0075-04
目前基于密度的离群点检测方法比较流行,该 方法的基本思想是从样本点所在空间的密度差异性 来发现离群点。离群点从分布情况可分为全局和局 部两类离群点。局部离群点相对全局离群点而言, 更容易被 聚 类 到 某 个 类 簇 中,因 此 识 别 难 度 较 大。 针对局部离群点,研究者们基于离群点局部密度会 低于其邻居点局部密度的假设,采用了诸如局部离 群因子(localoutlierfactor,LOF)等评估策略来发现
由上述研究工作可见,检测局部离群点时需明 确样本点的邻域,并考虑邻域内近邻点的分布情况 及近邻点对目标样本点的影响。由于离群点并不一 定是孤立的点,可能会与其同类的若干样本点紧密 地聚集在其他类别样本的边缘地带,在该情况下将 很难根据样本点与其邻近点的局部密度差异来发现 离群点。在基于密度的聚类方法中,类簇间的边界 地带是样本容易发生错误聚类的区域,显然从边界 样本点出发寻找局部离群点会在一定程度上降低工 作量。本文提出的方法首先利用有噪声的基于密度 的聚类 算 法 (DensityBasedSpatialClusteringofAp plicationswithNoise,DBSCAN)[12]分离出明显不能 划归到大类簇中的全局性离群点,然后根据小类簇 中样本点的 近 邻 关 系 (不 考 虑 样 本 点 所 属 类 簇 )和 对小类簇局部密度的影响程度,来确定大类簇中应 该划回小类簇的边界“错聚”样本点,最后以“错聚” 样本点为参考对象筛选掉与其相距很远且局部密度 高的邻居点,从而发现大类簇中“错聚”样本点邻域 内的其他局部离群点。
西 南 科 技 大 学 学 报 JournalofSouthwestUniversityofScienceandTechnology
Vol.33No.1 Mar.2018
一种基于密度的离群点检测方法
王向阳
(陕西学前师范学院 陕西西安 710160)
源自文库
离群点可理解为远离其他数据点或不服从基于 多数样本 数 据 建 立 的 统 计 模 型 的 数 据[1]。 尽 管 离 群点在样本数据集中所占比例通常很小,但在某些 领域内离群点检测工作却发挥着重要作用。例如在 网络安全领域,异常的网络行为数据可能意味着网 络入侵事件的发生。在电力行业,异常的用电行为 数据可能意味着窃电现象或电力故障的发生。
收稿日期:2017-10-20 作者简介:王向阳,男,工程师,研究方向为计算机应用,Email:wxy022@163.com
76
西 南 科 技 大 学 学 报 第 33卷
群因子来解决离群点的密度与邻近点密度接近的情 况[9]。Liu等 利 [10] 用核 K均值方法和核离群因子 来计算每个样本数据认定为正例或负例样本的可能 性,并基于支持向量数据描述来构建分类模型。Mi ao等[11]采用核局部离群因子来解决邻居点分布不 均匀的情况。
A DensitybasedOutlierDetectionMethod
WANGXiangyang
(ShaanxiXueqianNormalUniversity,Xi'an710160,Shaanxi,China)
Abstract:Outlierdetectionmethodsbasedonthedifferencebetweenthelocaldensityofsamplepoints havedifficultydealingwiththecasethatoutliersgettogether.Theproposedmethodwasfirstappliedin theDBSCANalgorithmforglobaloutlierdetection,andthentheboundarysamplepointsclusteredintothe wrongclusterwereidentifiedbythelocaloutlierfactor.Atlast,otherlocaloutlierpointswithintheneigh borhoodoftheboundarypointswererecognizedbymeasuringthedistanceandlocaldensity.Experimental resultsshowthattheproposedmethodisfeasibleandeffective. Keywords:Outlierpoint;Localdensity;Localoutlierfactor;Boundarysamplepoint
局部离群点[2-4]。例如 Alex等在其提出的方法中 假定离群点必须满足局部密度小、与高局部密度数 据点的距离很远[5]。针对大规模的数据集而言,离 群点检测的工作量大,时间效率低。对此,苟杰等先 将数据集分割为互有重叠的子集,在子集中寻找 K 近邻并计 算 离 群 度,最 后 合 并 结 果 并 遴 选 出 离 群 点[6]。姜开元等通过 R2TREE的结构来提高数据 检索效率,并借鉴 LOF方法通过计算数据对象落在 不同区域的概率来发现离群点[7]。针对高密度、多 义性数据集,钱景辉将数据拆分成多示例包形式,运 用退化策略及权重调整,计算离群点因子来判别离 群点[8]。离群 点 的 密 度 会 受 邻 域 划 分 程 度 及 样 本 数据集稀疏性的影响,对此,王茜等鉴于近邻中不同 的邻近程度发挥的作用不同,采用了基于链接的离
摘要:基于局部密度的差异来发现离群点的检测方法很难处理离群点聚集在一起的情况,提出一种基于密度的离群 点检测方法,该方法先采用 DBSCAN聚类算法检测出全局离群点,然后借鉴局部离群因子的评估策略来确定大类 簇边界区域内的“错聚”样本点,进而从“错聚”样本点的邻居点中依据距离和局部密度识别出其他局部离群点。实 验结果表明该方法具有一定的可行性和有效性。 关键词:离群点 局部密度 局部离群因子 边界样本点 中图分类号:TP391 文献标志码:A 文章编号:1671-8755(2018)01-0075-04
目前基于密度的离群点检测方法比较流行,该 方法的基本思想是从样本点所在空间的密度差异性 来发现离群点。离群点从分布情况可分为全局和局 部两类离群点。局部离群点相对全局离群点而言, 更容易被 聚 类 到 某 个 类 簇 中,因 此 识 别 难 度 较 大。 针对局部离群点,研究者们基于离群点局部密度会 低于其邻居点局部密度的假设,采用了诸如局部离 群因子(localoutlierfactor,LOF)等评估策略来发现
由上述研究工作可见,检测局部离群点时需明 确样本点的邻域,并考虑邻域内近邻点的分布情况 及近邻点对目标样本点的影响。由于离群点并不一 定是孤立的点,可能会与其同类的若干样本点紧密 地聚集在其他类别样本的边缘地带,在该情况下将 很难根据样本点与其邻近点的局部密度差异来发现 离群点。在基于密度的聚类方法中,类簇间的边界 地带是样本容易发生错误聚类的区域,显然从边界 样本点出发寻找局部离群点会在一定程度上降低工 作量。本文提出的方法首先利用有噪声的基于密度 的聚类 算 法 (DensityBasedSpatialClusteringofAp plicationswithNoise,DBSCAN)[12]分离出明显不能 划归到大类簇中的全局性离群点,然后根据小类簇 中样本点的 近 邻 关 系 (不 考 虑 样 本 点 所 属 类 簇 )和 对小类簇局部密度的影响程度,来确定大类簇中应 该划回小类簇的边界“错聚”样本点,最后以“错聚” 样本点为参考对象筛选掉与其相距很远且局部密度 高的邻居点,从而发现大类簇中“错聚”样本点邻域 内的其他局部离群点。