基于距离的离群点检测算法

合集下载

基于分化距离的离群点检测算法

刘欢，吴介军，苏锦旗
（西北工业大学自动化学院，西安７０７）１０２
摘要：为了满足大规模数据集快速离群点检测的需要，出了一种基于分化距离的离群点检测算法，提该算法综合考虑了数据对象周围的密度及数据对象间的距离等因素对离群点的影响，通过比较每一对象与其他对象的分化距离来计算其周围的友邻点密度，挖掘出数据集中隐含的离群点。实验表明，该算法能有效地识别离群点，
ＬＵＨａ．ｉｅｎ
（ｏｌｅｆＡｔｍｔｎＮｒｗｓｒｏｔｈｉｌｎｅｉ，ｉａ１０２，ｈｎ）Ｃｌｇｕｏａｉ，ｏｔｅｔｎＰｌｅｎｃｉｒｔＸ ’ｎ７０７ＣｉｅｏｏｈｅｙｃａＵｖｓｙａ
Ｏ引言
离群点是指明显偏离其他对象的数据点，以至于引起人们怀疑这是由不同的机制产生的。离群点检测是数据挖掘领域中的一项重要的挖掘技术。它是用来发现数据集中小部分异常对象，这些对象偏离了大多数数据的行为或数据模型。离群点检测能够发现隐藏在数据集中的更为有价值的知识。离群点检测广泛应用于网络入侵检测Ｊ电信、用卡诈骗、、信
ｄｉ１．９９ｊｉｎ１０ — ６５２１．９００ｏ：０３６／．ｓ．０１３９．０００．３ｓ
Ｄｉｆｒｎｉｔｏｉｔｎｅｂｓｄｏｔｉｒｅｅｔｎａｇｒｔｍｆｅｅｔｉｎｄｓａｃ — ａｅｕｌｅｓｄｔｃｉｌｏｉａｏｈ

实现离群点检测的机器学习算法

实现离群点检测的机器学习算法离群点检测（Outlier detection）是机器学习中的一项重要任务，旨在识别数据集中与其他数据点不太相似或异常的数据点。

离群点也被称为异常值，它们与正常的数据点存在明显的偏离或异常行为。

离群点检测的目标是从大量的数据中准确地识别这些异常值，以便进一步分析和采取相应的措施。

实现离群点检测的机器学习算法有多种，下面将介绍一些常用的方法：1. 统计学方法：这些方法利用统计学原理来识别离群点。

其中一个常用的方法是基于数据的标准差或均值的阈值判断。

如果数据点的值偏离均值或标准差超过一定的阈值，则将其标记为离群点。

这种方法简单易用，但对于复杂的数据分布可能不够准确。

2. 基于距离的方法：这些方法通过计算数据点与最近邻数据点之间的距离来判断是否为离群点。

其中一种常见的方法是K近邻算法，它通过计算每个数据点与其K个最近邻数据点的距离，并将距离较远的点标记为离群点。

还有一种方法是基于密度的离群点检测算法，如LOF（局部离群因子）算法，它衡量数据点周围的局部密度与其邻近数据点的局部密度之比，从而识别离群点。

3. 基于聚类的方法：这些方法将数据点分为不同的聚类，并将边界上的数据点标记为离群点。

其中一个常用的算法是DBSCAN（基于密度的聚类应用噪声）算法，它通过将数据点组织成高密度区域和低密度区域来判断离群点。

也有一些其他的聚类算法可用于离群点检测，如基于谱聚类、层次聚类等。

4. 基于深度学习的方法：近年来，深度学习在离群点检测中的应用日益增多。

深度学习模型可以自动从数据中学习特征，并且对非线性和高维数据具有较好的处理能力。

一些常用的深度学习模型，如自编码器（Autoencoder）和变分自编码器（Variational Autoencoder），可以用于离群点检测。

这些模型可以通过重构误差或潜在空间的分布来判断数据点的异常性。

总结而言，离群点检测是机器学习中的一项重要任务，可以通过多种算法实现。

基于距离的异常数据挖掘算法及其应用

基于距离的异常数据挖掘算法及其应用
距离是数据挖掘中常用的度量方法之一，基于距离的异常数据挖掘算法就是通过计算数据点之间的距离，来找出与其他数据点相比较远的“异常数据”。

常用的距离度量方法包括欧式距离、曼哈顿距离、切比雪夫距离等。

基于距离的异常数据挖掘算法主要包括离群点检测和集群检测两种。

其中，离群点检测算法主要是通过计算数据点与其他数据点之间的距离来得出异常程度，如基于密度的离群点检测算法LOF（Local Outlier Factor），它通过计算数据点周围的密度来判断该点是否为离群点。

集群检测算法则可以通过计算数据点与其他数据点之间的距离来将数据点按照相似性分组，如k-means聚类算法就是基于距离进行数据点分类的经典算法之一。

基于距离的异常数据挖掘算法在实际应用中具有广泛的应用价值。

例如，在工业生产的过程中，一些特殊的生产条件或基础设施的故障可能导致某些机器或设备工作异常或变得与预期不符，如果能够及时地检测并排除这些异常，就可以保障生产过程的正常进行，提高生产效率。

此外，在交通运输领域中，异常数据挖掘算法也可以帮助我们发现路段拥堵、交通事故等异常情况。

在金融领域中，异常数据挖掘算法可以帮助银行及时发现存在风险的交易行为，提高风险控制能力。

总之，基于距离的异常数据挖掘算法在现实中有着广泛的应用价值。

通过对数据点之间距离的计算，可以有效地发现异常数据，帮助我们及时发现问题并采取相应的措施。

随着数据挖掘技术的不断发展，基于距离的异常数据挖掘算法将进一步得到完善和优化，并在更多领域中得到应用。

lof算法公式

LOF（Local Outlier Factor）算法是一种用于检测局部离群点的算法。

它通过比较数据点与其邻居之间的距离来检测局部离群点，从而能够更准确地识别出真正的离群点。

下面是对LOF 算法公式的解释：
LOF算法的基本思想是通过比较数据点与其邻居之间的距离来确定其离群程度。

在算法中，首先需要定义一个邻居集合，通常使用最近邻（k-nearest neighbors，kNN）算法来确定邻居集合。

然后，对于每个数据点，计算其与邻居集合中所有数据点之间的距离，并使用这些距离来计算其局部离群因子。

具体来说，对于数据点x，LOF算法的公式可以表示为：LOF(x) = exp(-γ* min(kNN(x)))其中，kNN(x)是x在邻居集合中的最近邻点的数量，γ是一个控制算法鲁棒性的超参数。

通过调整γ的值，LOF算法可以适应不同的数据集和场景。

值得注意的是，LOF算法并不只是基于单个数据点的离群程度进行评估，而是通过对数据集中的所有数据点进行评估，并利用其局部邻居之间的距离来识别局部离群点。

因此，LOF算法能够更全面地检测出离群程度较高的数据点，从而有助于提高检测结果的准确性。

综上所述，LOF算法通过比较数据点与其邻居之间的距离来计算其局部离群因子，并利用该因子来识别局部离群点。

该算法能够更全面地检测出离群程度较高的数据点，具有较高的准确性和鲁棒性。

在实际应用中，LOF算法可以应用于各种领域的数据挖掘和机器学习任务中，如社交网络分析、异常检测、推荐系统等。

离群值检测方法

离群值检测方法一、引言在统计学和机器学习中，离群值检测是一个重要的问题，它指的是在一组数据中识别出与其他数据明显不同的异常值。

离群值可能是由于测量误差、数据录入错误、新的未知模式或异常事件所导致。

离群值的存在可能会对数据分析和模型构建产生严重影响，因此准确地检测出离群值是非常重要的。

二、离群值检测方法1. 基于统计学方法基于统计学方法是最常用的离群值检测方法之一。

其中，最简单的方法是使用均值和标准差来识别离群值。

假设数据服从正态分布，我们可以定义一个阈值，将与均值的偏差大于几倍标准差的数据标记为离群值。

然而，这种方法对于非正态分布的数据效果不好。

另一种常见的统计学方法是使用箱线图。

箱线图通过绘制数据的上下四分位数和中位数来显示数据的分布情况。

根据箱线图的原理，我们可以将超过1.5倍四分位距的数据定义为离群值。

2. 基于距离的方法基于距离的方法是另一种常用的离群值检测方法。

其中，最常见的方法是基于欧氏距离或马哈拉诺比斯距离来度量数据点之间的相似性。

通过计算每个数据点与其他数据点之间的距离，我们可以定义一个阈值，将与其他数据点距离过远的数据标记为离群值。

3. 基于密度的方法基于密度的方法是一类比较新的离群值检测方法。

其中，最著名的方法是局部离群因子（LOF）算法。

LOF算法通过计算每个数据点的局部密度和其最近邻数据点的局部密度之比来度量数据点的离群程度。

具体而言，LOF算法通过计算每个数据点与其最近邻数据点的距离，然后根据距离计算每个数据点的局部密度。

最后，通过比较数据点的局部密度和其最近邻数据点的局部密度之比，我们可以识别出离群值。

4. 基于聚类的方法基于聚类的方法是一种常见的离群值检测方法。

其中，最常用的方法是使用k-means算法来将数据点分为多个簇。

然后，我们可以计算每个数据点与其所在簇的中心点之间的距离，将与中心点距离过远的数据点标记为离群值。

三、离群值检测的应用领域离群值检测方法在各个领域都有广泛的应用。

拉弧ai离群检测算法

拉弧ai离群检测算法引言：在数据挖掘和机器学习领域中，离群检测是一项重要任务，旨在识别与大多数数据样本不一致的异常数据点。

离群检测算法可以帮助我们发现潜在的异常情况，从而提供更准确和可靠的数据分析结果。

本文将介绍一种名为拉弧ai离群检测算法的方法，该方法基于拉弧ai距离度量，能够有效地检测出离群数据点。

一、拉弧ai距离度量拉弧ai距离度量是一种用于度量数据点之间相似性的方法。

它利用数据点的特征值之间的差异来计算距离，从而判断数据点之间的相似度。

与传统的欧氏距离或曼哈顿距离相比，拉弧ai距离度量能够更好地捕捉数据点之间的复杂关系和非线性关系，因此在离群检测任务中具有较高的准确性和鲁棒性。

二、拉弧ai离群检测算法基于拉弧ai距离度量，我们可以设计出一种有效的离群检测算法。

具体步骤如下：1. 数据预处理：首先，我们需要对原始数据进行预处理，包括数据清洗、特征选择和特征缩放等。

这一步骤可以帮助我们提高数据质量和减少计算复杂度。

2. 距离计算：利用拉弧ai距离度量，计算每个数据点与其他数据点之间的距离。

距离的计算可以基于数据点的特征值，也可以考虑特征之间的相关性。

3. 离群程度评估：根据距离计算结果，我们可以评估每个数据点的离群程度。

一般来说，距离越大，离群程度越高。

可以使用离群得分或离群度量来表示数据点的离群程度。

4. 离群点检测：根据离群程度评估结果，我们可以设置一个阈值，将离群程度高于阈值的数据点标记为离群点。

这些离群点可能具有重要的特征或异常情况，值得进一步研究和分析。

三、算法优势和应用场景拉弧ai离群检测算法具有以下优势和适用场景：1. 高准确性：基于拉弧ai距离度量，该算法能够更准确地捕捉数据点之间的相似性和差异性，从而提高离群检测的准确性。

2. 鲁棒性：拉弧ai距离度量能够更好地处理复杂关系和非线性关系，因此在处理复杂数据集时具有较强的鲁棒性。

3. 可解释性：该算法可以提供每个数据点的离群程度评估结果，使用户能够理解和解释离群点的原因和特征。

大规模数据中的离群点检测方法研究

大规模数据中的离群点检测方法研究一、绪论在大规模数据中，信息的数量很大，而且数据的结构比较复杂。

因此，离群点检测是大规模数据挖掘中常见的问题，而且对于很多领域都有着极其重要的实际应用，例如金融风险管理、健康监测、木材病虫害分析等。

离群点检测是数据挖掘中的一项基本任务，其目的是识别出与大多数数据点不同的数据样本。

离群点通常被称为异常值或噪声点，而离群点检测的目标是识别和排除这些点，以便进一步分析数据。

本文将介绍几种大规模数据中的离群点检测方法。

二、离群点检测方法1. 基于统计方法的离群点检测方法统计方法是最早也是最基本的离群点检测方法之一。

这些方法通常涉及到基本的假设检验、最小二乘法以及高斯混合模型等。

其中，基于高斯混合模型的离群点检测方法是常用的统计学方法之一，其思想是将数据集分解为多个高斯分布，使得每个高斯分布含有一个或多个类似的数据集。

采用 EM 算法对高斯分布进行参数估计，最后根据估计的结果确定离群点。

2. 基于距离的离群点检测方法基于距离的离群点检测方法是一种常用的基于相似性的技术。

本质上，该技术通过将点与它们的相邻点进行比较来评估它们是否为离群点。

最常用的基于距离的离群点检测方法是基于 k 邻居算法的检测方法。

该算法基于距离度量，利用查询点周围 k 个邻居的距离计算离群得分。

具体而言，它利用距离计算，将于邻居间存在较大距离的数据点标识为离群点。

3. 基于密度的离群点检测方法基于密度的离群点检测方法是另一种常见的方法。

该方法通过计算一个点周围的点的密度来确定该点是否为离群点。

最常用的基于密度的离群点检测方法是LOF算法。

该算法基于距离和密度的概念，因此它结合了基于距离和基于密度的技术。

具体而言，LOF算法会计算每个点相对于周围邻居的局部密度，并将其用于计算该点的离群得分。

4. 基于子空间的离群点检测方法随着高维数据的产生，传统的距离和密度的离群点检测方法已经不能很好地应对高维数据的需求。

基于离群点检测的K-means算法

基于离群点检测的K-means算法冷泳林;张清辰;赵亮;鲁富宇【摘要】K-means算法以其简单、快速的特点在现实生活中得到广泛应用。

然而传统K-means算法容易受到噪声的影响，导致聚类结果不稳定，聚类精度不高。

针对这个问题，提出一种基于离群点检测的K-means算法，首先检测出数据集中的离群点，在选择初始种子的时候，避免选择离群点作为初始种子。

然后在对非离群点进行聚类完成后，根据离群点到各个聚类的距离，将离群点划分到相应的聚类中。

算法有效降低离群点对K-means算法的影响，提高聚类结果的准确率。

实验表明，在聚类类别数给定的前提下，在标准数据集UCI上该算法有效降低离群点对K-means算法的影响，提高了聚类的精确率和稳定性。

%K-means algorithm is widely used in real life for its simple and rapid characteristics .However , traditional K-means algorithm is affected by outliers , leading to the instability of the clustering results and low accuracy of the clustering .For this problem , the paper proposes a novel K -means algorithm based on outliers detection .The presented algorithm firstly detects outliers from the given dataset , which can avoid selecting outli-ers as the initial seed .After clustering all the objects which are not outliers , the algorithm allocates every outlier to the corresponding cluster according to distance between the outlier and different clusters .The presented algo-rithm reduces the impact of outliers on traditional K -means algorithm and improves the clustering accuracy .For the given number of categories of the clusters and in the standard UCI data sets ,the experimental results indicate that thealgorithm is effective , reduces the influence of outlier on the K -means algorithm , improving the accura-cy and stability of the cluster .【期刊名称】《渤海大学学报（自然科学版）》【年(卷),期】2014(000)001【总页数】6页(P34-38,48)【关键词】聚类;K-means算法;离群点;UCI数据集【作者】冷泳林;张清辰;赵亮;鲁富宇【作者单位】渤海大学高职学院，辽宁锦州 121001; 大连理工大学软件学院，辽宁大连 116621;大连理工大学软件学院，辽宁大连 116621;大连理工大学软件学院，辽宁大连 116621;渤海大学高职学院，辽宁锦州 121001【正文语种】中文【中图分类】TP3110 引言聚类是将物理或抽象对象的集合分成由类似的对象组成多个类的过程，即“物以类聚，人以群分”.聚类是数据挖掘中的一类重要技术，是分析数据并从中发现有用信息的一种有效手段.它将数据对象分组成为多个类或簇，使得同一簇中的对象之间具有较高的相似度，而不同簇中的对象差别很大〔1〕.聚类已经广泛应用于模式识别、空间数据分析、经济学等领域.聚类分析既可以作为单独的工具发现数据集中隐含的相关知识，又可以作为其他数据挖掘分析方法的预处理过程，其已经成为数据挖掘领域的一个重要的研究方向.目前常用的聚类算法包括划分法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等.其中，基于划分方法思想的K-means算法以其简单、快速并有效处理大规模数据等诸多特点，成为现实应用最为广泛的聚类算法.K-means算法〔2，3〕适合聚类大型数据集,特别是当样本分布呈现类内团聚状时，可以达到很好的聚类结果.但是，在有噪声数据影响时，K-means聚类算法结果易受初始聚类中心影响，导致聚类结果不稳定.K-means算法过度依赖初始条件的缺点影响了该算法的聚类效果并制约了其应用范围.当前许多学者致力于改进K-means算法的聚类中心选取方法，如基于均值-标准差选取方法〔4〕，基于近邻密度选取方法〔5〕, 基于密度参数的选取方法〔6〕等，然而这些算法没有充分考虑离群点对聚类的影响，导致最后聚类精度提高不明显.针对这个问题，本文提出一种基于离群点检测的K-means算法，算法将离群点检测引入传统K-means算法，首先检测出数据集中的离群点，在选择初始种子的时候，避免选择离群点作为初始种子.在对非离群点进行聚类完成后，根据离群点到各个聚类的距离，将离群点划分到相应的聚类中.算法有效降低离群点对K-means算法的影响，提高聚类结果的准确率.实验表明，在聚类类别数给定的前提下，通过标准UCI数据库进行实验比较，在保留噪声数据的同时，该算法有效提高聚类精度.1 相关理论和技术1.1 基于距离的离群点检测离群点是指明显偏离数据集中其他数据对象的数据点，人们怀疑这些点是由不同机制产生的〔7〕.离群点检测是数据挖掘领域中的一项重要挖掘技术.它可以发现数据集中小部分偏离了大多数数据行为或数据模型的异常数据.目前常用的离群点检测方法包括基于统计分布、基于距离、基于密度和基于偏差等方法〔8〕.其中，基于距离的离群点检测方法无需了解数据集的分布模型，适用于任何可以计算对象间距离的数据集，而且计算简单，因此本文采用该算法检测离群点.如果对象o在数据集S〔9〕中有大于p部分的对象与它的距离都大于d，那么就将对象o称为数据集S上的DB(p,d)离群点.基于距离的离群点的定义适用于任意维度的数据集，其中参数p表明与离群点的距离大于d的对象所占数据集的最小比例〔10〕.基于距离的离群点检测方法可以简便的定制对象间的距离函数，欧氏距离计算函数就是其中的一种.欧氏距离的定义如下：其中m为数据对象的维(属性)数，xij表示第i个对象的第j属性的值.基于距离的离群点检测算法主要步骤如下：1.随机选取一个数据对象.2.计算其他数据对象与选取的数据对象间的欧氏距离，如果与之距离大于d的数据对象的比例大于p，则判定该数据对象为离群点.3.选取下一个不重复数据对象.4.重复2，直到所有数据对象都被选到.1.2 传统K-means算法传统K-means算法的基本思想是〔11〕：随机地选择k个对象，每个对象初始代表了一个聚类中心；对剩余的每个对象根据其与各个聚类中心的距离，将它赋给最近的聚类；然后重新计算每个聚类的平均值，作为新的聚类中心.不断重复这个过程，直到准则函数收敛.收敛函数E定义为：其中：E是数据集所有对象与它所在的聚类中心的平方误差的总和，E越大说明对象与聚类中心的距离越大，聚类内的相似度越低，反之E越小说明聚类内的相似性越高. 为聚类内的一个数据对象；是聚类Ci的聚类中心，k是聚类个数，Ci是第i个聚类.K-means算法步骤如下：1.随机选择k个数据对象，每个对象作为初始聚类中心.2.计算每个数据对象与聚类中心的距离，根据距离将对象划分到距离最近的聚类.3.重复计算每个聚类中对象的平均值，更新聚类中心.4.重复2和3，直到准则函数E收敛.2 基于离群点检测的K-means算法基于离群点检测的K-means算法的基本思想是：首先利用基于距离的离群点检测方法检测数据集的离群点，然后在非离群点中随机选择k个数据点作为聚类的初始种子，利用传统K-means算法对非离群点进行聚类，最后将离群点划分到相应到聚类中.算法的思想如图1所示.图1 基于离群点检测的K-means算法算法具体步骤如下：1.随机选取一个数据对象.2.计算其他数据对象与选取的数据对象间的欧氏距离，如果与之距离大于d的数据对象的比例大于p，则判定该数据对象为离群点.3.选取下一个不重复数据对象.重复2，直到将所有离群点检测出为止.4.在非离群点中随机选取k个数据对象作为初始聚类种子.5.计算每个非离群点数据对象与聚类中心的距离，根据距离将对象划分到距离最近的聚类.6.重复计算每个聚类中对象的平均值，更新聚类中心.7.重复5和6，直到准则函数E收敛.8.计算每个离群点数据对象与聚类中心的距离，根据距离将其划分到最近的聚类. 算法描述如下：输入：n个数据对象集S 和聚类数k;输出：k个聚类中心Zj及k个聚类数据对象集合Cj;Beginfor r=1 to n //取数据集S中的各个数据对象begincount=0;for any q!=r //数据集中除了当前对象的其他对象beginend//离群点集A={a1,a2,...,ai}；M=S-A; //在S中去除数据集A中的数据对象，生成数据集M；k_means( M , k ); //执行传统的K_means算法；for r=1 to i dobeginfor q=1 to jEnd.3 结果与分析本文将传统的K-means算法和基于离群点检测的K-means算法进行实验对比.为了测试本文算法的有效性，实验选择专用于测试聚类算法性能的UCI数据库中的Iris数据集，Diabetes数据集和Wine数据集作为实验数据集.分别用传统聚类算法与本文提出的算法对3组数据集进行测试.本文实验环境为：CPU为E4500(2.20 GHz)、内存为1.99 GB、操作系统为Windows XP，编程语言为Java.实验结果一：随机选择一批数据分别利用传统K-means聚类算法与本文改进的K-means算法对其进行聚类，结果示意图如图2所示.图2 聚类结果示意图由图2可知，传统K-means算法没有充分考虑离群点的影响，导致最后聚类结果不精确.本文在选择初始聚类中心时，避免选择离群点作为初始聚类中心，首先对非离群点进行聚类，最后根据离群点到与各个聚类的距离将其分配到相应的聚类中.本文有效避免离群点对聚类结果的影响，聚类精度高于传统K-means算法.实验结果二：利用传统K-means算法与本文改进的K-means算法分别对3组数据进行6次实验，对实验结果进行统计，平均准确率如表1所示.表1 传统K-means算法与本文算法聚类平均精度比较IrisDiabetesWine传统k-means算法0.79530.61880.9563本文算法0.83090.64840.96716次实验准确率统计曲线如图3所示.Iris聚类结果曲线 Diabetes聚类结果曲线Wine聚类结果曲线图3 实验结果统计曲线从表1与图3可以看出，传统K-means算法的最高准确率与本文算法的平均准确率接近，但平均准确率明显低于本文改进的K-means算法.另外，传统K-means算法容易受到噪声影响，导致聚类结果不稳定，当不选择离群点作为初始种子时，聚类结果较好，否则聚类效果很差.本文避免选择离群点作为初始种子，因此聚类效果稳定，聚类精度高于传统K-means聚类算法.4 结论聚类分析是数据挖掘领域中常用的数据分析方法，目前聚类分析的主流方法有很多，其中基于划分的K- means算法以其简单、快速并有效处理大规模数据等诸多优点，成为最经典并应用最广泛的聚类方法之一.然而传统K-means算法容易受到离群点的影响，导致聚类结果不稳定、聚类精度低，影响了该算法的聚类效果并制约了其应用范围.本文针对这个问题提出基于离群点检测的K-means算法，将离群点检测引入传统K-means算法，避免选择离群点作为初始聚类中心.在对非离群点进行聚类之后，根据离群点到各个聚类的距离，将其分配到相应的聚类之中.实验结果表明，算法在聚类精度上明显高于传统K-means算法.参考文献:【相关文献】〔1〕Stalling W. Operating systems: internals and design principles(4th Edition)〔M〕.New Jersey, Prentice-Hall, 2001.〔2〕MacQueen J. Some methods for classification and analysis of multivariate observations〔C〕. Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley: University of California Press, 1967.〔3〕张玉芳，毛嘉莉，熊忠阳. 一种改进的K-means算法〔J〕. 计算机应用, 2003,8(23)：31-34. 〔4〕张文君，顾行发，陈良富，等. 基于均值-标准差的K均值初始聚类中心选取方法〔J〕. 遥感学报,2006,10(5)：715-721.〔5〕Shehroz S Khan, Amir Ahmad. Cluster center initialization algorithm for K-Means clustering〔J〕. Pattern Recogintion Letters(S0167-8655),2004,25(11):1293-1320.〔6〕韩凌波，王强，蒋正锋，等. 一种基于改进的K-means初始聚类中心选取算法〔J〕. 计算机工程与应用,2010,46(17)：150-153.〔7〕Elio L, Edgar A. Parallel algorithms for distance-based and density-based outliers 〔C〕.Proc of International Conference on IEEE. 2005: 767-776.〔8〕Kriegel H P, Schubert M, Zimek A. Angle-based outlier detection in high-dimensional data〔C〕. Proceedings of the 14th ACM SIGKDD international conference on knowledge discovery and data mining. ACM,2008:444-452.〔9〕张秀梅，王涛.模糊聚类分析方法在学生成绩评价中的应用〔J〕. 渤海大学学报：自然科学版,2007,28(2)：169-172.。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于距离的离群点检测算法08计算机二班侯宇铭张国勇易小倩一、概述：这个算法是一个基于距离的异常点检测算法，算法以欧式距离为衡量标准，整个算法分三个部分。

第四部分的改进是用了类似密度检测的思想，比较了之前步骤选出的怀疑离群点的三近邻，经过C++语言的实现，效果还不错。

但是程序稍有漏洞，因此没有在这里体现。

但是第四阶段算法的思想已经附在算法描述后面。

本文档附上测试的数据集的arff格式，excel格式，以及txt供程序使用的格式。

三种格式的数据都是一样的。

数据分布如下：附上算法涉及的变量名称对应表：二、算法描述：（这里以数据集为两个相对集中的数据簇和若干离群点为例进行说明）第一部分：找出两个质心Step1: 遍历数据，将数据存入数组dot中该数据设为二维数据，有x,y两个属性。

Step2:设定遍历时的第一个和第二个数据为初始质心。

设定两个变量longest_distance分别记录两个初始簇的最长的距离，设置dotcore1变量记录第一个簇的质心，dotcore2变量记录第二个簇的质心。

Step3:循环：当一个新的点p进入程序时，首先比较点p分别到点dotcore1的距离和到dotcore2的距离，选择距离较小的质心（这里假设选择了dotcore1），记该距离为distancep。

比较distancep和第一个簇（因为选择了dotcore1）的longest_distance。

若distancep<longest_distance，开始下一次循环。

若distancep>longest_distance，则使点p成为新的质心coredot1。

这样循环下去，就可以找到两个簇的最终质心。

算法流程图：进入阶段2图.1 阶段1第二部分：将所有的点归簇，并筛选一部分点Step4: 开始第二次点的扫描：当一个新的点p进入程序时，首先比较点p分别到点dotcore1的距离和到dotcore2的距离，选择距离较小的质心。

设置点数分簇记录：簇1的点数记录在变量dot_Dispatch1中，簇2的点数记录在变量dot_Dispatch0中。

（假设选择了点dotcore1）则点p的序号记录在簇1的数组中。

表示点p属于这个簇。

若选择了dotcore2，以此类推。

同时计算两个簇各个点分别到质心的距离的和。

Step5:在完成了分簇之后，我们对比各个点到质心的距离，若该点的距离大于当前的平均距离，那么将该点分别存入Suspt1和Suspt0数组中，以备以后的过程使用。

第三部分：将怀疑点到质心距离与距离均值的差，再与均值的方差作比较。

Step6: 分别求出两个簇的标准差variance1和variance0。

Step7: 将Suspt1中的各个点的距离减去距离的均值（先以怀疑点p1为例，其他点的处理办法一样），将p1与距离的差值与variance1*1.67（取置信区间为90%）相比较。

若p1计算的差值大于variance1*1.67，则将其归入Suspt21和Suspt20数组中，以备以后过程进一步使用。

第一阶段进入第三阶段图.2 第二阶段图.3 第三阶段（改进设想）第四部分：将Suspt21和Suspt20中的点比较其三近邻，做最终的筛选Step8: 将Suspt21和Suspt20中的点，（以p1点为例）p1计算与所有的点的距离，取距离值最小的三个，将这三个距离取平均值，得到均值p1avg。

求p1avg与所属簇的平均距离的差值，再用这个差值与该簇的标准差*1.67相比，若大于，则确认为离群点。

三、程序实现代码（C++语言）一、第一阶段：//录入数据集//第一步开始：ifstream ifile ("test1.txt");if (! ifile){ cout << "Error opening file";return 1; }int i=0;while(!ifile.eof()){ifile>>buffer[dotnum];// cout<<buffer[dotnum];dotnum++;}ifile.close();int l=0;for(int j=0;j<dotnum;j++){for(int k=0;k<2;k++){dot[j][k%2]=buffer[l++];if(j<=1)dot_Core[j][k%2]=dot[j][k%2]; //把数据第一第二个点设为原始质心 }}/* for (int j=0;j<dotnum/2;j++){for (int k=0;k<=1;k++)cout<<dot[j][k]<<" ";}*/文件需是txt格式且坐标xy间用制表符分割；经过这一步录入后dot[j][0]为j点的x坐标，dot[j][0]为j点的Y坐标。

计算出质心：//第一次正序扫描for(int j=0;j<dotnum/2;j++){if(distance(j,0)<distance(j,1)){if(distance(j,0)>distance_Longest[0]){distance_Longest[0]=distance(j,0);dot_Core[0][0]=dot[j][0];};}else{if(distance(j,1)>distance_Longest[1]){distance_Longest[1]=distance(j,1);dot_Core[1][0]=dot[j][0];dot_Core[1][1]=dot[j][1];};}if(j==dotnum/6){dot_Core2[0][0]=dot_Core[0][0];dot_Core2[0][1]=dot_Core[0][1];dot_Core2[1][0]=dot_Core[1][0];dot_Core2[1][1]=dot_Core[1][1];}if(j==dotnum/3){dot_Core4[0][0]=dot_Core[0][0];dot_Core4[0][1]=dot_Core[0][1];dot_Core4[1][0]=dot_Core[1][0];dot_Core4[1][1]=dot_Core[1][1];}}dot_Core[0][0]=((dot_Core[0][0]+dot_Core2[0][0])/2+dot_Core4[0][0])/2; dot_Core[0][1]=((dot_Core[0][1]+dot_Core2[0][1])/2+dot_Core4[0][1])/2; dot_Core[1][0]=((dot_Core[1][0]+dot_Core2[1][0])/2+dot_Core4[1][0])/2; dot_Core[1][1]=((dot_Core[1][1]+dot_Core2[1][1])/2+dot_Core4[1][1])/2; //第二次倒序扫描for(int j=dotnum/2-1;j>=0;j--){if(distance(j,0)<distance(j,1)){if(distance(j,0)>distance_Longest2[0]){distance_Longest2[0]=distance(j,0);dot_Core3[0][0]=dot[j][0];dot_Core3[0][1]=dot[j][1];};}else{if(distance(j,1)>distance_Longest2[1]){distance_Longest2[1]=distance(j,1);dot_Core3[1][1]=dot[j][1];};}if(j==dotnum/6){dot_Core2[0][0]=dot_Core3[0][0];dot_Core2[0][1]=dot_Core3[0][1];dot_Core2[1][0]=dot_Core3[1][0];dot_Core2[1][1]=dot_Core3[1][1];}if(j==dotnum/3){dot_Core4[0][0]=dot_Core3[0][0];dot_Core4[0][1]=dot_Core3[0][1];dot_Core4[1][0]=dot_Core3[1][0];dot_Core4[1][1]=dot_Core3[1][1];}}dot_Core3[0][0]=((dot_Core3[0][0]+dot_Core2[0][0])/2+dot_Core4[0][0])/2;dot_Core3[0][1]=((dot_Core3[0][1]+dot_Core2[0][1])/2+dot_Core4[0][1])/2;dot_Core3[1][0]=((dot_Core3[1][0]+dot_Core2[1][0])/2+dot_Core4[1][0])/2;dot_Core3[1][1]=((dot_Core3[1][1]+dot_Core2[1][1])/2+dot_Core4[1][1])/2;//第二次扫描（倒序）完毕dot_Core[0][0]=(dot_Core3[0][0]+dot_Core[0][0])/2;dot_Core[0][1]=(dot_Core3[0][1]+dot_Core[0][1])/2;dot_Core[1][0]=(dot_Core3[1][0]+dot_Core[1][0])/2;dot_Core[1][1]=(dot_Core3[1][1]+dot_Core[1][1])/2;//第一步：找到质心：cout<<"core1.x:"<<dot_Core[0][0]<<"1.y:"<<dot_Core[0][1]<<""<<endl<<"2.x:"<<dot_Core[1][0]<<" 2.y: "<<dot_Core[1][1];cout<<endl;//第一次正序扫描结束这是第一步，经过一次正序扫描和逆序扫描，得出2次的质心的平均值作为最终质心。

具体算法是先找出一个未知点与2个质心的距离的最小值，并把这个点并到相应簇，然后比较这个距离和之前这个簇的2点的最小距离比较，如果大于最小距离，则把这个点作为新质心，并把这个距离替代最小距离。