各种密度聚类算法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

什么是聚类?聚类:- 将一个对象的集合分割成几个类,每个类内的对象之间是相似的,但与其他类的对象是不相似的。评判聚类好坏的标准:1 ,能够适用于大数据量。

2 ,能应付不同的数据类型。

3 ,能够发现不同类型的聚类。

4 ,使对专业知识的要求降到最低。

5 ,能应付脏数据。

6 ,对于数据不同的顺序不敏感。

7 ,能应付很多类型的数据。

8 ,模型可解释,可使用。

二,聚类所基于的数据类型。

聚类算法通常基于“数据矩阵”和“ Dissimilarity 矩阵”。

怎么样计算不同对象之间的距离?

1 ,数值连续的变量(体重,身高等):度量单位的选取对于聚类的结果的很重要的。例如将身高的单位从米变为尺,将体重的单位从公斤变为磅将对聚类的结果产生很大的影响。为了避免出现这种情况,我们必须将数据标准化:将数据中的单位“去掉”。

A, 计算绝对背离度。B, 计算标准量度。下面我们考虑怎样来计算两个对象之间的差异。

1 ,欧几里得距离。

2 ,曼哈顿距离。这两种算法有共同之处:d(i,j)>=0,d(i,i)=0,

d(i,j)=d(j,i),d(i,j)=

2 ,二元数据变量:如果还是用上面的方法来计算的话,肯定会出现错误。这儿分

两种情况,对称的与非对称的。

3 ,Nominal 变量:( 例如红,黄,绿,蓝,.)

4 ,ordinal 变量(例如科长,处长,局长,. )

5 ,ratio-scaled 变量:

6, 以上几种混合的变量(多数情况是这样的):

三,分割的的方法。

1,K 均值算法:给定类的个数K ,将n 个对象分到K 个类中去,使得类内对象之间的相似性最大,而类之间的相似性最小。

缺点:产生类的大小相差不会很大,对于脏数据很敏感

改进的算法:k —medoids 方法。这儿选取一个对象叫做mediod 来代替上面的中心

的作用,这样的一个medoid 就标识了这

个类。步骤:

1,任意选取K 个对象作为medoids (O1,O2,,Oi,Ok )。

以下是循环的:

2,将余下的对象分到各个类中去(根据与medoid 最相近的原则);

3,对于每个类(Oi )中,顺序选取一个Or ,计算用Or 代替Oi 后的消耗—E

(Or )。选择E 最小的那个Or 来代替Oi 。这样K 个medoids 就改变了,下面就再转到2 。

4,这样循环直到K 个medoids 固定下来。

这种算法对于脏数据和异常数据不敏感,但计算量显然要比K 均值要大,一般只适合小数据量。

2 ,C lara 算法。

上次课提到K-medoids 算法不适合于大数据量的计算。这次课我们介绍Clara 算法,这是一种基于采用的方法,它能够处理大量的数据。

Clara 算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids 算法得到相应的(O1,O2,Oi,Ok ),然后在这当中选取E 最小的一个作为最终的结果。

Clara 算法的效率取决于采样的大小,一般不太可能得到最佳的结果。

在Clara 算法的基础上,我们提出了Clarans 的算法,与Clara 算法不同的是:在Clara 算法寻找最佳的medoids 的过程中,采样都是不变的。而Clarans 算法在每一次循环的过程中所采用的采样都是不一样的。与上次课所讲的寻找最佳medoids 的过程不同的是,必须人为地来限定循环的次数。

四,层次聚类

层次聚类,就是把所有的记录层次聚类可以分为两种:凝聚的方式和分割的方式,取决于聚类层次结构的形成是自顶向下的还是自底向上的。

凝聚的方式:这是一种至底向上的方法,将每一条记录看作一个类,然后根据一些规则将他们聚合成越来越大的类,直到满足一些预先设定的条件。大多数的层次聚类方法属于这一类。

分割的方式:这种自顶向下的方法是一个与凝聚的方式相反的过程,将整个数据库作为一个大的类,然后按照一些规则将这个类分成小的类,直到满足一些预定的条件,例如类的数目到了预定值,最近的两个类之间的最小距离大于设定值。

例3 :图5 给出了对于集合{a,b,c,d,e} 层次聚类两种方式的聚类过程。从这个图我们可以看出,凝聚的方式是将每一个记录看作一个类,再按照一定的规则逐步将这些类合并。举个例子,如果类C1 和类C2 之间的距离小于预定的最小距离,那么他们就会被合并为一个类,这儿两个类的距离是由两个类中距离最近的一对记录来确定的。

分割的方式则是先将所有的记录作为一个大的类,然后再根据一些规则将

它进行分割,例如最近的两个记录之间的距离。

无论凝聚的方式还是分割方式,用户都可以根据自己的要求来设定所得类的个数。

层次聚类虽然比较简单,但是在选择凝聚或者分割点的时候经常会遇到一些困难,这个是非常关键的,因为一旦记录被凝聚或者分割以后,下一步的工作是建立在新形成的类的基础之上的因此,如果其中任何一步没有做好的话,就会影响最终聚类的结果。这个方法并不是太好,因为要牵涉到很大数量的类和记录。

一个比较有前途的能够提高聚类质量的方向是将层次聚类和其它的聚类结合起来进行,下面我们会介绍一些这样的方法:1 ,叫做“ Birth ” , 它首先把层次聚类的形成过程到结果看作一棵树,然后再用其他的聚类方法来进行修剪。2 ,叫做“ Cure ”,他用一定数量的记录来代表一个类,然后将他们缩为类的中心。3 ,叫做“ Rock ” , 它是基于类之间的联系将类合并。4 ,叫做“ Chameleon ”,在层次聚类中寻找自动的模式。

1,Birch: 这是一种综合的层次聚类的方法,它介绍了两个概念,聚类特征和聚类特征树,它们是用来表示聚类的。这些结构能够帮助聚类方法能运行得更快,能够处理大数据量。

下面我们来看一下上面提到的结构,一个聚类特征是由关于记录子集的三重总概变量组成。假设在一个子类中有N 个记录,那么这个子类的聚类特征就是

CF=(N,LS,SS), 其中LS 是N 个点(记录)的直线相加,SS 是N 个点的平方和相加。

一个聚类特征本质上是对于给定的子类的统计和,它记录了衡量一个子类的最关键的部分,用存储统计值代替了存储整个类的记录,提高了存储的效率。

一个聚类特征树是一个垂直平衡树,它为一个层次聚类存了各个步骤的聚类特征。图8.6 给出了一个例子,我们约定一个“非叶子节点”是有“孩子”的, 这个“非叶子节点”记录了它的孩子的聚类特征。一个聚类特征有两个变量—

—“分枝要素B ”和“门限T ”,B 限定了每个“非叶子节点”最多含有的孩子的个数,T 限定了存在叶节点的子类的最大半径,这两个参数影响了最后产生的树的大小。

那么“ Birch ”是怎样工作的呢?1 ,它扫描整个数据库一次,建立一个初始化的聚类特征树。2 ,它用一个聚类算法来聚合这些叶节点。

在第一阶段,聚类特征树随着记录一个一个的加入而自动形成的:一个记录被放入那个离它最近的叶节点(类)中去。如果放入以后这个子类的半径大于门限值T 的话,那么这个叶节点就会被分割。这个放入的信息也会传递到根节点中去。聚类特征树的大小可以通过调节参数来改变,如果要存储的树需要的内存超过了主内存,那就要减小门限值重新建立一棵树,这个重建过程并不需要将整个记录扫描一次。而是建立在老的树的叶节点的基础之上的。因此,建立一个树记录需要被扫描一次,此外还有一些方法进一步扫描记录以提高聚类特征树的质量,当树建好以后,我们可以在第二阶段用其他的聚类算法了。

Birch 算法用可利用的资源产生最好的聚类,给定一限定的主内存,一个很重要的考虑是尽量减少从I/O 请求所需要的时间。Birch 算法用了多种聚类的技术,对数据库的一次扫描产生一个基本好的聚类,一次或者更多的附加扫描能够提高聚类的质量。

相关文档
最新文档