基于网格密度影响因子的多密度聚类算法

合集下载

基于网格梯度的多密度聚类算法

基于网格梯度的多密度聚类算法
数据集进行聚类 , 它的缺点 是不能 有效地分 离 出多个类 ;N SN
算法采用 了一种共 享近邻 的思想来 定义 相似度 ( 于数据集 对 中每个点 , 找出距 离其最近 的 个邻 近点 , 形成一个集合 , 然后 考虑数据集 中的任 意两个点的 k个邻近点集合交集部分 的点
学习等 。聚类分析是数据挖掘 中一种非常重要的技术 和方法 , 是 自发、 无监督 的学 习过程 。通过聚类能够识别对象空 间中稠
第应 用 研 究
Ap l ain Ree rh o o ues pi t sac fC mp tr c o
Vo . 5 No 1 12 . 1 NO . 2 o V 08
基 于 网格梯 度 的 多密度 聚 类算 法 水
Ab ta t sr c :At r s n ,mo tcu t r g ag r h e oe t n h r i ay s a e a d df r n i l s r ,b t t sd m. ee t p s l se i lo t ms d v t o f d te a b t r h p n i e e ts e c u t s u i n i i r z e ii c l t e i h l — e st aa s t f cie y h s p p rp o o e h lo t m ih u e h d b s d c a a t r u t o d a w t t e mu t d n i d t e f t l .T i a e r p s d te ag r h whc s d t e l h i y ee v i — a e h r ce o a i i .F rt .i w p d o e n ieu i g t eGa s in s oh n t e u d te cu t r ih h d i l — e st aa fr pd t y is y t l e f t os sn u sa mo ti g, h n f n h lse c i mu t d n i d t i h h o wh n i y

一种基于密度和网格的高效聚类算法

一种基于密度和网格的高效聚类算法

proaches.
Density—based[5]clustering algorithms regard clusters as dense regions of objects in the data space that are separated by regions of low density.A density-
The goal of data clustering algorithms is to group
the objects of a database to a set of meaningful subclas- seS.The application to large spatial databases raises
process of DGCA and analyzes its time complexity.In
section 5,we perform experimental results.Section 6 concludes with a summary and some directions for fu— ture research.
sensible to these parameter values,and its time corn- plexity is hish for massive data sets,even if the use of
R+tree『6]is made.Another drawback of DBSCAN
2 Related work
Clustering methods are able to categorize into par-
titioning,hierarchical,density—based,grid—based,and

基于网格数据中心的密度峰值聚类算法

基于网格数据中心的密度峰值聚类算法

第46卷㊀第6A 期2019年6月计算机科学C OM P U T E R S C I E N C EV o l .46N o .6AJ u n e 2019本文受国家自然科学基金资助项目(61202285,61502146)资助.李晓光(1994-),男,硕士生,主要研究方向为机器学习;邵㊀超(1977-),男,博士,教授,C C F 会员,主要研究方向为机器学习,E Gm a i l :s c _f l y i n g@163.c o m (通信作者).基于网格数据中心的密度峰值聚类算法李晓光㊀邵㊀超(河南财经政法大学计算机与信息工程学院㊀郑州450046)㊀摘㊀要㊀通过对数据集进行网格划分来降低聚类过程中的计算复杂度,提出了一种基于网格数据中心的密度峰值聚类算法.首先将数据集进行网格化,形成若干网格对象,以落在网格内的数据点个数与通过衰减后的相邻网格内数据点个数之和作为该网格对象的局部密度值,以该网格数据中心到更高密度网格数据中心的最近距离作为该网格对象的相对距离值;然后根据簇心网格对象同时具备更高的局部密度和较大的相对距离的特征,确定簇心网格对象;最后通过密度划分的方法完成数据聚类.在U C I 人工数据集上的仿真实验表明,该算法能够在较短的时间内有效地处理大规模数据,聚类准确率较高.关键词㊀密度峰值,聚类,网格,数据中心,决策图中图法分类号㊀T P 181㊀㊀㊀文献标识码㊀A ㊀D e n s i t y P e a kC l u s t e r i n g A l go r i t h mB a s e do nG r i dD a t aC e n t e r L IX i a o Gg u a n g㊀S HA OC h a o (S c h o o l o fC o m p u t e r&I n f o r m a t i o nE n g i n e e r i n g ,H e n a nU n i v e r s i t y o fE c o n o m i c s a n dL a w ,Z h e n gz h o u450046,C h i n a )㊀A b s t r a c t ㊀Ad e n s i t y p e a k c l u s t e r i n g a l g o r i t h mb a s e d o n t h e g r i d d a t a c e n t e rw a s p r o p o s e d .T h e c o m p u t a t i o n a l c o m pl e x i Gt y o f t h e c l u s t e r i n gp r o c e s s i s r e d u c e db y m e s h i n g t h ed a t a s e t .F i r s t l y ,t h ed a t a s e t s pa c e i sd i v i d e d i n t o g r i d sw i t ht h e s a m e s i z e ,t h e d e n s i t y v a l u e o f e a c h g r i d i s c o m p o s e d o f t h e n u mb e r o f d a t a o b j ec t s t h a t a r e c o n t a i n ed i n t he g r i d a n d t h e d e c a y e dn u m b e r of t h e d a t a o b j e c t s i n i t s a d j a c e n t gr i d s ,a n d t h e d i s t a n c e v a l u e o f e a c h g r i d i s d e f i n e d a s t h e n e a r e s t d i s Gt a n c e f r o m i t s d a t a c e n t e r t o t h e d a t a c e n t e r o f a n o t h e r g r i dw h i c hh a s a h i g h e r d e n s i t y .T h e n ,t h e c l u s t e r c e n t e r g r i d s a r e f o u n d s i n c e t h e s e g r i d sa l w a y sh a v eh i g hd e n s i t y v a l u ea n dl a r g ed i s t a n c ev a l u e .F i n a l l y ,ad e n s i t y Gb a s e dd i v i s i o na p Gp r o a c h i s u s e d t o c o m p l e t e t h e d u t y o f c l u s t e r i n g .T h e s i m u l a t i o n e x p e r i m e n t s p e r f o r m e d o nU C I a r t i f i c i a l d a t a s e t s h o w t h a t t h i s a l g o r i t h mc a ne f f e c t i v e l y c l u s t e r l a r g e Gs c a l e d a t aw i t hh i g hc l u s t e r i n g a c c u r a c y i na s h o r t p e r i o do f t i m e .K e yw o r d s ㊀D e n s i t yp e a k ,C l u s t e r i n g ,G r i d ,D a t a c e n t e r ,D e c i s i o n g r a p h ㊀1㊀引言聚类(C l u s t e r i n g)的本质是按相似性对数据进行分类,使同一类别的数据具有尽可能高的同质性(h o m o g e n e i t y ),不同类别的数据具有尽可能高的异质性(h e t e r o g e n e i t y),以方便从数据中发现隐含的有价值的信息[1].聚类分析在统计学㊁机器学习㊁数据挖掘㊁生物学㊁市场营销等领域已得到广泛应用[2G3].不同的聚类算法有着不同的应用背景,有的适合于大数据集,可以发现任意形状的聚簇;有的算法简单,可以很好地适用于小数据集[4].主要的聚类算法可以分为以下几类:基于层次的聚类㊁基于划分的聚类㊁基于密度的聚类㊁基于网格的聚类和基于模型的聚类.其中,基于层次的聚类算法具有较小的计算开销,但不能更正错误的决定;基于划分的聚类算法适合发现中小规模数据集中的球状簇,而且计算量较大;基于密度的聚类算法能发现任意形状的簇,但该算法的聚类质量过于依赖参数的设定;基于网格的聚类算法可用于大规模高维数据集的聚类,但是受网格粒度的影响,其聚类质量也会有所下降.2014年,R o d r i gu e z 等[5]提出了一种新的密度峰值聚类算法(D e n s i t y P e a k sC l u s t e r i n g ,D P C ).该算法提出聚类中心具备两个特点:1)本身密度大,即它被密度不超过本身的邻居所包围;2)与更高密度数据点的距离较大.该算法思路简洁,且简单明快.但是,在对大规模数据集进行聚类时,数据点之间的距离的计算复杂度很高.针对以上问题,本文提出了一种基于网格数据中心的密度峰值聚类算法,该算法首先将数据集进行网格化,形成数量较少的网格对象;其次,定义网格对象的局部密度ρ和相对距离δ;再次,将同时具有更高局部密度和更大相对距离的网格对象作为聚类中心;然后,根据一种密度的方法完成网格对象的划分;最后,各网格对象内的数据点类标跟随其所落入的网格对象,完成最后数据集的聚类.2㊀相关工作D P C 算法思路简洁,对数据集中每个数据点仅定义两个变量:局部密度和与更高密度数据点间的相对距离.由这两个变量分别对聚类中心的两个特点进行刻画,即:1)本身密度大,即它被密度不超过本身的邻居所包围;2)与更高密度数据点的距离较大.根据聚类中心的这两个特点,可以很直观地在决策图中人为选出聚类中心的数目.该算法中,主要定义局部密度ρ与相对距离δ.假设数据集S ={x i }ni =1,IS ={1,2, ,n }为相应指标集,d i j 表示数据点x i 与x j 之间的距离,则局部密度ρi 与相对距离δi 的定义如下.定义1㊀数据点i 的局部密度ρi 的定义如下:ρi =ðj ɪI Sχ(d i j -d c )(1)其中,函数χ(x )=1,x <00,x ȡ0{,参数d c >0为截断距离.定义2㊀数据点i 的相对距离δi 的定义如下:δi =m i n j ɪIiS{d i j },I i S ʂØm a x j ɪIi S{d i j },I iS =Øìîíïïï(2)其中,指标集I iS ={k ɪI S :ρk >ρi },显然,当ρi =m a x j ɪI S{ρj }时,有I iS =Ø.以图1(a )所示的数据集为例,根据式(1)和式(2)分别计算每个数据点的局部密度ρi 和相对距离δi ,形成图1(b )所示的决策图.从图1(b )可以看出,第1号和第10号数据点同时具有较大的ρ值和δ值,这两点恰好就是图1(a )所示数据集的两个聚类中心,从而利用决策图可以实现聚类中心的直观选取.(a )数据集(b)决策图图1㊀D P C 算法效果图D P C 算法的具体步骤如算法1所示.算法1㊀D P C 算法输入:数据集S ={x 1,x 2, ,x n }输出:聚类结果1.输入数据集,计算数据点之间的距离;2.确定截断距离d c ;3.按照式(1)和式(2)分别计算各数据点的局部密度ρi 和相对距离δi ;4.绘制决策图,选择ρi 和δi 都大的点作为聚类中心;5.对非聚类中心点进行聚类;6.将每一个类中的点进一步划分为核心点和边缘点;7.输出聚类结果.值得注意的是,D P C 算法需要计算数据集中所有数据点之间的距离,如果数据集过大,则会导致整个距离矩阵的计算开销与内存开销都较大;同样,截断距离d c 的取值也会影响局部密度ρ与相对距离δ.一种可行的解决方法是将数据集网格化,形成数量较少的网格对象来代替数据点参与聚类.3㊀基于网格数据中心的密度峰值聚类针对密度峰值聚类算法对大规模数据进行聚类的问题,本文提出了一种新的基于网格数据中心的密度聚类算法,用于解决大规模数据的聚类.该算法主要分为以下3个步骤.3.1㊀数据集网格化对数据集进行网格化,网格边界在所有维度的最小边界值小于数据集在其对应维度的最小值,以保证网格可以覆盖所有数据点.每一维数据都被均匀划分成相同的段数,记为f ,删除数据点个数为0的网格对象,使用剩余的网格对象参与聚类,将其个数记为N .实验结果表明,当网格对象个数N 在大于数据样本的n /5时,聚类准确率较高[6].3.2㊀网格对象的局部密度和相对距离的计算在确定网格对象集后,通过计算网格对象的局部密度ρ和相对距离δ来选取簇心网格对象.网格对象的局部密度ρ与相对距离δ的定义如下.定义3㊀以落在网格对象i 内的数据点个数与通过衰减因子(e -d 2ij)衰减后的相邻网格对象内数据点个数之和作为网格对象i 的局部密度ρi .ρi =M i +ðj ɪNie -d 2i jM j(3)其中,M i 为自身网格对象中的数据点个数,M j 为相邻网格对象中的数据点个数,N i 为网格对象i 的相邻网格对象集合,d i j 为网格对象i 与j 的距离.基于网格中心的密度峰值聚类算法[6](下文用D G C C D表示)在计算网格对象i 的局部密度时只是简单地统计落入网格对象i 的数据点个数,没有考虑相邻网格对象的影响,这样计算的网格对象的局部密度具有局部性,从全局性考虑,本文算法计算的网格对象局部密度更加准确.以图2为例,根据式(3),阴影区域网格对象i 的局部密度ρi 为其自身数据点个数与衰减后相邻网格对象(即N i ={1,2,3,4,5,6,7,8})内的数据点个数之和,其中阴影区域与 1 3 5 7 号网格对象的距离为2,与 2 4 6 8 号网格对象的距离为1.图2㊀网格对象的局部密度考虑数据点在网格对象中的分布,以样本数据集D 1为例,部分数据可能分布在网格对象的边缘而非中心位置,如图3(a )阴影区域所示.因此,在计算网格对象间的相对距离δ时,若采用网格中心则会造成一定的误差,如图3(b )所示.从图3(b )可以看出,在计算网格对象间的相对距离δ时,阴影区域网格中心位置与其数据点的位置偏离都较大,计算的相对距离δ会存在较大误差.相反地,若采用网格对象数据中心,则会相应地减小这个误差,如图3(c )所示.从图3(c )可以看出,阴影区域中5个网格对象数据中心的位置与其数据点的位置都十分接近,计算的相对距离δ误差较小.定义4㊀将网格对象i 数据中心到更高密度网格对象j数据中心的欧氏距离d ei j 作为网格对象i 的相对距离δi .δi =m i n j :ρj >ρi (d ei j )(4)854计算机科学㊀2019年(a)数据点(b)网格中心(c)网格数据中心图3㊀D 1数据集的数据点㊁网格中心与网格数据中心3.3㊀网格对象的聚类根据式(3)与式(4),求得各个网格对象的局部密度ρ和与更高密度网格对象的相对距离δ,画出决策图.D 1数据集的决策图如图4所示,通过人为选定簇心网格对象的启发式方法[5],将图中编号为 1 2的网格对象选中作为簇心网格对象.图4㊀D 1数据集的决策图剩余网格对象依据一种密度划分的方式,即每个网格对象跟随比它密度大且距离最近的网格对象类标,完成对网格对象的聚类.数据点的类标跟随其所在的网格对象类标,最终完成对整个数据集的聚类.综上所述,基于网格数据中心的密度峰值聚类算法如算法2所示.算法2㊀基于网格数据中心的密度峰值聚类输入:数据样本集S ={x 1,x 2, ,x n }输出:聚类结果1.导入数据集,对数据集进行预处理;2.按照3.1节中的方法将数据集网格化,f 初始值为2,当N<n /5时,f =f +1,将数据集进行网格化;3.根据式(3)和式(4),求得每一个网格对象的局部密度ρ与相对距离δ;4.按照3.3节,将网格对象和各网格对象中的数据点聚类;5.输出聚类结果.4㊀实验仿真本文实验所用软件环境为操作系统W i n d o w s 7,使用M a t l a b 7.0编译环境;硬件配置为AM DA 4G4300M A P U w i t hR a d e o nH D G r a ph i c s 双核处理器,物理内存为4.00G B .4.1㊀聚类性能对比测试本文算法聚类质量的实验数据集为A g g r e ga t i o n ,T w o _C l u s t e r ,T h r e e _C l u s t e r ,F i v e _C l u s t e r ,F l a m e ,D 31和R 15共7个数据集,各个数据集的基本属性如表1所列,经过本文算法聚类后的二维分布图如图5所示[7G9].实验中对每个数据集进行6次聚类测试,求得不同算法在每个数据集上的平均算法执行时间t 和每个数据集在不同算法下的准确率r ,从而分析该算法的聚类稳定性[10G11].表1㊀7个数据集的基本属性实验数据集数据集属性维数类数数据量A g g r e ga t i o n 27788T w o _C l u s t e r 22400T h r e e _C l u s t e r23600F i v e _C l u s t e r252000F l a m e 22240D 312313100R 15215600(a )A g g r e g a t i o n (b )T w o _C l u s t er(c )T h r e e _C l u s t e r (d )F i v e _C l u s t er(e )F l a m e (f )D 31(g)R 15图5㊀7个数据集下本文算法的聚类结果本文算法对以上7个数据集进行了聚类测试,它们经过网格划分后的决策图如图6所示.954第6A 期李晓光,等:基于网格数据中心的密度峰值聚类算法本文通过D P C ㊁D G C C D 和本文提出的基于网格数据中心的密度峰值聚类算法3种算法在7个数据集上的对比实验,来测试3种聚类算法的性能,实验结果如表2所列.(a )A g g r e g a t i o n (b )T w o _C l u s t e r(c )T h r e e _C l u s t e r (d )F i v e _C l u s t er(e )F l a m e (f )D 31(g)R 15图6㊀7个数据集网格对象的决策图表2㊀3种算法在7个数据集上的实验结果实验数据集平均聚类准确率r/%D P C D G C C D 本文算法平均聚类时间t /sD P CD G C C D 本文算法A g g r e ga t i o n 99.87399.74699.74610.2603.9083.354T w o _C l u s t e r 1001001003.0733.0452.613T h r e e _C l u s t e r1001001005.8013.3802.938F i v e _C l u s t e r99.30099.25099.200113.2628.5467.906F l a m e 78.75097.50097.9171.9192.8112.358D 3196.74094.130100396.83511.07110.686R 1599.67096.6701006.1736.1455.9724.2㊀算法时间复杂度分析假设数据集中数据点数为n ,维度为d ,则对数据集进行网格化的过程及计算网格对象的密度代价为Ο(d n f 2),对网格对象数据中心间相对距离的计算代价为Ο(N 2),然后对网格对象和网格中的数据点进行聚类的计算代价为Ο(N l o g(N )).因此,本文算法总的算法时间复杂度为Ο(d n f 2+N 2+N l o gN ).表3列出了3种算法的时间复杂度对比结果.由表3可知,不同于D P C 算法,本文算法有着较低的时间复杂度;相比D G C C D 算法,本文算法的算法复杂度比D G C C D 算法略有减小,其差别在于D G C C D 算法在处理边缘点时的代价为O (b n ),其中b 表示边缘点的个数,因此D G C C D 算法的时间复杂度略高.而本文算法对于边缘点,即在确定边缘网格对象后,边缘网格对象中的数据点的类标跟随其边缘网格对象的类标;因此在确定簇类中心网格对象后,通过基于密度的划分,将网格对象聚类完毕,网格对象中数据点的类标跟随其落入的网格对象的类标,这样完成最后的聚类.在时间复杂度上,本文算法减少了边缘点的计算,因此执行速度比D G C C D 算法稍快;3种算法的时间复杂度如表3所列,由表2可知,本文算法的准确率较高.表3㊀3种算法的时间复杂度聚类算法时间复杂度D P CΟ(n 2+n l o g (n )+n /2)D G C C D Ο(d n f 2+N 2+N l o g (N )+b n )本文算法Ο(d n f 2+N 2+N l o g(N ))4.3㊀实验结果分析综合上述7个数据集的实验结果可知,本文算法在前4个数据集上的聚类准确度与D P C 算法的准确度较为接近;但是在F l a m e 数据集上,D P C 算法的聚类准确度有着明显的下降,而本文算法却有着较高的聚类准确度;另外,通过与D G C C D 算法的对比,本文算法在前4个数据集上的聚类准确度与D G C C D 算法的准确度基本一致,而且本文算法的平均聚类时间较D G C C D 算法略有减少;在F l a m e ㊁D 31和R 15数据集上,本文算法的聚类准确度均高于D G C C D 算法的准确度,且算法执行时间也相对较小.由此可知,本文算法有着较高的聚类准确度和较高的聚类质量,而且算法的执行速度较快.结束语㊀本文提出的基于网格数据中心的密度峰值聚类算法,在计算网格对象局部密度时,从全局性角度,充分考虑相邻网格对象的影响,本文使用衰减因子来衰弱其对目标网格对象的影响,提出了一种新的局部密度计算方法;在网格对象相对距离的计算上,考虑到某些网格对象中数据点与网格中心偏离较大,本文使用网格数据中心之间的距离来作为网格对象的相对距离δ,从而来减小误差.如何对不规则的数据集和流形数据集进行网格化,使其能够更准确地聚类,将是下一步研究的重点.参考文献[1]O n l i n eC o m p u t e rL i b r a r y C e n t e r ,I n c .H i s t o r y ofO C L C [E B /O L ].[2016G11G08].h t t p s ://z h u a n l a n .z h i h u .c o m /p/22452157.[2]Y A N G H.D a t am i n i n g :C o n c e p t s a n dt e c h n i q u e s [J ].S a nF r a n Gc i s c o ,2001,29(S 1):1G18.[3]王骏,王士同,邓赵红.聚类分析研究中的若干问题[J ].控制与决策,2012,27(3):321G328.[4]O n l i n e C o m p u t e rL i b r a r y C e n t e r ,I n c .H i s t o r y ofO C L C [E B /O L ].[2017G06G05].h t t p s ://w w w.j i a n s h u .c o m /p /9b 53c d 7e b 28d .[5]R O D R I G U E ZA ,L A I O A.C l u s t e r i n g b y f a s t s e a r c ha n d f i n do f d e n s i t ype a k s [J ].S c i e n c e ,2014,344(6191):1492G1496.㊀㊀㊀(下转第487页)064计算机科学㊀2019年图13㊀3种距离计算方法的精确率对比可以直观看到,加权L B_H u s t算法在5组数据集上皆有较高的精确率,尤其是在I r i s数据集上.总体而言,根据确定滑动窗口初始规模算法得出窗口大小w=8,加权L B_H u s t 算法的正负趋势因子w n=0.6,w p=0.4,该办法在5个数据集上的精确率分别为0.920.870.750.800.70,其效果最好.结束语㊀本文在传统算法的基础上,提出了一种确定滑动窗口规模的边界距离算法.该方法可根据时序的振幅特征确定滑动窗口初始规模,能有效地保留重要的数据点;并在L B_H u s t算法中引入了权重因素,使其在时序相似聚类中具有更高的精度.实验结果表明,确定窗口初始规模的加权L B_H u s t算法与原始L B_H u s t算法相比,其聚类精确率㊁召回率和I指数都更好,可以更好地降低时间复杂度,提高相似性聚类效率.参考文献[1]C H E R N I C K M R.W a v e l e t M e t h o d s f o rT i m eS e r i e sA n a l y s i s [J].T e c h n o m e t r i c s,2016,43(4):491G497.[2]A N D R E W B,K E L V Y N J.E x p l a i n i n g F i x e d E f f e c t s:R a n d o mE f f e c t sM o d e l i n g o fT i m eGS e r i e sC r o s sGS e c t i o n a l a n dP a n e lD aGt a∗[J].P o l i t i c a l S c i e n c eR e s e a r c h&M e t h o d s,2015,3(1):133G153.[3]B U L L M O R E E,L O N G C,S U C K L I N GJ,e ta l.C o l o r e dn o i s ea n d c o m p u t a t i o n a l i n f e r e n c e i nn e u r o p h y s i o l o g i c a l(f M R I)t i m es e r i e sa n a l y s i s:R e s a m p l i n g m e t h o d si nt i m ea n d w a v e l e td oGm a i n s[J].H u m a nB r a i n M a p p i n g,2015,12(2):61G78.[4]李正欣,张凤鸣,张晓丰,等.多元时间序列特征降维方法研究[J].小型微型计算机系统,2013,34(2):338G344.[5]A D WA NS,A L S A L E HI,MA J E DR.An e wa p p r o a c h f o r i m a g e s t i t c h i n g t e c h n i q u e u s i n g D y n a m i cT i m eW a r p i n g(D TW)a l g oGr i t h mt o w a r d s s c o l i o s i s XGr a y d i a g n o s i s[J].M e a s u r e m e n t,2016,84:32G46.[6]C H E N TL,C H E N FY.A n i n t e l l i g e n t p a t t e r nr e c o g n i t i o nm oGd e l f o r s u p p o r t i n g i n v e s t m e n t d e c i s i o n s i ns t o c k m a r k e t[J].I nGf o r m a t i o nS c i e n c e s,2016,346:261G274.[7]刘芬,郭躬德.基于符号化聚合近似的时间序列相似性复合度量方法[J].计算机应用,2013,33(1):192G198.[8]X I A OJ,B A IL,L IF,e t a l.S i z i n g o fE n e r g y S t o r a g e a n dD i e s e lG e n e r a t o r si n a n I s o l a t e d M i c r o g r i d U s i n g D i s c r e t e F o u r i e rT r a n s f o r m(D F T)[J].I E E E T r a n s a c t i o n s o nS u s t a i n a b l eE n e rGg y,2014,5(3):907G916.[9]李正欣,张凤鸣,李克武,等.一种支持D TW距离的多元时间序列索引结构[J].软件学报,2014,25(3):560G575.[10]HU B,D I X O NPC,J A C O B SJV,e t a l.M a c h i n e l e a r n i n g a l g oGr i t h m s b a s e do ns i g n a l s f r o m as i n g l e w e a r a b l e i n e r t i a ls e n s o rc a nde t e c ts u rf a c eGa n dag eGr e l a t e dd i f f e r e n c e s i n w a l k i n g[J].J o u r n a l o f B i o m e c h a n i c s,2018,71:37G42.[11]Y A O R,L I N G S,S H IQ F,e t a l.E f f i c i e n tD e n s eL a b e l l i n g o fH u m a nA c t i v i t y S e q u e n c e s f r o m W e a r a b l e su s i n g F u l l y C o n v oGl u t i o n a lN e t w o r k s[J].P a t t e r nR e c o g n i t i o n,2017,78:252G266.[12]薛钰,梅雪,支有冉,等.基于时间序列数据挖掘的地铁车门亚健康状态识别方法[J].计算机应用,2018,38(3):905G910.[13]余宇峰,朱跃龙,万定生,等.基于滑动窗口预测的水文时间序列异常检测[J].计算机应用,2014,34(8):2217G2220.[14]李海峰,章宁,朱建明,等.时间敏感数据流上的频繁项集挖掘算法[J].计算机学报.2012,35(11):2283G2293.[15]L E E G,Y U N U,R Y U K H.S l i d i n g w i n d o w b a s e d w e i g h t e d m a x i m a l f r e q u e n t p a t t e r nm i n i n g o v e rd a t as t r e a m s[J].E x p e r t S y s t e m sw i t hA p p l i c a t i o n s,2014,41(2):694G708.[16]陈树广,李俊奎,陈胜利.C S D TW:一种时间序列流上的受限动态弯曲距离[J].计算机应用研究,2012,29(8):2939G2942.[17]李俊奎.时间序列相似性问题研究[D].武汉:华中科技大学,2008.[18]B I A N W,T A O D.M a xGM i n D i s t a n c e A n a l y s i sb y U s i n g S eGq u e n t i a lS D P R e l a x a t i o nf o r D i m e n s i o n R e d u c t i o n[J].I E E E T r a n s a c t i o n s o nP a t t e r nA n a l y s i s&M a c h i n e I n t e l l i g e n c e,2011,33(5):1037G1050.[19]N I E N N A T T R A K U L V,R U E N G R O N G H I R U N Y A P,R AGT A N AMA H A T A N ACA.E x a c t i n d e x i n g f o rm a s s i v e t i m e s eGr i e s d a t a b a s e s u n d e r t i m ew a r p i n g d i s t a n c e[J].D a t a M i n i n g& K n o w l e d g eD i s c o v e r y,2010,21(3):509G541.[20]K E O G H E,R A T A N AMA HA T A N A C A.E x a c ti n d e x i n g o fd y n a m i c t i m ew a r p i n g[J].K n o w le d g e&I nf o r m a t i o nS y s t e m s,2005,7(3):358G386.[21]K D D D a t a s e t s.T h eU C IK D D A r c h i v e[Z].1999.[22]K O U G,P E N G Y,WA N G G.E v a l u a t i o n o fc l u s t e r i n g a l g oGr i t h m s f o r f i n a n c i a l r i s ka n a l y s i su s i n g M C D M m e t h o d s[J].I nGf o r m a t i o nS c i e n c e s,2014,275(11):1G12.(上接第460页)[6]何熊熊,管俊轶,叶宣佐,等.一种基于密度和网格的簇心可确定聚类算法[J].控制与决策,2017,32(5):913G919.[7]戴娇,张明新,郑金龙,等.基于密度峰值的快速聚类算法优化[J].计算机工程与设计,2016,37(11):2979G2984.[8]张素洁,赵怀慈.最优聚类个数和初始聚类中心点选取算法研究[J].计算机应用研究,2017,34(6):1617G1620.[9]夏庆亚.基于密度峰值和网格的自动选定聚类中心算法[J].计算机科学,2017,44(11):403G406.[10]D U MJ,D I N GSF,J I A HJ.S t u d y o nd e n s i t yp e a k s c l u s t e r i n gb a s e do nkGn e a r e s tn e i g h b o r sa n d p r i nc i p a l c o m p o n e n ta n a l y s i s[J].K n o w l e d g eGB a s e dS y s t e m s,2016,99(2):135G145.[11]Y A N G W,WA N G T,L I JD.C l u s t e r i n gp a r a m e t e r s e l e c t i o na lGg o r i t h mb a s e do nd e n s i t y f o rd i v i s i o n a l c l u s t e r i n gp r o c e s s[J].C o n t r o l a n dD e c i s i o n,2016,31(1):21G29.784第6A期彭㊀成,等:一种确定滑动窗口规模的边界距离算法。

聚类算法的分类

聚类算法的分类

聚类算法的分类
聚类算法是一种机器学习算法,其目的是将数据集中的对象分成不同的组或簇,使得同一簇内的对象相似度高,不同簇之间的相似度低。

聚类算法的分类可以根据不同的算法思想和应用场景进行划分。

1. 基于原型的聚类算法:该类算法将每个簇表示为一个原型,
如质心、中心点或者最典型的对象,然后通过计算每个对象到原型的距离来确定其所属簇。

常见的算法包括K-means、K-medoids等。

2. 基于层次的聚类算法:该类算法将对象逐层进行分组,直到
达到某个终止条件。

常见的算法包括凝聚层次聚类和分裂层次聚类等。

3. 基于密度的聚类算法:该类算法将簇定义为密度相连的对象,可以处理噪声和离群点。

常见的算法包括DBSCAN、OPTICS等。

4. 基于网格的聚类算法:该类算法将数据集划分为网格,并在
每个网格内进行聚类操作。

常见的算法包括CLIQUE、STING等。

5. 基于模型的聚类算法:该类算法假设数据集由多个组成成分
混合而成,每个组成成分对应一个簇。

常见的算法包括高斯混合模型、潜在狄利克雷分配等。

聚类算法在许多领域都有广泛的应用,如生物学、社交网络分析、文本挖掘等。

选择适合的聚类算法可以有效地提高数据分析的效率和准确性。

- 1 -。

一种改进的基于密度和网格的高维聚类算法

一种改进的基于密度和网格的高维聚类算法

一种改进的基于密度和网格的高维聚类算法Ξ朱 倩 黄志军(海军工程大学 武汉 430033)摘 要:提出了一种改进的基于密度和网格的高维聚类算法,并对算法有效性进行了验证。

该算法通过减少样本点数量的方法达到减少稠密子空间数量。

在发现高维稠密子空间时,对样本库进行精简。

这些样本点的求得能有效减少求解最小聚类的时间复杂度。

关键词:数据挖掘;聚类;网格;密度;高维数据;子空间;最小聚类中图分类号:TP311V alidity V alidation of An Improved High-dimensional ClusterAnalysis Algorithm B ased on G rid and IntensityZhu Q ian H u ang Zhijun(Navy University of Engineering,Wuhan 430033)Abstract:This paper proposes an improved high-dimensional cluster analysis algorithm based on grid and intensity,then dis2 cusses it’s validity validation.The amount of the density subspace can be deduced by cutting down that of sample data.The sam2 ple library is simplified as the high-dimensional subspaces are found.By working out such sample data the time complexity of fig2 uring out min cluster is effectively reduced.K ey w ords:data mining,cluster,grid,density,high-dimensional data,subspace,min clusterClass number:TP3111 引言聚类分析是数据挖掘领域中的一项重要的研究课题,同时也是一个具有很强挑战性的领域。

基于网格和密度的数据流聚类算法

基于网格和密度的数据流聚类算法
i u e t e mi i t s h n mum pa n n r e c lt rn g rt m o g tt e cuse n e u t ,i r v d t e cu trn fe t s n i g te h se i g Alo h t e h l tr g r s ls mp o e h l se g afc . i i i Ke r y wo ds: a a sr a ; l se n d t te m cu tr g;s b rd i u g i
whc o i e h p r a h b s d o e st n r .B a so e mo e o o b e—l y rc n t cin,t e ih c mb n d te a p o c a e n d n i a d g d y i y me n ft d l f u l h d a e o s u t r o h
A b t a t Ac o d n o t e c a a trsiso h aa sr a , i p r p e e td a n w l se n lo t m s r c : c r i g t h h r ce it ft e d t te m h spa e r s n e e c u tr g a g r h GTCS c i i
数据流的挖掘要在有限的内存 中完成对数据的及时处理. 通过单次扫描机制 , 在内存中保存数据流的概要信
息 ,以支持后 续 的计 算 , 成挖掘 结果 的近似性 . 形 数据 流是一 个连续 、 在线 的过程 , 传统 的聚类 算法 无法 在数 据 流 中直接 应用 , 因此数 据流 的聚类对 数 据挖 掘 领域 提 出了前 所 未 有 的新 挑 战 , 也成 为许 多学 者 研究 的热

一种基于网格密度的聚类算法

一种基于网格密度的聚类算法

一种基于网格密度的聚类算法作者:刘敏娟,于景茹,张西芝来源:《软件导刊》2012年第12期摘要:提出了一种基于网格密度的聚类算法(DGCA)。

该算法主要利用网格技术去除数据集中的部分孤立点或噪声数据,对类的边缘节点使用一种边缘节点判断函数进行提取,最后利用相近值的方法进行聚类。

实验表明,DGCA算法能够很好地识别出孤立点或噪声,聚类结果可以达到一个较高的精度。

关键词:网格聚类;边界点;网格密度中图分类号:TP312文献标识码:A文章编号:1672-7800(2012)012-0056-020引言聚类是把一组数据按照相似性归成若干类别,它的目的是使得属于同一类别的个体之间的距离尽可能地小而不同类别上的个体间的距离尽可能地大。

聚类的结果可以得到一组数据对象的集合,称其为簇或类。

簇中的对象彼此相似,而与其它簇中的对象相异。

迄今为止,已经提出了许多聚类算法,大体上这些算法可以分为基于距离的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。

基于网格的聚类算法首先将d维数据空间的每一维平均分割成等长的区间段,即把数据空间分割成一些网格单元。

若一个网格单元中所含数据量大于给定的值,则将其定为高密度单元;否则将其视为低密度单元。

如果一个低密度网格单元的相邻单元都是低密度的,则视这个低密度单元中的节点为孤立点或噪声节点。

网格聚类就是这些相邻的高密度单元相连的最大集合。

1基本概念1.1相近值网格单元内节点之间的相近值是利用节点间的距离来计算的。

节点间的相近值越大,它们就越相似。

即对这些网格单元内的节点进行聚类时,它们属于同一个类的可能性就越大。

定义1节点集:设P=(U,K),我们用P表示n条记录的集合。

U={U1,U2,…,Un}代表网格单元内的节点集K={K1,K2,…,Kr}代表网格单元内节点的属性其中,,i∈(1,2,…,n),,m∈(1,2,…,r)代表节点Ui的第m个属性Km,因此,用Km代表一个r维的向量(ki1,ki2,…,kir),i∈(1,2,…,n)。

基于密度的聚类和基于网格的两大聚类算法

基于密度的聚类和基于网格的两大聚类算法
DBSCAN:基于高密度连通区域聚类 OPTICS:通过点排序识别聚类结构
DENCLUE:基于密度分布函数的聚类
2
DBSCAN

基于密度的簇是密度相连的点的集合 主要思想
寻找被低密度区域分离的高密度区域 只要临近区域的密度(单位大小上对象或数据点的数
目)超过某个阈值,就继续聚类

13
OPTICS:通过点排序识别聚类结构

数据集的排序可以用图形描述,有助于可视化和理解数据集 中聚类结构,例如下图是一个简单的二维数据集的可达图。 其中三个高斯“凸起”反映数据集中比较稠密的部分。
14
OPTICS:通过点排序识别聚类结构

Step 1:有序种子队列初始为空.结果队列初始为空 ; Step 2:如果所有点处理完毕.算法结束;否则选择一个未处理对象( 即不在结果队列中)放人有序种子队列: Step 3:如果有序种子队列为空,返回Step 2,否则选择种子队列中的 第一个对象P进行扩张: Step 3.1:如果P不是核心节点.转Step 4;否则,对P 的E邻域内任一 未扩张的邻居q 进行如下处理 Step 3.1.1:如果q已在有序种子队列中且从P到 q的可达距离小于旧值 ,则更新q的可达距离,并调整q到相应位置以保证队列的有序性; Step 3.1.2:如果q不在有序种f队列中,则根据P 到q的可达距离将其插 入有序队列; Step 4:从有序种子队列中删除P.并将P写入结果队列中,返回Step 3
Step4 否则(即p为核心对象),给 Neps(p)中的所有对象打上一个新的类标签 newid,然后将这些对象压入堆栈的Seeds中; Step5 让CurrentObject = Seeds.top;然后检索属于Neps(CurrentObject) 的 所有对象;如果| Neps(CurrentObject) |>MinPts,则剔除已经打上标记的 对象,将余下的未分类对象打上类标签newid,然后压入堆栈; Step6 Seeds.pop,判断Seeds是否为空,是,则执行Step1 ,否则执行Step5。

一种基于密度和网格的高效聚类算法

一种基于密度和网格的高效聚类算法

一种基于密度和网格的高效聚类算法
刘章雄;刘宴兵;罗来明
【期刊名称】《重庆邮电大学学报(自然科学版)》
【年(卷),期】2010(022)002
【摘要】聚类已成为数据挖掘的主要方法之一,能够帮助人们在大量的数据中发现隐藏信息.目前最具典型的密度聚类算法是DBSCAN(density-based spatial clustering of applications with noise),它能够在空间数据库中很好地发现任意形状的簇并有效地处理噪声,但是它的计算复杂度相对较大.因此,采用划分数据集和聚簇合并方法,提出了一种基于密度和网格的高效聚类算法DGCA,并通过人工合成数据集和真实数据集对该聚类算法进行理论验证.实验结果表明该算法在效率性能和质量方面比DBSCAN都得到了提高.
【总页数】6页(P242-247)
【作者】刘章雄;刘宴兵;罗来明
【作者单位】重庆邮电大学,计算机学院,重庆,400065;重庆邮电大学,计算机学院,重庆,400065;重庆聚购科技发展有限公司,重庆,400065
【正文语种】中文
【中图分类】TP311.13
【相关文献】
1.一种基于网格的等密度线聚类算法 [J], 徐明钊;杨春;范健;张健;张耐民;
2.一种基于网格的等密度线聚类算法 [J], 徐明钊;杨春;范健;张健;张耐民;
3.一种基于网格的等密度线聚类算法 [J], 徐明钊;杨春;范健;张健;张耐民
4.一种基于图像去噪的多密度网格聚类算法 [J], 田宇;罗辛
5.一种基于图像去噪的多密度网格聚类算法 [J], 田宇;罗辛;
因版权原因,仅展示原文概要,查看原文内容请购买。

基于网格和密度的随机样例的聚类算法

基于网格和密度的随机样例的聚类算法
S h — i HAO Z e g,W AN Ho g me UN Z i we ,Z hn G n — i
( col f l t ncIfr ao nier g Taj n esy Taj 0 02, hn ) Sh o o e r i nom tnE gnei , i i U i r t, in n30 7 C i E co i n nn v i i a
维普资讯
第 3 卷 第 5期 9 20 0 6年 5月


大 学


V 1 3 No 5 o. 9 . Ma 0 6 v2 0
Ju n l f ini nvri o r a aj U iesy oT n t
基 于 网格 和 密 度 的 随机样 例 的聚 类算 法
Absr c : To i r v fiin y o e st— a e lse n loih sa d d a t h o sr iso o —p — ta t mp o eefce c fd n i b s d cu t r g ag rtm n e l h te c n tan fn n s a y i wi tm trb t s o e p ta l se n g rt m ald GDRS i p o o e . I i a e n gi n e st ih i at ue ,an v ls ailcu tr ga o h c e i i l i l s rp s d t sb s d o rd a d d n i w t y
的参考点; 然后随机选择没有分类的参考点, 并测试其邻域的稀疏状况、 与其他聚类的关系以及非空间属性的约束 来决定加入、 合并聚类或形成新的聚类; 最后把参考点映射回数据. 把此算法和 D S A B C N及 D R 算法进行了理论 BS

基于网格和信息熵的多密度聚类算法

基于网格和信息熵的多密度聚类算法
ቤተ መጻሕፍቲ ባይዱ
满 意的结果 。为提高对 多密度 数据集的聚类效 果 ,提 出了一种基于 网格和信 息熵 的多密度聚类算 法,它通过不 同密 度的 网格所 携带 的信 息熵 , 自动计算 出密 度 阈值 ,找出在多密度数据集 中不同的类 。实验证 明,该算法能 有效的去处噪声 ,发现 多密度 的类 ,具有较 好的聚类效果 。
OU } 时Caeo 算法将许多噪声点 ( ,同 h ln m e 都纳入类
cuse n l rt m , h a e r s n sa n w m p o i g p e ii n cuse n l o t m a e n g i n n o m ai n l tr g ago h t e p p rp e e t e i r v n r c so l tr g ag r h b s d o rd a d i f r to i i i i e to y wh c h ou hi f r a in e to y wh c are yt ed fe e td n i e fg d t uo ai al ac lt h nr p , i ht r g n o m t n r p i h c rid b h if r n e st so r oa tm t l yc lu aet e o i i c d n i h e h l ,a d t e d niy d fee tcu tr n t e mul — e st aas t Ex e m e t h w h tte ag rt m e st t r s o d n h n i e tf if r n l se si y h i t d n iy d t e . p r i n ss o t a l o h h i c n wi f en iee fc iey a d fn u h u t d n iycu tr a a eb te lse ngr s ls a peo ft o s fe t l n d o t em l — e st lse st t v etrcu tr e u t. h v i t i h h i K e r : l se n a t m ai r s ol g d i f r ai ne to y; lid n iy y wo ds cu tr g; u o tct e h d; r ; n o i h i m to n p mu t・ e st r

基于网格密度的带有层次因子的聚类算法

基于网格密度的带有层次因子的聚类算法

基于网格密度的带有层次因子的聚类算法贾佳【期刊名称】《计算机技术与发展》【年(卷),期】2012(022)006【摘要】基于网格和密度的聚类算法是一类很重要的聚类算法,但由于采用单调性搜索的方法,使得聚类结果并不十分理想,因此文中在GDD算法的基础上,提出了一种基于网格和密度的带有层次因子与距离因子的GDLD算法.GDLD算法将数据空间按要求划分成网格结构并计算网格密度,构建新的跃迁函数以达到形成有效聚类的目的.实验证明,该算法不仅能够发现任意形状的簇,而且使效率得到了很大的提高.同时层次因子既体现了簇的密度水平,也反映了簇密度的变化过程并使得算法参数更容易确定.%Clustering algorithm based on grid and density is a very important kind of clustering algorithm, but because of using monotonicicy search method,it can't form an effective cluster. Therefore,proposed a new clustering algorithm GDLD with hierarchy factor and distance factor based on GDD algorithm. In GDLD algorithm,data space is divided into grid structure according to the requirements and calculated the mesh density, a new transition function is constructed to form an effective cluster. Experiments show that GDLD algorithm not only can discover clusters of arbitrary shape,but also make the efficiency greatly improved. Each cluster's density is reflected better and the changing process of the density is also reflected because of level factors,besides,the algorithm parameters are easier to define.【总页数】5页(P10-13,18)【作者】贾佳【作者单位】天津大学计算机科学与技术学院,天津300072【正文语种】中文【中图分类】TP301.6【相关文献】1.基于网格密度和引力的不确定数据流聚类算法 [J], 邢长征;温培2.一种基于网格密度的聚类算法 [J], 刘敏娟;于景茹;张西芝;3.一种基于网格密度的聚类算法 [J], 刘敏娟;于景茹;张西芝4.基于方形邻域的网格密度聚类算法 [J], 兰红; 朱合隆5.基于网格密度和局部敏感哈希函数的并行化聚类算法 [J], 毛伊敏;陶涛;曹文梁因版权原因,仅展示原文概要,查看原文内容请购买。

基于网格相对密度的多密度聚类算法

基于网格相对密度的多密度聚类算法

基于网格相对密度的多密度聚类算法
程国庆;陈晓云
【期刊名称】《计算机工程与应用》
【年(卷),期】2009(045)001
【摘要】提出网格相对密度的概念和边界点提取技术,在此基础上给出了一种多密度聚类算法.该算法使用网格相对密度识别具有不同密度聚簇的相对高密度网格单元,聚类时从相对高密度网格单元开始逐步扩展生成聚簇.实验结果表明,算法能有效地识别不同形状、不同密度的聚簇并对噪声教据不敏感,具有聚类精度高等优点.【总页数】4页(P156-158,169)
【作者】程国庆;陈晓云
【作者单位】福州大学,数学与计算机科学学院,福州,350002;福州大学,数学与计算机科学学院,福州,350002
【正文语种】中文
【中图分类】TP311;TP371
【相关文献】
1.基于相对密度的多耦合文本聚类算法 [J], 王洪佳;邢长征;王星
2.基于网格相对密度差的扩展聚类算法 [J], 黄红伟;黄天民
3.基于动态的网格相对密度差聚类算法研究 [J], 钱雪忠;韩利钊;罗靖;宋威
4.基于动态的网格相对密度差聚类算法研究 [J], 钱雪忠;韩利钊;罗靖;宋威
5.基于相对密度和流形上k近邻的聚类算法 [J], 古凌岚;彭利民
因版权原因,仅展示原文概要,查看原文内容请购买。

基于网格密度的带有层次因子的聚类算法

基于网格密度的带有层次因子的聚类算法

0 引 言
聚类 ( ls r g 是 数 据 挖 掘 中 的一 种 主 要 技 Cut n ) e i
某个 阈值大 , 就不停 止聚类 。
基于 网格 的聚类算法 的思想是把数据空间量化
术 , 它是将数据对象分成 多个具 有如下 特征 的类或 簇的过程 , 即如果这些数据对象属于不 同类 , 则相似度
贾 佳
( 天津 大 学 计算机 科 学与技 术 学 院 , 津 30 7 ) 天 00 2
摘 要 : 于 网格 和 密度 的聚类算 法是 一类很 重要 的聚 类算法 , 由于采 用单 调性 搜索 的方法 , 得 聚类 结果 并 不 十分 理 基 但 使
想, 因此文 中在 G D算 法 的基 础上 , 出了一 种基 于网格 和 密度 的带有 层 次 因 子与 距 离 因子 的 G L D 提 D D算 法 。G L D D算 法 将 数据空 间按 要求划 分成 网格结 构并 计算 网格密 度 , 建 新 的跃 迁 函数 以达 到形 成 有效 聚类 的 目的。实 验证 明 , 算 法 构 该
竺 篓的 大簇
步 考蓍

l则 不 能加入 当前簇 ’
由哥 虿 此
耋 苎 , 屏掉音据 以用置 对于需要噪声 的情况 , 采 设 为 蔽 噪数 可 了
的形 状


显 阈 以 的来 其 簇 另 , 示 值 下 簇 和 他 区 n I ’
则 可
算法 中, 用户 可 以根 据实 际聚类 的结果


: 破
拳 !3完全顺 打 ,明次 D对数 据 序这也说再 GD 数 相同 ,乱 G用 D 进 并 L


的输 入顺序 不敏感 。

基于网格的多密度增量聚类算法

基于网格的多密度增量聚类算法

基于网格的多密度增量聚类算法李光兴;尹冀川;唐俊【期刊名称】《计算机与现代化》【年(卷),期】2014(000)011【摘要】This paper presents a multi-density incremental clustering algorithm based on grid ( MICG) , the discriminant function taking into account relative density and gravity distance between grid cells is introduced. When a portion of the data sets changed, without re-clustering all the data, this algorithm could formulate a new cluster according to original clustering result merely based on the relationship between the unit with changed data set and neighbored unit. This approach effectively improved efficiency of cluster analysis. The time complexity and space complexity are linear with the size of dataset and the number of attributes. The experimental results show that MICG algorithm can process cluster with any shape or different densities, and can solve the incre-ment clustering problem effectively when the data is updated.%提出一种基于网格的多密度增量聚类算法MICG,定义含网格单元间的相对密度和重心距离的判别函数。

基于网格和密度的聚类算法研究的开题报告

基于网格和密度的聚类算法研究的开题报告

基于网格和密度的聚类算法研究的开题报告一、选题背景及研究意义随着大数据时代的到来,数据量不断增加,传统的数据挖掘方法已经难以处理大规模数据,聚类算法作为一种常用的数据挖掘方法,也需要不断地进行改进和优化。

目前,基于网格和密度的聚类算法已经成为研究热点之一,它能够克服传统聚类算法的一些缺陷,比如对异常数据敏感、对噪声数据的容忍度不高等。

基于网格和密度的聚类算法是指将空间划分成网格,然后通过统计每一个网格中点的密度来寻找聚类中心。

该算法具有以下特点:首先,这种算法不依赖于距离度量,而是将空间分割成若干个网格,并统计出每个网格中的点数,进而确定聚类中心;其次,由于该算法不依赖于距离度量,因此不容易被噪声数据和异常数据影响;最后,基于网格和密度的聚类算法可以通过调整参数来适应不同的数据集。

基于网格和密度的聚类算法的研究具有重要的理论和实践意义。

在理论上,这种算法能够推动聚类算法的发展,为聚类算法的实际应用提供理论依据;在实践上,基于网格和密度的聚类算法已经被应用到很多领域,比如社交网络分析、航空运输、信用评价等领域,取得了良好的效果。

因此,本研究将探究基于网格和密度的聚类算法的原理、优势以及实际应用,并尝试对该算法进行改进和优化,提高该算法的准确度和鲁棒性。

二、研究内容本研究将围绕以下几个方面展开:1. 基于网格和密度的聚类算法原理的研究及分析。

2. 基于网格和密度的聚类算法的实践应用分析。

3. 对现有的基于网格和密度的聚类算法进行改进和优化。

4. 实验比较不同优化后的基于网格和密度的聚类算法的性能。

三、研究方法及技术路线本研究将采用文献调研、数据分析以及实验比较等方法,具体技术路线如下:1. 收集相关文献,了解基于网格和密度聚类算法的原理、应用和发展趋势。

2. 理解和掌握基于网格和密度聚类算法的关键技术和实现方式。

3. 使用不同的数据集进行实验,比较不同优化后的基于网格和密度聚类算法的性能。

4. 实验结果分析,总结性能优化的经验和方法。

基于网格和信息熵的多密度聚类算法

基于网格和信息熵的多密度聚类算法

基于网格和信息熵的多密度聚类算法周悦来;谭建豪【摘要】Although many existing clustering algorithm can find the arbitrary shape and different size clusters, but it is difficult to obtain satisfactory results for multi-density data set. In order to improve the quality and efficiency of clustering algorithm, the paper presents a new improving precision clustering algorithm based on grid and information entropy, which through information entropy which carried by the different densities of grid to automatically calculate the density threshold, and then identify different clusters in the multi-density data set. Experiments show that the algorithm can wipe off the noise effectively and find out the multi-density clusters that have better clustering results.%虽然现有的很多聚类算法能发现任意形状、任意大小的类,但用于多密度的数据集时却难以取得令人满意的结果.为提高对多密度数据集的聚类效果,提出了一种基于网格和信息熵的多密度聚类算法,它通过不同密度的网格所携带的信息熵,自动计算出密度阈值,找出在多密度数据集中不同的类.实验证明,该算法能有效的去处噪声,发现多密度的类,具有较好的聚类效果.【期刊名称】《计算机系统应用》【年(卷),期】2011(020)010【总页数】4页(P189-192)【关键词】聚类;自动阈值;网格;信息熵;多密度【作者】周悦来;谭建豪【作者单位】湖南大学电气与信息工程学院,长沙410012;湖南大学电气与信息工程学院,长沙410012【正文语种】中文所谓聚类,就是根据数据中发现的描述对象及其关系的信息,将相近相似的一组对象划分成类,使类内的对象相似性尽量大,而类间的对象相似性尽量的小[1]。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
文章预览已结束获取全文请访问
/article/02-2015-03-026.html
IMPACT factor of grid density based clustering algorithm for multi-density
YANG Shan-hong, LIANG Jin-ming, LI Jing-wen
(College of Computer, Sichuan University of Science & Engineering, Zigong , 643000, China) Abstract: Grid based clustering algorithms are more efficient in time complexity by computing grids instead of data points, so these algorithms have become a hot topic in clustering research field. However, it is difficult to obtain satisfactory results for multi-density data set. What’s more, the algorithm achieve the little complexity in time at the cost of the clustering quality, it will have difficult in recognizing the boundary point. This paper proposes the concept of impact factor of grid density (IFGD) which considers the overall effect of neighbored grids by the weight setting, and more appropriately represents the relative density of the current grid. Then, IFGD is used to identify relatively high density grid cells in clusters with different densities. The clustering process starts from one of relatively high density grid cells and extends to its neighbors to form a skeleton of the clustering. Finally, it recognizes and extracts the points of boundary grid to improve the quality of the clustering. Experimental results show that the algorithm can discover clusters with various shapes , recognize the boundary point and obtain the better multi-density clustering results. Key Words: data clustering; grid; multi-density; impact factor of grid density; cluster edge; boundary point 多时候还有很大的差别,为了发现任意大小和形状的类,现已 有很多聚类算法进行了相关的研究。基于网格和密度的算法在 处理多密度数据集时具有一定的优势,它们可以识别不同形状 的聚簇,得到的结果具有一定的稳定性,不受数据录入的先后 次序影响,因此成为聚类分析的一个热点[1,2]。 在聚类分析中一般定义密度为数据对象的密集程度,我们 可以把簇 (cluster) 看作是数据空间中数据密度较高的对象区域, 它们被噪音(即低密度区域)所分隔开来[3]。这类算法[4,5,6]可以 对形状不规则的聚类进行处理。DBSCAN 算法[4]就是其中典型 的代表,它依据基于密度的连通性分析增长聚类,不断把高密 度区域相连形成最大集合,即是一个簇。常见算法还有 OPTICS 和 DENCLUE 算法, 但是它们需要计算每个点与其它点的距离, 因此时间代价较高,计算复杂度是 o n 2 。即使用
优先出版
计 算 机 应 用 研 究
第 32 卷
基于网格密度影响因子的多密度聚类算法
杨善红,梁金明,李静雯
(四川理工学院 计算机学院,四川 自贡 643000) 摘 要:网格聚类算法由于用网格代替数据点的特性,具有较小的时间复杂度,成为了聚类领域研究的热点。但它们用
于多密度的数据集时,往往难以取得令人满意的效果,且算法在减少时间复杂度的同时牺牲了聚类的质量,会遇到网格 边界点聚类不精确的问题。为此提出了网格密度影响因子的概念,通过加权处理考虑了相邻网格的综合影响,能较好地 代表当前网格相对密度,然后利用它来识别具有不同密度聚簇的高密度网格单元,并从高密度单元网格进行扩展,直至 生成一个聚簇骨架,对边缘网格边界点进行识别和提取,提高网格聚类精度。通过实验验证,新算法能对不同大小与形 状的聚簇进行聚类,可以识别具有多个密度的不同类组成的数据集,能捕获聚簇边界点,聚类效果较好。 关键词:聚类;网格; 多密度; 网格密度影响因子; 簇边缘; 边界点 中图分类号:TP3 文献标志码:A
--------------------------------

R* 树来降
基金项目:四川省高校重点实验室资助项目(2014WZY03);四川理工学院人才引进资助项目(2011RC08);校级培育项目(2012PY10) 作者简介:杨善红(1980-),女,硕士,讲师,主要研究方向网格计算、任务调度;梁金明(1965-),男,教授,学士,主要研究方向人工智能及物联网应用; 李静雯(1979-),女,硕士,讲师,主要研究方向为分布式计算.
0 引言
聚类(cluster)是一种对数据集进行有意义的分类操作,它 可以看作是数据挖掘领域里面一种特殊的分类。不同于分类技 术需要知道每个数据的类标号,聚类根据某种划分规则在不需 要类标号的情况下,对数据集进行分组,得到有意义的聚簇, 每一个分组就是一个聚簇。从直观上看,聚类被当作是数据对 象集中稠密对象组成的子集,它们被低密度的区域所包围。聚 类不需要预先定义类别,也不需要带有类标号的训练集,属于 无监督学习的一类技术,它能自动找到数据集的内在分布,识 别出不同的数据组,因此得到了相关科研人员的高度关注,是 数据挖掘的重要分支。 众所周知,聚类算法所要处理的数据对象类型各异,一般 不同的聚簇之间所包含的数据对象的稀疏程度不一样,甚至很
相关文档
最新文档