一种实现混合属性数据流聚类的算法

第35卷第2期

2016年6月计 算 技 术 与 自 动 化ComputingTechnologyandAutomationVol.35,No.2 Jun.2016收稿日期:2015-09-05

基金项目:北京航空航天大学软件开发环境国家重点实验室开放基金资助项目(SKLSDE-2013KF)

作者简介:朱俚治(1980—),男,江苏宜兴人,工程师,学士,研究方向:计算机网络和信息安全。

通讯联系人,E-mail:zlz@nuaa.edu,.cn文章编号:1003-6199(2016)02-0034-04

一种实现混合属性数据流聚类的算法

朱俚治1 ,朱梧檟2

(1.南京航空航天大学信息中心,江苏南京 210016; 2.南京航空航天大学计算机科学与技术学院,江苏南京 210016)

摘 要:

在当今的网络中存在三种形式的数据流,连续型数据流,标称型数据流和混合属性数据流。由于目前在数据挖掘中大部分算法只能处理一种属性的数据流,而处理混合属性数据流的算法却很少,但在

数据挖掘的实际应用中常常需要将不同属性的数据流进行相互区分。事实上研究人员在区分不同属性数

据流时,首先是将不同属性的流进行聚类,其次是对不同属性的流进行识别。在查阅有了有关资料和参考

文献后,本文提出了一种对混合属性数据流的聚类算法,该算法的聚类思想是:①提取混合属性数据流的分

类属性,②使用k-近邻算法计算数据流分类属性的相似性,③根据k-近邻算法对数据流相似度的计算结

果,使用k-均值聚类算法对混合属性数据流进行聚类,④给出聚类的算法。

关键词:混合属性数据;相似性;k-近邻算法;k-均值聚类;分类属性

中图分类号:TP372 文献标识码:A

AMixedAttributeDataStreamClusteringAlgorithmtoAchieve

ZHULi-zhi1 ,ZHUWu-jia2(1.InformationcenterofNanjingUniversityofAeronautics&Nanjing,Jiangsu 210016,China;

2.CollegeofcomputerscienceandtechnologyNanjingUniversityofAeronautics&Nanjing,Jiangsu 210016,China) Abstract:Intoday'snetworktherearethreeformsofdataflow,i.e.,continuousdatastreams,datastreamsandmixednominaltypeattributedatastream.Mostalgorithmsindataminingcanonlyprocessoneformratherthanmixedformsofda-taflow,butpracticallyintheapplicationsofdatamining,itoftenrequirestodistinguishdifferentattributesofthedatastream.Sotheauthorsproposedamixedattributedatastreamclusteringalgorithm,andtheclusteringideaofthealgorithmis:①toextractmixedattributedataclassificationpropertystream,②tousek-nearestneighboralgorithmfordatastreamclassificationattributessimilarities,③accordingtok-nearestneighboralgorithm,tocalculatethesimilarityoftheresultsof

thedatastreamusingk-meansclusteringalgorithmformixedattributedatastreampolyclass,④togivetheclusteringalgo-

rithm.Keywords:mixedattributedata;similarity;k-nearestneighbor;k-meansclustering;classificationproperties1 引 言

当今的计算机技术和网络技术发展的速度是

快速的,在这些技术快速发展的同时,产生了大量

的各种属性的数据,这些数据是连续的、无界的、不

定速度的流式数据,IT人员将这些数据称为数据

流[2]。在网络中每天都有惊人的流量吞吐量,在这些海量的数据中可将这些数据流的属性分为三种型式,连续属性数据流、标称属性数据流和混合属性数据流。从数据流的属性角度上来看,连续属性数据流和标称属性数据流是传统意义上的数据流,而混合属性数据流是IT技术发展之际产生的新属性的数据流。网络管理人员为了从这大量的数据流中获取重要的信息,必须对这三种属性的数据流进行有效准确的识别。为了对未知属性数据流

相关文档
最新文档