一种基于元组不确定性的数据流有效聚类方法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一种基于元组不确定性的数据流有效聚类方法
专利名称:一种基于元组不确定性的数据流有效聚类方法
技术领域:
本发明涉及信息数据处理的技术,尤其是ー种对不确定性数据流的聚类方法。

背景技术:
聚类是将数据对象分成类或簇的过程,使得在同一个簇中的对象之间互相“接近”或者相关,而不同簇中的对象之间“远离”或者不同。

数据挖掘中的聚类可应用于市场研究、模式识别、数据分析和图像处理等众多领域。

中国作为农业大国,毎年都积累包括作物的苗情、土情、水情、虫情、气象和灾害等在内的大量的农业数据。

数据挖掘在农业上,可用于农业环境分析、病虫害防治、农业气象、农业专家系统、农业市场信息和农业种质资源等。

由于受测量仪器精度限制、环境影响等多种因素的影响,导致数据流因測量错误、数据收集不完全等而具有不确定性,即大量不确定数据存在于数据流中,这种数据流就是不确定数据流。

不确定数据流的研究已成为新近的研究热点。

现代农业中的数据具有数据量大、数据属性的多维性、动态、不完整、不确定等特点,面对海量的数据,目前迫切需要研究解决的问题是如何快速有效地聚类,从这些不确定的数据中深入寻找各种因素的相互联系是亟待解决的问题,从而为农业部门内提供具有指导性和实用性的信息。

目前,确定性数据流的聚类方法有很多,大致可分为两类单遍扫描算法和演化算法。

单遍扫描算法是聚类全部的数据,但是没有考虑到历史数据的衰退与模型的过期,不适合数据流上的聚类。

演化算法中典型的算法有CluStream算法、HP-Stream算法等。

但是这些算法全是针对确定性数据流的,并且在聚类中仅考虑距离因素。

不确定数据流可分为两种元组属性值不确定和元组值确定但元组存在性不确定。

目前不确定数据流聚
类已有ー些算法,如UMiciO算法等,但这些算法仅考虑数据元组的属性值不确定,并没有考虑到元组的存在性的不确定性。

发明内容
为了克服已有的不确定性数据流聚类方法的没有考虑到元组的存在性的不确定性、聚类质量较低、处理速度较慢的不足,本发明提供一种考虑到元组的存在性的不确定性、提升聚类质量、处理速度很快的基于元组不确定性的数据流有效聚类方法。

本发明解决其技术问题所采用的技术方案是一种基于元组不确定性的数据流有效聚类方法,包括以下步骤I)初始化将内存划分为两个区域主缓冲区BUFm和副缓冲区BUFv,分别存放“正常”元组和“离群”元组的微簇信息,将BUFm和BUFv初始化为空;2)寻找归属簇对于元组存在性不确定的数据流S = Kv1, P1), L, , L}中姆个到达的新元组(K尸),分别在主缓冲区和副缓冲区中为其寻找接受的簇;、
2. I),在主候选区内为新元组灰尸)寻找归属簇,包括以下步骤Stepl :如果主缓冲区没满,即候选区内微簇的个数小于主缓冲区的规模nm(|BUFM|(l-a)};介于弱簇与强簇之间的簇为弱簇,即满足
β ^ APc 具体实施例方式下面结合附图对本发明作进ー步描述。

參照图1,一种基于元组不确定性的数据流有效聚类方法,包括以下步骤I)初始化将内存划分为两个区域主缓冲区BUFm和副缓冲区BUFv,分别存放“正常”元组和“离群”元组的微簇信息。

将BUFm和BUFv初始化为空。

2)寻找归属簇对于元组存在性不确定的数据流S = Kv1, P1), L, , L}中姆个到达的新元组(K 尸),分别在主缓冲区和副缓冲区中为其寻找接受的簇。

首先,在主候选区内为新元组(K尸)寻找归属簇,包括以下步骤Stepl :如果主缓冲区没满,即候选区内微簇的个数小于主缓冲区的规模nm(|BUFM| 权利要求
1.一种基于元组不确定性的数据流有效聚类方法,其特征在于包括以下步骤1)初始化将内存划分为两个区域主缓冲区BUFm和副缓冲区BUFv,分别存放“正常”元组和“离群”元组的微簇信息,将BUFm和BUFv初始化为空; 2)寻找归属簇对于元组存在性不确定的数据流S = Kv1, P1), L, , L}中姆个到达的新元组{V,P),分别在主缓冲区和副缓冲区中为其寻找接受的簇;、
2.I),在主候选区内为新元组(K尸)寻找归属簇,包括以下步骤 Stepl :如果主缓冲区没满,即候选区内微簇的个数小于主缓冲区的规模nm(|BUFM|全文摘要
一种基于元组不确定性的数据流有效聚类方法,包括以下步骤1)初始化将内存划分为两个区域主缓冲区BUFM和副缓冲区BUFV,分别存放“正常”元组和“离群”元组的微簇信息,将BUFM和BUFV初始化为空;2)寻找归属簇对于元组存在性不确定的数据流S={,L,,L}中每个到达的新元组分别在主缓冲区和副缓冲区中为其寻找接受的簇;3)更新维护微簇信息,包括以下步骤Step1衰减操作;Step2删除过于陈旧的微簇;Step3簇交换机制;Step4填充主缓冲区。

本发明考虑到元组的存在性的不确定性、提升聚类质量、处理速度很快。

相关文档
最新文档