基于模糊关联空间的有效大数据过滤方法
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.2 构建虚假无效数据的识别规则库 对大数据下的有效数据样本进行统一归类和处 理 ,利 用 聚 类 算 法 对 虚 假 无 效 数 据 进 行 必 要 的 聚 类 集 成,得到虚假无效数据的全部类别信息,完成虚假无效 数据的具体分类,按照聚类中心建立的虚假无效数据识 别规则库,建构一个完整的虚假无效数据识别模型,具体 过程如下。
基于模糊关联空间的有效大数据过滤方法
第 29 期
j = 1,2,…,N 表示有效数据样本内的具体数量,为了最大
限度地规避大数据环境下数据样本内最大值和最小值的
影响,就必须对有效数据样本进行统一归类处理,有些虚
假无效数据极有可能属于同一类型,所以就需要把每一
假 设 {Z1,Z2,…,ZN} 表 示 大 数 据 下 有 效 数 据 样 本 ,
收稿日期:2019-09-17
作者简介:李玮瑶(1982—),女,硕士,副教授,研究方向:大数据处理。
Copyright©博看网 . All Rights Reserved.
·12·
1 基于模糊关联空间的有效大数据过滤方法
1.1 利用动态编译实现数据采集过滤 动态编译数据采集工具的主要功能是采集数据在运
行过程中产生的信息,以特殊的格式完成存储,为后续分 析与过程回放提供有效的数据源。首先利用系统配置向 导去选取合适的匹配信息,有关匹配信息的内容主要包 括数据类别、系统相关运行信息。其次,配置完成以后, 按照具体的配对信息自动生产一组动态代码,将动态代 码组编为动态编译,形成一个正式结构。此结构就是针 对系统动态生成的数据采集信息。最后,用户可以在形 成的数据树表中选取合适对象的有关信息。
下。基于此,本文提出基于模糊关联空间的有效大数据过滤方法,利用动态编译实现数据采集过滤,进行分
布式离群点检测,通过网闸过滤对数据信息进行过滤。经对比试验,该方法能够实现有效大数据的高效过
滤,而基于区域划分的数据过滤方法,无法充分利用试验环境中所有实体的数据信息,因此不可能实现较高
的过滤效率,由此证明了本研究所提方法的实用性和有效性。
在空间数据挖掘研究领域,空间关联规则具体指的是空 间对象彼此间的空间和非空间的相互关系[1]。因为空间对象 彼此间的关系一般会利用空间和非空间的定语来表示,与之 相对应,挖掘空间的关联规则就必须借助两类层次进行充分 表达,即概念层次与空间关系层次[2]。其中,空间关系层次主 要包括空间拓扑构造、空间方位层次以及空间度量关系层 次[3]。这些层次的类别构造并不具备硬性标准,这就需要适 当引进模糊隶属度来对边界进行软化,产生模糊概念层次以 及模糊空间关系层次,在这个基础上所研究的空间关联规则 就是人们常说的模糊空间关联规则(FSA Rs)[4]。本文以有效 大数据信息为关键,对其处理和过滤方法进行了研究,希望 可以在某些方面给予研究人员一定启发。
Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have cer⁃ tain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and fil⁃ tering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through com⁃ parative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method pro⁃ posed in this study. Keywords: fuzzy association space;effective big data;filtering
总 691 期第二十九期 2019 年 10 月
河南科技 Henan Science and Technology
信息技术
基于模算机学院,河南 平顶山 467000)
摘 要:传统的大数据过滤方法,其降噪处理和过滤效果都会对最终结果产生一定影响,导致过滤效率低
关键词:模糊关联空间;有效大数据;过滤
中图分类号:TP312
文献标识码:A
文章编号:1003-5168(2019)29-0011-03
An Effective Big Data Filtering Method Based on Fuzzy Correlation Space
LI Weiyao (School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000)
基于模糊关联空间的有效大数据过滤方法
第 29 期
j = 1,2,…,N 表示有效数据样本内的具体数量,为了最大
限度地规避大数据环境下数据样本内最大值和最小值的
影响,就必须对有效数据样本进行统一归类处理,有些虚
假无效数据极有可能属于同一类型,所以就需要把每一
假 设 {Z1,Z2,…,ZN} 表 示 大 数 据 下 有 效 数 据 样 本 ,
收稿日期:2019-09-17
作者简介:李玮瑶(1982—),女,硕士,副教授,研究方向:大数据处理。
Copyright©博看网 . All Rights Reserved.
·12·
1 基于模糊关联空间的有效大数据过滤方法
1.1 利用动态编译实现数据采集过滤 动态编译数据采集工具的主要功能是采集数据在运
行过程中产生的信息,以特殊的格式完成存储,为后续分 析与过程回放提供有效的数据源。首先利用系统配置向 导去选取合适的匹配信息,有关匹配信息的内容主要包 括数据类别、系统相关运行信息。其次,配置完成以后, 按照具体的配对信息自动生产一组动态代码,将动态代 码组编为动态编译,形成一个正式结构。此结构就是针 对系统动态生成的数据采集信息。最后,用户可以在形 成的数据树表中选取合适对象的有关信息。
下。基于此,本文提出基于模糊关联空间的有效大数据过滤方法,利用动态编译实现数据采集过滤,进行分
布式离群点检测,通过网闸过滤对数据信息进行过滤。经对比试验,该方法能够实现有效大数据的高效过
滤,而基于区域划分的数据过滤方法,无法充分利用试验环境中所有实体的数据信息,因此不可能实现较高
的过滤效率,由此证明了本研究所提方法的实用性和有效性。
在空间数据挖掘研究领域,空间关联规则具体指的是空 间对象彼此间的空间和非空间的相互关系[1]。因为空间对象 彼此间的关系一般会利用空间和非空间的定语来表示,与之 相对应,挖掘空间的关联规则就必须借助两类层次进行充分 表达,即概念层次与空间关系层次[2]。其中,空间关系层次主 要包括空间拓扑构造、空间方位层次以及空间度量关系层 次[3]。这些层次的类别构造并不具备硬性标准,这就需要适 当引进模糊隶属度来对边界进行软化,产生模糊概念层次以 及模糊空间关系层次,在这个基础上所研究的空间关联规则 就是人们常说的模糊空间关联规则(FSA Rs)[4]。本文以有效 大数据信息为关键,对其处理和过滤方法进行了研究,希望 可以在某些方面给予研究人员一定启发。
Abstract: The traditional big data filtering method, its noise reduction processing and filtering effect will have cer⁃ tain influence on the final result, resulting in low filtering efficiency. Based on this, this paper proposed an effective big data filtering method based on fuzzy associative space, used dynamic compilation to realize data collection and fil⁃ tering, performd distributed outlier detection, and filterd data information through gatekeeper filtering. Through com⁃ parative experiments, this method can achieve efficient filtering of effective big data, and the data filtering method based on region division can not fully utilize the data information of all entities in the experimental environment, so it is impossible to achieve high filtering efficiency, which proves the practicality and effectiveness of the method pro⁃ posed in this study. Keywords: fuzzy association space;effective big data;filtering
总 691 期第二十九期 2019 年 10 月
河南科技 Henan Science and Technology
信息技术
基于模算机学院,河南 平顶山 467000)
摘 要:传统的大数据过滤方法,其降噪处理和过滤效果都会对最终结果产生一定影响,导致过滤效率低
关键词:模糊关联空间;有效大数据;过滤
中图分类号:TP312
文献标识码:A
文章编号:1003-5168(2019)29-0011-03
An Effective Big Data Filtering Method Based on Fuzzy Correlation Space
LI Weiyao (School of Computer Science, Pingdingshan University,Pingdingshan Henan 467000)