计算机数据挖掘中取样方法的研究综述
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
计算机数据挖掘中取样方法的研究综述
摘要:随着信息技术迅速发展,数据库的规模呈现出不断扩大的趋势,由此也产生了大量的数据这大量的数据一般情况下都隐藏在其中的能对决策提供支持的信息,不利于有效信息及时的被挖掘出来,而传统的查询、报表工具无法满足挖掘这些信息的需求。
因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(Data Mining)技术由此也进一步被重视起来。
对于计算机数据挖掘中取样方法取样方法研究也随之增多,取样方法就是指通过调查种群的部分,根据所得数据推广用于估计种群整体的方法。
这种方法可以极大的减小所处理数据集的规模,有利于众多的数据挖掘算法被应用到具体的大规模的数据集上,本文首先介绍了数据挖掘技术的相关定义和方法,计算机数据挖掘领域中相对具有代表性的取样方法的分析研究比较,分析指出了计算机挖掘技术中,均匀取样的局限性,并且阐述了在某些具体的应用场景中选用偏倚取样方法的具有一定的必要性。
综合分析取样技术在计算机数据挖掘领域中的研究,最后针对性的对于计算机数据挖掘取样方法所面临的问题和对策做出相关分析,以供相关学者参考。
关键词:计算机;数据挖掘;取样方法;研究;综述
引言
近年来,计算机数据库技术取得了很大的发展,数据库中存储的数据量日渐增加,这就导致传统的计算机数据挖掘中的取样方式已经无法满足计算机现代化数据库发展的要求。
在计算机数据挖掘的过程中,只有保证挖掘方法具有科学性和创新性和适宜性,才能有效减少数据挖掘计算的时间,提升数据挖掘效率。
对于计算机数据挖掘中取样方法的选择首先一定要在明确了解其相关的计算机数据挖掘技术,并不是任何一种取样方法都能适用于具体的计算机数据挖掘工作或者技术。
所以要求在进行专业的计算机数据挖掘取样方法的探究之前有必要对计算机数据挖掘相关的定义、理论和方法进行全面的分析和了解,这样才能保证计算机数据挖掘技术取样方法研究的科学、全面。
才能最大成程度的对当前计算机
数据挖掘技术取样方法面临的挑战进行准确的把握。
一、计算机数据挖掘的相关理论和方法
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。
它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。
数据挖掘的过程也被称作是知识发现的过程。
具体的数据挖掘方法有统计方法。
传统的统计学为数据挖掘可以提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。
贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
关联规则。
关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。
关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。
大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
聚类分析。
聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。
聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。
并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
决策树方法。
决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。
树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。
决策
树方法是要应用于数据挖掘的分类方面。
神经网络。
神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。
人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
遗传算法。
遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。
每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。
遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。
在数据挖掘中,可以被用作评估其他算法的适合度。
粗糙集。
粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。
粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。
所有相似对象的集合称为初等集合,形成知识的基本成分。
任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。
每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。
粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
支持向量机。
支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。
它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。
另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。
支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
任何一种挖掘工具往往是根据具
体问题来选择合适挖掘方法。
二、计算机数据挖掘取样方法
取样技术是当前世界范围内最通用的一种近似技术,在处理大规模数据工作中应用非常广泛。
现阶段数据挖掘研究的核心内容是概要结构的设计,而取样技术本身具备的伸缩性以及灵活性,与其他技术相比是独特的,这就使取样技术成为能够构建数据流概要结构的重要技术之一。
抽样作为一种经典的统计技术,具有已超过百年的研究历史,尤其是随机抽样技术,例如中心极限定理等许多权威的基本原理都对抽样技术进行了进一步的有效性论证。
在计算机数据管理领域中,取样就是通过抽样能捕捉数据的基本特征和一小部分数据子集来代表总数据集。
并根据这些样本集获得最近似的查询结果。
或者是在该样本集的指导下进行具体的数据挖掘工作,这样其数据挖掘就有更加权威的依据。
除此之外具有代表性的取样方法有
第一,A/R Sampling,A/R Sampling进行的首要步骤是通过某一种计算方式在数据集中随机抽选一个备选的元素,其次是将被选中的备选元素与选择条件进行对比,若备选元素与选择条件相符合,则需将其放置于样本集中,即acceptance;若与选择条件不相符,则需拒绝,即rejection;然后从第一个步骤开始重新来过。
其次是精确取样。
第二,精确取样就是在样本集中出现仅有一次的元素应该使用元素代码进行表示,出现多次的元素应该使用value,counto表示,value代表元素代码,counto 代表数量。
在样本集中添加元素时,若该元素已存在于样本集中时,应该在目录的相应元素后加1,若该元素尚未被收集到样本集内,则可进行直接收取。
样本集中存储的元素已经超过标准值时,需要对各个元素的原有参数与现有参数进行对比,并选择其中一个将其删除,保证新数据有存放的空间。
第三,计数取样。
计算取样方式是通过精确取样演变而来的,变化主要体现在样本集中元素数量已满时,对溢出元素的处理方式。
计数取样在处理溢出元素情况时,不仅需要将元素的原有参数与现有参数进行对比,计算原、现参数之间的比率,利用现参数分之一对是否将元素删除进行判断,若其中的一个数据的计数值为0时,无需进行该数据的操作。
第四,国会取样。
国会取样的应用背景是分组近似查询。
它在具体的每一个
分组内都进行了独立的水库取样,但是需要注意的是不同组的取样率是不同的额,它是均匀取样和偏倚取样的综合。
对于各分组内属性进行了综合的考虑。
这种取样方法一定程度上克服了均匀取样的局限性。
第五,加权取样。
在近似聚集查询处理中,党聚集属性的分布呈现出偏斜的以及低选择性时,通过加权取样能有效的克服均匀取样的局限性。
它是带权值的偏倚去放方法。
三、计算机数据挖掘取样方法的应用与发展
数据挖掘取样技术在计算机中应用的成功案例有很多,具体包括:商业数据统计的SAS、SPSS数据处理软件、使用均匀取样方式对大规模的数据集进行有效处理、计算机数据概要结构构建过程中使用的基础取样技术、在数据挖掘计算方式中可以利用均匀取样方式完成CURE和CLARANS的数据预处理,实现数据挖掘计算技术的扩展等。
关于计算机数据挖掘取样技术的发展,首先是传统取样技术的发展。
有穷非负数数列的评估方法中就包括自适应取样,该取样方式在数据挖掘中选取的样本大小可调节,有效减小取样大小对数据结果造成的误差。
两阶段取样方式可有效降低取样的成本。
比如,在对象集X中进行Y取样的代价过高,就可以利用选取一些取样辅助变量P的方式降低取样代价。
两阶段取样方式的具体应用流程为,首先完成对象集X中的大尺寸W的取样工作,从样本W中提取出辅助变量P;其次,通过已掌握的P的数据信息在W中提出数据;最后通过以上步骤中的取值保证指定的取样值Y的取样,并且能够提升Y的准确性,以此完成取样工作。
其次是数据流中取样技术的发展。
数据流中的数据流管理和挖掘两方面会涉及到取样技术。
第一,数据流的模型处理工作中,数据概要结构的生成会使用到计数取样和水库取样等取样技术;第二,在数据流中查询近似聚集数据时会使用到国会取样以及Distinct Sampling等取样技术;第三,数据流的查询、分类、评价以及在线分析等多项工作中都会使用到偏倚取样技术。
当然随着科学技术的发展,取样技术面临了一定的挑战,现行的计算机取样技术存在的不足主要体现在数据流管理中,在小规模样本集中提取的数据准确性不足,在空间条件以及准确性的有限制的情况下,样本尺寸具有不确定性;与标模界的取样技术相比,数据流管理中使用的取样技术略不成熟,存在附加成本较高、滑动窗口的面积过小等缺陷。
结语
计算机技术的发展推动了数据挖掘计算方法的创新,数据挖掘离不开取样技术,明取样技术在当前的计算机数据库查询、优化以及相关工作中都发挥了重要作用,广泛应用于数据挖掘计算的数据信息预处理中。
虽然在实际的计算机数据挖掘中,对于取样技术的成就还存在一些问题,但是只要在更深层次的研究指导下,进行针对性的实践改革,改善或消除其中的缺陷,促进取样技术的发展,一定会促进计算机挖掘技术的发展。
参考文献
[1]张成叔.关于数据挖掘取样方式的若干分析[J]. 赤峰学院学报(自然科学版),2014,09:10-11.
[2]高彩霞.数据挖掘取样方法研究[J]. 电子技术与软件工程,2014,10:213.
[3]邹本存.在用汽车排气污染物群体态势及关联性研究[D].东北林业大学,2014.
[4]王国全.基于数据挖掘的管理会计的分析研究[D].首都经济贸易大学,2016.
[5]余长俊.云环境下面向大数据的模糊C均值算法研究与实现[D].武汉理工大学,2014.
[6]周荃,赵凤英,王崇骏,陈世福. 数据挖掘方法在入侵检测中的应用研究[J]. 模式识别与人工智能,2008,04:520-526.
[7]张忠杰. 基于信息系统用户服务感知评价的数据挖掘[D].青岛理工大学,2014.。