数据挖掘开发及应用研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘开发及应用研究
摘要:数据挖掘在当今的数字时代、网络时代以及大数据时代发展尤为迅猛,属于多学科、多领域的交叉学科,它在较短的时间内取得了令人瞩目的研究成果,并在社会的各个领域获得应用,表现了出巨大的优势和潜能。本文对数据挖掘的过程和数据挖掘技术进行了较为详细的介绍,并探讨了其应用领域和前景,旨在为数据挖掘理论与实践提供一些借鉴和新的思路。
关键词:数据挖掘;大数据;网络
中图分类号:TP311 文献标识码:A DOI:
10.3969/j.issn.1003-6970.2015.05.017
0 引言
数据挖掘是从大量的(或海量的)、不完全的、模糊的、有噪声的以及具有随性的数据中,对隐含的、具有潜在作用和有意义(有时称作有趣的)知识进行提取的过程。其主要任务是从数据集中发现模式。通过数据挖掘发现的模式形式可以多样,根据功能可分为预测性模式和描述性模式两种。在实际运用中,则可根据其实际作用划分为分类模式、预测模式、相关性分析模式、序列模式、聚类模式以及数据可视化等。数据挖掘涉及多种学科、技术和领域,因此也会有一
些不同的挖掘方法和实现。根据挖掘对象的不同,可分为关系数据库、空间数据库、文本数据源、时态数据库、多媒体数据库、遗产数据库和万维网Web等的挖掘技术;根据挖掘任务的不同,可将其分为分类或预测模型发现、聚类、关联规则发掘、数据汇总、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等;同时还可以根据挖掘方法进行划分,大致分为统计学方法、机器学习方法、数据库方法和神经网络方法等。
1 数据挖掘过程
首先,目标定义与数据准备。目标定义即是定义出明确的数据挖掘目标,数据挖掘的成败受到目标定义是否适度的影响,因此在目标定义的过程中技术人员需要具备丰富的数据挖掘经验,并与相关专家、最终用户实现紧密协作来实现,在明确实际工作的数据挖掘要求的同时,进行各种学习算法的对比,最终确定有效科学的算法。整个数据挖掘过程中数据准备占有最大的比例,约60%左右。数据准备阶段具体过程分为三步,即数据选择,数据预处理和数据变换。(1)数据选择(DataSeleetion):数据选择即是从已有的数据库或数据仓库中进行相关数据的提取,并形成目标数据(TargetData)。(2)数据预处理(DataProcessing):对参与提取的数据进行处理,从而使数据能够符合数据挖掘的要求。(3)数据变换(Data Transformation):数据变换的目的
主要在于使数据维数得到精简,进而从数据初始特征中找出真正有用的特征,减小数据挖掘过程中需要考虑的变量个数与特征。
其次,数据挖掘。数据挖掘阶段属于实际的挖掘工作过程,首先需要进行算法的规划,决定所要采用的数据挖掘方法,然后在挖掘方法的基础上选择一种算法,待完成上述准备工作后,对数据挖掘算法模块予以运行。数据挖掘阶段是相关领域专家、数据挖掘分析者最关心的阶段,能够在真正意义上称之为数据挖掘。
最后,解释与评估。分析所提取的信息是根据最终用户的决策目的所进行的,目的在于将最有价值的信息提取出来。在数据挖掘阶段发现的模式,还需要采用机器或者经过用户的评估,其删除冗余或者无关的模式,而对于那些无法满足用户要求的模式,应退回上一阶段,重新发现模式。应注意的是,数据挖掘所面对的最终用户是人,所以需要对发现的模式进行可视化,或者将结果进行转换,使用户能够明白。
2 计算机数据挖掘技术的开发
计算机数据挖掘技术的开发,一开始就已经将数据挖掘定位成了以决策服务为导向的,以及应用型的,正是数据挖掘的出现,使得决策者的知识储备要求获得了极大的降低,并且对数据挖掘技术进行研究的企业也越来越多。
2.1 传统统计法
传统统计方法主要包括了三种,即抽样、多元统计分析和统计预测。抽样指的是,在海量的数据当中,为了免于对所有的数据进行分析进而采用的合理抽样。多元统计分析则是进行的因子分析,或者对具有复杂结构、较高维数的数据进行的分析。统计预测则是指回归分析、序列分析等。
2.2 遗传算法
遗传算法是一种设计方法的优化技术,是基于进化理论,并采用遗传变异、遗传结合和自然选择等实现的。其主要思想为“按照适者生存的原则,在最适合的规则下由当前群体组成新的群体,并形成这些规则的后代。”这些规则的适合度在度典型情况下,采用其对训练样本集分类的准确率进行评估。
2.3 决策树法
一系列规则的划分为基础建立的树状图,能够用于各种分类与预测。其算法具体包括有C4.5、ID3、CHAID和CART 等等;如今又出现了新的算法,如SLIQ和SPRINT,新算法能够由非常大的训练集归纳决策树,并对分类属性和连续性属性进行处理。
2.4 神经网络
一个神经网络从结构上可划分为输入层、输出层和隐含层。在输入层中,各个节点都对应了一个相应的预测变量;
而输出层节点则对应多个目标变量。隐含层位于输入层与输出层之间,其层数和每层节点的个数决定了神经网络的复杂程度。神经网络每个节点除了连接输入层的节点,同时也与它前面很多节点向连接,并且各个连接均对应权重Wxy,而该节点的值,则是通过其所有输入节点的值与对应权重乘积的和作为函数输入得到的,这个函数被称为挤压函数或者活动函数。
2.5 联机分析
联机分析是一种进行多维数据分析的方法,需要通过联机来实现。用户需要积极配合联机分析,主动提出分析要求,筛选分析算法,并对数据进行由浅入深的探索性分析。
2.6 可视化技术
由于数据特征有时并不明显,为了解决这个问题便于用户理解,可采用图标等方式来对数据的特征进行表述,使数据更加直观明了,如散点图、饼图、柱状图等可视化方法等,但是高维数据的可视化在目前还存在较大的困难。