数据挖掘的现状及趋势研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘的现状及趋势研究
近些年来,信息行业的发展带动了数据挖掘的快速兴起,面对数据挖掘的发展潮流趋势,数据挖掘领域已然成为各行业关注的焦点问题。
通过对数据挖掘研究现状和基本理论知识的介绍,着重分析了数据挖掘在市场、金融、电商等主要数据领域的一些应用现状,旨在突出数据挖掘的应用优势,为企业决策者监督和管理企业提供理论依据。
并针对发展过程中出现的数据挖掘方法不足、性能不足、缺少用户交互意识以及数据库与挖掘系统不匹配等一系列问题提出解决对策。
最后展望数据挖掘在未来的发展趋势,总结数据挖掘语言的标准化、数字化以及多种技术合作集成的发展趋势,有助于行业内竞争与发展,为未来的数据挖掘研究提供参考。
1.1 背景
科学的发展,技术的更新,信息时代悄然走进我们的生活,各种网络新技术也随着而来,由各个行业搜集、储存的很多数据组成的大数据仓库,由于数据量巨大,之前的数据挖掘方法已经不适用发掘关键信息,导致很多数据无法显示出对行业发展有用的信息,所以迫于行业形势,决策者急需能够深入数据库内部快速分析、整理未被发现的价值信息的创新技术,以便指导企业的发展。
于是在这种情形下,全新的科学技术——数据挖掘(Data Mining.DM)技术被发现,并且发展成势不可挡。
数据挖掘是数据库知识发现(Knowledge-Discovery in Databases.KDD)里的一个步骤,两者有着紧密的关系,数据挖掘技术之所以受欢迎,是因为它能解决其它技术完不成的挖掘信息的问题,它能够在海量数据中获取藏匿其中的信息,这些信息的价值远远超过之前所挖掘出来的,在深入分析之后总结价值规律,提供给企业决策者,作为未来企业发展规划的理论根据。
伴随着二十多年的数据挖掘技术的发展,同时在研究人员的共同努力下,在理论研究方面,由于数据挖掘是综合性技术,必须与其他新技术相结合,所以DM 技术深入发掘理论基础,更新所需要的理论技术,完善自身不足;在实际应用上,基于自身的优势,使得应用广泛,前景大好,像一些行业如市场营销、保险金融等,数据仓库大,信息价值高。
现在,国外DM的最新研究在于更深入的KDD采用算法研究,在行业应用中技术运用相当成熟;相对来说国内在研究方面
还处在缓慢发展阶段,技术运用也不太成熟,但总体上还是稳步上升的。
本文主要从数据挖掘理论出发,着重研究了其实际的应用现状,同时提出了在发展过程中存在的问题以及应对策略,并最后指出了几种数据挖掘未来可能的发展趋势。
1.2 研究目的与意义
1.2.1 研究目的
本文通过一系列的研究,其目的如下:
(1)通过对比突出国内外在数据挖掘领域研究现状的差距。
(2)举出实例展示数据挖掘在各行业的广泛应用优势。
(3)正确对待数据挖掘发展中自身存在的问题,并客观分析了相关应对策略效果。
(4)明确发展方向,进一步完善数据挖掘未来的发展趋势和规划。
1.2.2 研究意义
(1)分析各领域应用现状,探讨未来的发展趋势,为决策者在行业应用提供理论依据。
(2)针对数据挖掘的广泛应用实例,各行业应紧跟发展潮流,合理利用信息资源,有利于在行业中取得优势并占据领导地位。
(3)通过提出对相关问题的应对策略,减少发展过程中的错误,避免数据信息漏洞出现,完善数据挖掘技术。
(4)面对数据挖掘的发展潮流以及信息传播的趋势,通过讨论发展的方向,有利于决策者对行业进行统一规划。
1.3 研究现状
1.3.1 国外研究现状
当知识发现首次被提出于一次人工智能会议上之后,国际上便开始了对知识发现与数据挖掘的重视和研究,并在每年召开一次研讨会议,这些为数据挖掘的萌芽期做出了很大的贡献。
刘帅等(2015)认为到了九十年代,拓展了数据挖掘技术在学术领域和工程项目中的应用,各国科研工作者加大了对数据挖掘技术的
重视程度,并不断改进创新,如今已取得显著成效[1]。
如此延续到20世纪后,各国研究人员对DM技术的学术研究已取得很多研究成果,实际应用上也产生很好的应用实例。
David Taniar(2008)认为数据研究与趋势挖掘技术和应用的重点是数据领域之间的集成仓储和数据挖掘,强调对现实世界问题的适用性[2]。
Stefan Slater(2017)认为在进行数据挖掘之前,首先必须对数据集进行清洗和准备原始状态[3]。
因此,国外在数据挖掘方面的研究仍然注重数据集、数据库之间的集成等等。
当前社会信息发展迅速,数据量巨大,造成了数据仓库的满负荷,从而积压了太多的无法利用的数据,但行业市场又急需各种数据挖掘软件来发掘价值信息,于是一些国际知名数据软件开发公司致力于研发数据挖掘软件工具,从未知到尝试,了解到熟悉,数据挖掘软件开发行业已然走向成功,技术也趋于成熟,足以应付现在的需求量,从而可以实现数据与软件的双向价值。
像Angoss软件公司开发的Knowledge Studio软件,程序灵活简单易于接受、反应速度极快;IBM Intelligent Miner软件能够完成自动化操作步骤,同时融合多种算法建立特定模型等等。
1.3.2 国内研究现状
相对国外的研究成果,国内对于DM的研究仅仅处在开始阶段,各项研究起步太晚,技术方面也很不成熟,但研究人员坚持以国外先进的成果为榜样,紧跟他们步伐,并针对国内数据挖掘形势,结合实际情况,演变为属于自己的研究成果。
徐述(2011)认为时至今日,数据挖掘的对象已经远远不止步于大型数据库、数据仓库而是海量数据、大数据[4]。
闫燕(2014)表示目前市场上以出现文本挖掘设备的应用,虽其功能性有待加强,但也有效提升了企业的工作效率,文本挖掘设备的应用必将成为一种趋势[5]。
张莉(2014)表示目前应用比较广泛的数据挖掘技术包含神经系统法、树形分析法、自然选择法、估算法、结合法等[6]。
刘勇(2016)认为真正制约或者成为大数据发展和应用的三个瓶颈:数据收集的合法性、产业链各个环节企业的均衡、大数据有效解读[7]。
到现在为止,国内对于发展DM软件工具还处在尝试阶段,软件研发还停留在高校,由导师和学生组成的科研人员实在太过不成熟,其主要研究的都是关于DM的算法及理论知识,缺乏一定的科研产品,因此在社会上的认可度不高。
不过研究人员仍在学习阶段,相信未来会有很多成果出现。
任新社等(2016)指出在我国已有部分部门与企业开发出了先进的挖掘系统,如国家科技研究部门的最新成果BSNiner。
此外我国政府还加大对数据挖掘系统研发的投资力度,在全国多
所高等院校内成立研究机构,从事数据挖掘系统的开发[8]。
1.4 研究内容与方法
1.4.1 研究内容
本文研究的主要内容有以下几个方面:
(1)运用数据挖掘的相关理论知识对DM在各行业的应用现状进行分析,并总结总体现状和影响意义。
(2)分析数据挖掘在其发展过程中存在的问题,针对一系列相关问题提出应对方法策略。
(3)明确数据挖掘所处环境,讨论了数据挖掘未来的发展趋势,为决策者提供借鉴。
1.4.2 研究方法
(1)文献资料法。
首先寻找所需文献,通过对文献的仔细阅读和理解,充分了解数据挖掘的发展史、相关概念和算法,以及当前数据挖掘发展的现状,为数据挖掘的研究提供理论依据。
(2)宏观与微观分析法相结合。
从宏观处着手,找到数据挖掘在国内外的总体现状和存在的问题,然后以我国数据挖掘技术发展为例,进一步分析发展现状和研究成果。
(3)理论分析法。
针对数据挖掘基本算法和研究成果,深入分析数据挖掘发展过程中出现的问题,并根据实际情况,提出一些应对策略。
(4)举例验证法。
举例说明数据挖掘在实际应用方面的现状,比较数据挖掘各行业的应用情况,验证DM在各领域的广泛应用。
2 数据挖掘的相关理论及发展历程
作为一种分析数据的强大技术,数据挖掘是综合性技术,源于自身的属性,它融合了至今为止仍然先进的一些科学技术,像人工智能系统,机器学习知识。
所以DM技术的理论基础很是庞大,面对错综复杂的数据库系统,理论知识围绕数据查询、整理再分析的挖掘过程,从基础理论应用上升到深度发掘信息,再到为决策者服务,DM理论发挥了决定性作用,同时这些也都为未来发展提供了坚实的后盾。
在理论知识充足的前提下,国内外数据市场发展迅速、信息产业需求量巨大,从而数据挖掘的发展一帆风顺,在数据热潮中慢慢演变。
2.1 相关理论
数据挖掘是近些年来信息数据库应用技术中比较热门的话题,其实看似新颖,实际上却不是新东西,西方国家早已经在二战前就把它运用到生产生活方面。
所以DM技术的理论知识非常充足,覆盖面也更加广泛。
2.1.1数据挖掘的概念
数据挖掘(DM)在本质上是对资料的再分析整理,又可以说成对数据的再挖掘。
由于数据库系统的存在,使得数据挖掘与之联系紧密,因而在数据库知识发现(KDD)的基础上,提取数据并找到关键知识信息的过程尤为重要,这就是数据挖掘能够做的,因此它属于知识发现,是复杂过程中的一步。
陈建伟(2016)认为数据挖掘就是一种借助于多种数据分析工具在海量的数据信息中挖掘模数据信息和模型之间关系的技术总裁[9]。
DM技术的基础学科就是计算机科学技术,并融入统计学和其他专业学科知识,运用专业算法和规则对数据进行二次挖掘。
卓广平(2015)认为数据挖掘是从大量的、不完全的、模糊的、有噪声的以及具有随性的数据中,对隐含的、具有潜在作用和有意义知识进行提取的过程[10]。
首先对于数据库中的复杂数据,运用初始数据检索功能进行筛选、获取,其次对数据统一转换处理,结合相关算法规则,进行模型化建立,最后获得能够帮助决策者的数据信息。
数据挖掘技术关键在于能够在初次提取的数据信息中找到隐藏在深处的数据规律,这些信息的价值远超过其它,是未来决策的重要依据,也是处理数据最高层次的应用,提高了数据的重复利用率,对数据行业做出了突出贡献。
2.1.2数据挖掘的特点及任务
数据挖掘的特点:(1)处理的数据量非常大;(2)用户可以在任何时间和地点使用查询系统,以保证和满足用户的要求;(3)满足数据库的需求,分别对所有数据进行分析,覆盖全面,为以后应用提供依据;(4)面对数据库中样本的特点,从数据本身规律出发,其发掘的算法规则只适用于自身。
同样这些特点与DM挖掘的样本数据和所要达到的目标有紧密的关联。
数据挖掘的任务可以分为:分类、聚类、关联、回归、预测、序列分析等
(1)分类:分类就是把数据样本中的数据按照某一概念进行排列组合,这个概念就代表这类的特征,因而分成很多类别,然后利用分类算法,建立分类模型,最终目标则是获得分类规则。
在应用上能够根据客户类型,描述特征,进行分析预测。
常用的一些分类算法包括决策树模式、神经网络算法等。
(2)聚类:聚类是把样本数据库根据其相似性分成许多类别,使得同类中具有更多相似性,反之,不同类中尽可能不同。
虽然在应用方面与分类相近,但两者区别在于聚类个数和细分程度。
(3)关联:关联是指两个以上(包含两个)变量在取值上存在联系,进而由这种联系能够发现两者之间的规律。
在数据库中,数据关联是一种非常重要的、能够发掘的知识。
它可分为简单、时序以及因果关联。
其目的在于发现数据库中藏在数据背后的关联网。
对于有些数据库没有对应的关联函数,因此在衡量关联规则时常用可信度来表示,以便判断其相关性。
(4)回归:回归与之前的分类相近,两者任务大体相同,但不同于分类的寻找描述模式,只为确定数值,让后使用线性回归方程,最后得到一个简单函数,因此可以方便依据初始数值得到输出结果。
所以在这种优势下,面对两个或多个变量之间看似不明显的相关关系都可以使用回归分析法来判断,因而在应用方面它被大量用于商品市场的成本、销售以及顾客商品偏好等等,这一系列问题回归分析都能够适用。
(5)预测:顾名思义,即从现有数据找到其中特点,总结数据间规律,建立函数模型,预测未来数据的某些趋势。
(6)序列分析:指能够在序列数据集中找到频频出现的序列模式。
因此,使用序列分析的前提条件就变得很苛刻,即必须是包含海量且通过检验的数据集。
像时间序列分析也属于它的一个分支,两者都能够得到连续的数据值,不同的是序列分析也可以容纳离散的观察值。
同时序列和关联分析也有相同点,它们都来源于一个数据集状态,不同在于序列有明显的顺序要求,关联则没有。
(7)偏差分析:针对数据库中的异常数据,可以采用偏差分析对其进行比较描述,暴露数据中存在的问题,提高数据的可信度。
其检测方法是找到实验结果与对照组的差异。
2.1.3 数据挖掘的步骤
DM的过程比较复杂,首先根据研究目的搜集有关数据,然后从建立的小数据库中提取目标数据,接着对目标数据进行复杂的去燥等预处理操作,其次对得到的数据进行有效转换,并深度挖掘数据知识,最后进行解释和评价,这一系列步骤之后,即完成从初始数据到数据知识的过程。
图2.1数据挖掘流程图
2.1.4 数据挖掘的相关算法
Yin Yunfei(2011)认为从数据挖掘的角度来看,可以找到分析方法有各种不同的数据挖掘方法[11]。
目前,数据挖掘的算法有以下几种常见的:(1)神经网络法
神经网络法以逻辑规则为原则,通过对神经网络的了解和认识,在此基础上模仿它们的结构布局,同时沿用其功效,最终完成推理的过程。
因此,这是一种学习过程,在进行各项数据挖掘任务尤其是聚类分析时,不断学习记忆各种预测方法,方便对数据的精确程度。
因而强大的学习记忆能力是其最大的优势,但不能用于全过程;虽结果精确但无法说明。
(2)决策树法
决策树法,简单来说就是一种分类方法,它能够采用各种规则语言对初始数据完成分类,因为最后图形酷似树形图,所以被称为决策树法。
最经典的算法则是在二十世纪八十年代J.R.Q的ID3算法,在这基础上,研究学者对其完成修改和完善,并最终命名为C4.5算法,这种算法包括了分类和回归双重问题,在当时直至今日造成了极大地影响。
以决策树的形式向人们展示数据包含的规律,使得数据分类精确度极高,且结果简单易于分析说明,它更适用于大量单一变量间且非数值数据。