现代数据挖掘与传统数据挖掘的比较
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
现代数据挖掘与传统数据挖掘的比较
1、相关概念及关系
数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
现代数据挖掘技术是指20世纪80年代末所出现的数据挖掘技术,这些数据挖掘技术大多可以从数据仓库中提取人们所感兴趣的、事先不知的、隐含在数据中的有用的信息和知识,并将这些知识用概念、规则、规律和模式等方式展示给用户,使用户得以解决信息时代中的“数量过量,信息不足”的矛盾。现代数据挖掘技术应该是从数据库中知识发现技术(KDD)研究的起步,知识发现技术是随着数据库开始存储了大量业务数据,并采用机器学习技术分析这些数据、挖掘这些数据背后的知识而发展起来的。随着 KDD 研究的进展,越来越多的研究人员进入 KDD 的研究领域。现代数据挖掘包括知识发现和数据挖掘。
知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在的应用价值。知识发现可以看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。
数据挖掘是 KDD 最核心的部分,是采用机器学习等方法进行知识挖掘的阶段。数据挖掘算法的好坏将直接影响到所发现的知识的质量。一般在科学领域中称为 KDD,而在工程应用领域则称为数据挖掘。
2、 现代数据挖掘与传统数据挖掘的比较
1、从研究内容来看:随着DMKD研究逐步深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱,即数据库、人工智能和数理统计。目前,DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。
数据挖掘所发现的知识最常见的有以下4类:①广义知识
(Generalization),是指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。②关联知识(Association),它反映一个事件与其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。③分类知识(Classifi-cation&Clustering),反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导性的学习方法。④预测型知识(Pre-diction),根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。目前,时间序列预测方法有经典的统计方法、神经网络和机器学习等。
2、从技术方面看:传统技术以统计分析为代表,有描述统计、概率论、回归分析、时间序列分析、多元统计中的因子分析、判别分析以及聚类分析等。现代技术以机器学习为代表,应用较普遍的有决策树理论、人工神经网络以及规则归纳法等,其中,决策树是用树枝状展现训练集中资料受各变量的影响情形的预测模型;人工神经网络
(Artificial Neural Network)是一种人脑仿真的资料分析模式,用输入变量与数值来自我学习,并根据学习经验所得的知识不断调整参数,以期得到资料的较好模式;规则归纳法(Rules Induction)是知识发现领域中最常用的方法,这是一种由一连串的“如果……/则……”的逻辑规则对资料进行细分的技术;遗传算法(Genetic Algorithms)是一种全新的最佳化空间搜寻法,其最初概念是由John Holland于1975年提出,是一种基于生物进化理论的技术,其基本观点是“适者生存”,用于数据挖掘中则常把任务表示为一种搜索问题,利用传算法强大的搜索能力找到最优解。回归分析是将所要研究的变量区分为因变量和自变量,然后利用所获得的样本资料去估计模型中的参数;时间序列是分析时间序列的分析模型,主要有向量自回归、ARIMA模型、GARCH模型和STATESPACE(傲态空间)模型;多元分析是多变量的统计分析方法。
3、从数据挖掘工具看:数据工具根据应用领域可分为3类:①通用单任务类,仅支持KDD的数据挖掘步骤,并且需要大量的预处理工作,主要采用神经网络、决策树、基于例子和规则的方法,发现任务大多属于分类范畴。②通用多任务类。可执行多个领域的知识发现任务,集成了分类、可视化、聚集、概括等多种策略。③专用领域类,对采掘的数据库有语义要求,发现的知识也较单一。根据所采用的技术,挖掘工具大致分为6类:①基于规则和决策树的工具,大部分数据挖掘工具是采用规则
发现和决策树分类技术来发现数据模式和规则的,其核心是某种归纳算法,它通常先对数据库中的数据进行挖掘,生成规则和决策树,然后对新数据进行分析和预测。②基于神经元网络的工具,由于具有对非线性数据的快速建模能力,其挖掘过程基本上是将数据簇聚,然后分类计算权值,它在市场数据库的分析和建模方面应用广泛。③数据可视化方法,这类工具大大扩展了传统商业图形的能力,支持多维数据的可视化,提供了多方向同时进行数据分析的图形方法。④模糊发现方法,应用模糊逻辑进行数据查询排序。⑤统计方法,这些工具没有使用人工智能技术,因此更适于分析现有信息,而不是从原始数据中发现数据模式和规则。
⑥多种方法综合,许多工具采用了多种挖掘方法,一般规模较大。工具系统的总体发展趋势是使数据挖掘技术进一步为用户所接受和使用,也可以理解成以使用者的语言表达知识概念。
3、 数据挖掘技术的前景及发展方向
目前,国外数据挖掘的发展前景主要有:对知识发现方法的研究进一步发展,如近年来注重对Bayes(贝叶斯)方法以及Boosting方法的研究和提高;传统的统计学回归法在KDD中的应用;KDD与数据库的紧密结合。在应用方面包括:KDD商业软件工具不断产生和完善,注重建立解决问题的整体系统,而不是孤立的过程。用户主要集中在大型银行、保险公司、电信公司和销售业。国内从事数据挖掘研究的人员主要分布在高校,也有部分在研究所或公司的,所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。目前,大多数研究项目是由政府资助的,如国家自然科学基金、863计划、“九五”计划等,但还没有关于国内数据挖掘产品的报道。
未来数据挖掘的几个研究热点包括网站的数据挖掘(Web site data m in-ing)、生物信息或基因(Bio informatics/genomics)的数据挖掘及其文本的数据挖掘(Textual m in ing)、数据挖掘与商业智能应用的结合。具体比较重要的数据挖掘研究方向如下:①研究在网络环境下的数据挖掘技术,特别是在互联网上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;②加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据的挖掘;③研究数据挖掘与数据仓库相结合的方式,数据挖掘与数据仓库一体化的研究等;④寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互。