数据挖掘简介
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘简介
数据挖掘是一个多学科交叉领域,涉及数据库技术、机器学习、统计学、神经网络、模式识别、知识库信息提取、高性能计算等诸多领域,并在工业、商务、财经、通讯、医疗卫生、生物工程、科学研究等众多行业得到广泛应用。本章在介绍数据挖掘一般概念的基础上,简要介绍统计学习中的Logistic回归。
11.1 数据挖掘的一般概念
现代计算机、通信和网络计算正在改变着整个人类生活方式以及社会生产经营和管理方式,其中大量的信息在给人们的生活、工作带来方便的同时也带来许多问题。例如,信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息方式不一致,难以统一处理;信息的有效提取变得更困难,需要的时间成倍增加;信息之间的关联及因果更加难以把握等等。人们开始考虑如何才能不被信息淹没,能及时从中发现有用的信息,提高信息利用率。数据挖掘(data mining)正是在这样的背景下产生的。具体地讲,由于超大数据库的出现(比如商业数据仓库和计算机自动收集的数据记录)、先进的计算技术、对海量数据的快速访问以及较难的统计方法运用于分析计算等等因素,激发了数据挖掘的开发、应用和研究的发展。
11.1.1 数据挖掘的概念及知识分类
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是一类深层次的数据分析方法。数据分析本身已经有很长历史,只不过过去数据收集和分析的主要目的是用于科学研究,加之由于以前计算机技术的局限,对大数据量处理进行的复杂数据分析方法受到很大限制。现在各行各业均实现业务自动化,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯商业运作而产生的;分析这些数据不再是单纯为了研究的需要,更重要的是为商业决策提供真正有价值的信息,进而提高管理水平、生产效率和利润等等。但所有企业面临的一个共同的问题是:企业数据量非常大,而其中真正对自己有价值的信息却很少,因此,从大量的数据中经过深层次分析获得有利于商业运作、提高竞争力的信息很有必要。
数据挖掘发现的知识最常见的可分为以下四类:
(1)广义知识
广义知识(generalization)指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物的共同性质,是对数据的概况、提炼和抽象。
(2)关联知识
它是反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性进行预测。最为著名的关联规则发现方法是Agrawal提出的Apriori算法。关联规则的发现可分为两步,第一步是迭代识别所有的频繁项目集,要求频繁项目的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定值的规则。识别和发现所有频繁项目集是关于关联规则发现算法的核心,也是计算量最大的部分。
(3)分类知识
它是反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。它除了用主成分分析和判别分析等数理统计方法获得外,最为典型的方法是从基于决策树的分类方法得到,也有用神经网络方法在数据库中进行分类和规则提取。
(4)预测型知识
它根据时间序列型数据,由历史的和当前的数据去预测未来的数据,也可以认为是以时间为关键属性的关联知识。研究或获取这种知识的方法,有经典的统计方法、神经网络和机器学习等,还有经典的平稳时间序列方法和现代的非平稳时间序列分析方法等等。
11.1.2 数据挖掘的功能、步骤和分类
1.数据挖掘的功能
数据挖掘通过预测未来趋势及行为作出前瞻的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五大类功能:
(1)自动预测趋势和行为
数据挖掘自动在数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
(2)关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时间关联、因果关联等。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此,关联分析生成的规则用可信度来表示该规则的置信程度。
(3)聚类
数据库中的记录可被划分为一系列的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术包括传统数理统计中的聚类分析,还有现代的概念聚类技术,其要点是在划分对象时不仅考虑对象之间某种距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4)概念描述
概念描述就是对某类对象的内涵进行描述,并概况这类对象的有关特征。概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
(5)异常检测
数据库中的数据常有一些异常记录,从数据库中检测这些异常很有意义。异常包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差等等。异常检测的基本方法是寻找观测结果与参照值之间有意义的差别。
2.数据挖掘的步骤
实施数据挖掘的步骤如下:
(1)确定业务对象
清楚地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。为了数据挖掘而挖掘往往带有盲目性,是不