数据挖掘算法经典案例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘算法经典案例
⼀、数据挖掘定义
1.技术上的定义及含义
数据挖掘(Data Mining)就是从⼤量的、不全然的、有噪声的、模糊的、随机的实际应⽤数据中。
提取隐含在当中的、⼈们事先不知道的、但⼜是潜在实⽤的信息和知识的过程。
这个定义包含好⼏层含义:数据源必须是真实的、⼤量的、含噪声的;发现的是⽤户感兴趣的知识;发现的知识要可接受、可理解、可运⽤;并不要求发现放之四海皆准的知识,仅⽀持特定的发现问题。
与数据挖掘相近的同义词有数据融合、⼈⼯智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策⽀持等。
----何为知识从⼴义上理解。
数据、信息也是知识的表现形式,可是⼈们更把概念、规则、模式、规律和约束等看作知识。
⼈们把数据看作是形成知识的源泉。
好像从矿⽯中採矿或淘⾦⼀样。
原始数据能够是结构化的。
如关系数据库中的数据;也能够是半结构化的,如⽂本、图形和图像数据。
甚⾄是分布在⽹络上的异构型数据。
发现知识的⽅法能够是数学的。
也能够是⾮数学的;能够是演绎的,也能够是归纳的。
发现的知识能够被⽤于信息管理,查询优化,决策⽀持和过程控制等,还能够⽤于数据⾃⾝的维护。
因此,数据挖掘是⼀门交叉学科,它把⼈们对数据的应⽤从低层次的简单查询,提升到从数据中挖掘知识,提供决策⽀持。
在这样的需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、⼈⼯智能技术、数理统计、可视化技术、并⾏计算等⽅⾯的学者和project技术⼈员,投⾝到数据挖掘这⼀新兴的研究领域。
形成新的技术热点。
这⾥所说的知识发现,不是要求发现放之四海⽽皆准的真理。
也不是要去发现崭新的⾃然科学定理和纯数学公式,更不是什么机器定理证明。
实际上,全部发现的知识都是相对的。
是有特定前提和约束条件,⾯向特定领域的,同⼀时候还要可以易于被⽤户理解。
最好能⽤⾃然语⾔表达所发现的结果。
2.商业⾓度的定义
数据挖掘是⼀种新的商业信息处理技术,其主要特点是对商业数据库中的⼤量业务数据进⾏抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。
简⽽⾔之,数据挖掘事实上是⼀类深层次的数据分析⽅法。
数据分析本⾝已经有⾮常多年的历史。
仅仅只是在过去数据收集和分析的⽬的是⽤于科学研究。
另外,因为当时计算能⼒的限制,对⼤数据量进⾏分析的复杂数据分析⽅法受到⾮常⼤限制。
如今,因为各⾏业业务⾃⼰主动化的实现,商业领域产⽣了⼤量的业务数据,这些数据不再是为了分析的⽬的⽽收集的,⽽是因为纯机会的(Opportunistic)商业运作⽽产⽣。
分析这些数据也不再是单纯为了研究的须要,更主要是为商业决策提供真正有价值的信息,进⽽
获得利润。
但全部企业⾯临的⼀个共同问题是:企业数据量⾮常⼤,⽽当中真正有价值的信息却⾮常少,因此从⼤量的数据中经过深层分析,获得有利于商业运作、提⾼竞争⼒的信息,就像从矿⽯中淘⾦⼀样,数据挖掘也因此⽽得名。
因此,数据挖掘能够描写叙述为:按企业既定业务⽬标,对⼤量的企业数据进⾏探索和分析,揭⽰隐藏的、未知的或验证已知的规律性,并进⼀步将其模型化的先进有效的⽅法。
⼆、数据挖掘⼗⼤算法详细介绍
1.C4.5算法
C4.5是做什么的?C4.5 以决策树的形式构建了⼀个分类器。
为了做到这⼀点,需要给定 C4.5 表达内容已分类的数据集合。
等下,什么是分类器呢?分类器是进⾏数据挖掘的⼀个⼯具,它处理⼤量需要进⾏分类的数据,并尝试预测新数据所属的类别。
举个例⼦吧,假定⼀个包含很多病⼈信息的数据集。
我们知道每个病⼈的各种信息,⽐如年龄、脉搏、⾎压、最⼤摄氧量、家族病史等。
这些叫做数据属性。
2.K均值聚类算法
它是做什么的呢?K-聚类算法从⼀个⽬标集中创建多个组,每个组的成员都是⽐较相似的。
这是个想要探索⼀个数据集时⽐较流⾏的聚类分析技术。
等下,什么是聚类分析呢?聚类分析属于设计构建组群的算法,这⾥的组成员相对于⾮组成员有更多的相似性。
在聚类分析的世界⾥,类和组是相同的意思。
举个例⼦,假设我们定义⼀个病⼈的数据集。
在聚类分析⾥,这些病⼈可以叫做观察对象。
我们知道每个病⼈的各类信息,⽐如年龄、⾎压、⾎型、最⼤含氧量和胆固醇含量等。
这是⼀个表达病⼈特性的向量。
3.⽀持向量机
它是做什么的呢?⽀持向量机(SVM)获取⼀个超平⾯将数据分成两类。
以⾼⽔准要求来看,除了不会使⽤决策树以外,SVM与 C4.5算法是执⾏相似的任务的。
咦?⼀个超..什么?超平⾯(hyperplane)是个函数,类似于解析⼀条线的⽅程。
实际上,对于只有两个属性的简单分类任务来说,超平⾯可以是⼀条线的。
4. Apriori 关联算法
它是做什么的?Apriori算法学习数据的关联规则(association rules),适⽤于包含⼤量事务(transcation)的数据库。
什么是关联规则?关联规则学习是学习数据库中不同变量中的相互关系的⼀种数据挖掘技术。
5.EM 最⼤期望算法 Expectation Maximization
EM 算法是做什么的?在数据挖掘领域,最⼤期望算法(Expectation-Maximization,EM)⼀般作为聚类算法(类似 kmeans 算法)⽤来知识挖掘。
在统计学上,当估算带有⽆法观测隐藏变量的统计模型参数时,EM 算法不断迭代和优化可以观测数据的似然估计值。
6.PageRank算法
算法是做什么的?PageRank是为了决定⼀些对象和同⽹络中的其他对象之间的相对重要程度⽽设计的连接分析算法(link analysis algorithm)。
那么什么是连接分析算法呢?它是⼀类针对⽹络的分析算法,探寻对象间的关系(也可成为连接)。
举个例⼦:最流⾏的 PageRank 算法是 Google 的搜索引擎。
尽管他们的搜索引擎不⽌是依靠它,但 PageRank依然是 Google ⽤来测算⽹页重要度的⼿段之⼀。
7.AdaBoost 迭代算法
AdaBoost 算法是做什么的?AdaBoost 是个构建分类器的提升算法。
也许你还记得,分类器拿⾛⼤量数据,并试图预测或者分类新数据元素的属于的类别。
但是,提升(boost) 指的什么?提升是个处理多个学习算法(⽐如决策树)并将他们合并联合起来的综合的学习算法。
⽬的是将弱学习算法综合或形成⼀个组,把他们联合起来创造⼀个新的强学习器。
强弱学习器之间有什么区别呢?弱学习分类器的准确性仅仅⽐猜测⾼⼀点。
⼀个⽐较流⾏的弱分类器的例⼦就是只有⼀层的决策树。
另⼀个,强学习分类器有更⾼的准确率,⼀个通⽤的强学习器的例⼦就是 SVM。
8.kNN:k最近邻算法
它是做什么的?kNN,或 K 最近邻(k-Nearest Neighbors), 诗歌分类算法。
然⽽,它和我们之前描述的分类器不同,因为它是个懒散学习
法。
什么是懒散学习法呢?和存储训练数据的算法不同,懒散学习法在训练过程中不需要做许多处理。
只有当新的未被分类的数据输⼊时,这类算法才会去做分类。
但在另⼀⽅⾯,积极学习法则会在训练中建⽴⼀个分类模型,当新的未分类数据输⼊时,这类学习器会把新数据也提供给这个分类模型。
那么 C4.5,SVM 和 AdaBoost 属于哪类呢?不像 kNN算法,他们都是积极学习算法。
9. Naive Bayes 朴素贝叶斯算法
算法是做什么的?朴素贝叶斯(Naive Bayes)并不只是⼀个算法,⽽是⼀系列分类算法,这些算法以⼀个共同的假设为前提:
被分类的数据的每个属性与在这个类中它其他的属性是独⽴的。
独⽴是什么意思呢?当⼀个属性值对另⼀个属性值不产⽣任何影响时,就称这两个属性是独⽴的。
10.CART 分类算法
算法是做什么的? CART 代表分类和回归树(classification and regression trees)。
它是个决策树学习⽅法,同时输出分类和回归树。
像
C4.5⼀样,CART 是个分类器。
分类树像决策树⼀样么?分类树是决策树的⼀种。
分类树的输出是⼀个类。
三、数据挖掘经典案例详细介绍
1,啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物⾏为分析时发现,男性顾客在购买婴⼉尿⽚时,常常会顺便搭配⼏瓶啤酒来犒劳⾃⼰,于是尝试推出了将啤酒和尿布摆在⼀起的促销⼿段。
没想到这个举措居然使尿布和啤酒的销量都⼤幅增加了。
如今,“啤酒+尿布”的数据分析成果早已成了⼤数据技术应⽤的经典案例,被⼈津津乐道。
2,数据新闻让英国撤军
2010年10⽉23⽇《卫报》利⽤维基解密的数据做了⼀篇“数据新闻”。
将伊拉克战争中所有的⼈员伤亡情况均标注于地图之上。
地图上⼀个红点便代表⼀次死伤事件,⿏标点击红点后弹出的窗⼝则有详细的说明:伤亡⼈数、时间,造成伤亡的具体原因。
密布的红点多达39万,显得格外触⽬惊⼼。
⼀经刊出⽴即引起朝野震动,推动英国最终做出撤出驻伊拉克军队的决定。
3,“魔镜”预知⽯油市场⾛向
如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的⼥⼈”,那你就真的out了。
“魔镜”不仅仅是童话中王后的宝贝,⽽且是真实世界中的⼀款神器。
其实,“魔镜”是苏州国云数据科技公司的⼀款⽜逼的⼤数据可视化产品,⽽且是国内⾸款喔。
在现在,“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上最美的⼥⼈,还能通过价量关系得出市场的⾛向。
在不久前,“魔镜”帮助中⽯等企业分析数据,将数据可视化,使企业科学的判断、决策,节约成本,合理配置资源,提⾼了收益。
4,Google成功预测冬季流感
2009年,Google通过分析5000万条美国⼈最频繁检索的词汇,将之和美国疾病中⼼在2003年到2008年间季节性流感传播时期的数据进⾏⽐较,并建⽴⼀个特定的数学模型。
最终google成功预测了2009冬季流感的传播甚⾄可以具体到特定的地区和州。
5,微软⼤数据成功预测奥斯卡21项⼤奖
2013年,微软纽约研究院的经济学家⼤卫•罗斯柴尔德(David Rothschild)利⽤⼤数据成功预测24个奥斯卡奖项中的19个,成为⼈们津津乐道的话题。
今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡⾦像奖颁奖典礼24个奖项中的21个,继续向⼈们展⽰现代科技的神奇魔⼒。