数据挖掘与预测分析:第2版
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1章
数据挖掘与预测分析概述1.1 什么是数据挖掘和预测分析
最近,计算机制造商Dell对提高其销售人员的工作效率非常感兴趣。为此,公司利用数据挖掘和预测分析方法分析其潜在客户数据库,以发现那些最有可能真正成为其客户的人群。通过利用LinkedIn及其他能够提供大量丰富潜在客户信息的类似网站,研究潜在客户的社会网络行为,Dell就能为其客户开发出更具个性化的销售方式。以上案例是通过挖掘客户数据,帮助识别潜在客户市场行为类型的实例,它基于客户的个人档案记录。这一工作能获得什么样的效益呢?可以将需要联系的预期人群数量减少50%,只与那些最有可能成为客户的人群联系,销售人员的效率和效益提高一倍左右,同时Dell的营业额也获得了类似的增长1。
美国麻省州政府以预测分析为工具,大大减少了全州的医疗福利诈骗案件。当医疗索赔发生时,州政府立即将相关信息实时发送到预测分析模型,执行异常检测。据麻省州医疗福利欺诈中心负责人Joan Senatore透露,在投入使用的前6个月期间,该系统“发现了涉及大约两百万美元的不应支付的款项,避免了大量欺诈索赔金额的支付”。2
1 How Dell Predicts Which Customers Are Most Likely to Buy, by Rachael King, CIO Journal, Wall Street Journal, December 5, 2012.
2 How MassHealth cut Medicaid fraud with predictive analytics, by Rutrell Yasin, GCN, February 24, 2014.
第Ⅰ部分 数 据 准 备
4
麦肯锡全球研究所(MGI)报告3称大多数雇员超过1000人的美国公司平均有至少200 TB的数据存储。麦肯锡全球研究所认为在世界范围内,数据产生的总量将以每年40%的速度增长,对公司来说,这将带来有利可图的机会,它们可以利用其数据减少开销并增加利润。例如,按照MGI的报告,能够最大限度地利用这些“大数据”的零售商可使其营业额毛利增长60%以上。
《福布斯》杂志报告4表明,利用数据挖掘和预测分析,可发现那些具有最严重危险的充血性心脏衰竭病人。IBM收集了涉及350 000位病人的3年数据,包括超过200个参数的数据度量值,如血压、体重以及处方药等。利用预测分析,IBM发现可能会死于充血性心脏衰竭的风险最大的8500位病人。
《MIT(麻省理工学院)技术导报》报告5声称,正是由于奥巴马竞选团队有效利用了数据挖掘技术,帮助奥巴马于2012年赢得了与对手罗姆尼的总统竞选。首先,竞选团队使用数据挖掘模型确定出潜在的奥巴马支持者,然后确定这些支持者将会参与投票。竞选团队还使用了单独的数据挖掘模型,按照不同选区预测投票结果。在著名的摇摆选区,即俄亥俄州汉密尔顿选区,该模型预测奥巴马将获得56.4%的选票;实际情况是,奥巴马总统在该选区获得56.6%的选票,预测值与实际值仅相差0.2%。这样准确的预测能力使得竞选团队成员能在分配紧缺资源时获得更高的效率。
数据挖掘是从大型数据集中发现有用的模式和趋势的过程。
预测分析是从大型数据集中获取信息以便对未来结果进行预测和估计的过程。
那么,数据挖掘是什么?预测分析是什么?
当你在大型超市排队等待结账时,是否曾经闭上眼睛倾听?你可能会听到收款台上的读卡器在扫描读取食品杂货条形码时所发出的嘟嘟声,此时读取的数据都存放到公司的服务器上。每一次嘟嘟声都意味着向数据库中插入了一条新记录,表明收集到包含新“观察值”的信息,这些信息涉及你的家庭以及其他通过收款台的家庭所具有的购买习惯。
显然,可以收集到大量的数据。然而,我们能够从所有这些数据中学习到什么呢?将会从所有这些数据中得到何种新知识呢?现实情况是,可能没有你想象的那样多,原因在于有经验的数据分析人员严重短缺。
3 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, , May, 2011. Last accessed March 16, 2014.
4 IBM and Epic Apply Predictive Analytics to Electronic Health Records, by Zina Moukheiber, Forbes magazine, February 19, 2014.
5 How President Obama’s campaign used big data to rally individual voters, by Sasha Issenberg, MIT Technology Review, December 19, 2012.
第1章 数据挖掘与预测分析概述 5 1.2 需求:数据挖掘技术人员
早在1984年,在《大趋势》一书6中,约翰·奈斯比特注意到“我们被大量信息淹没,
但却缺乏知识”。当前,这一问题不在于我们没有足够的数据或信息流。事实上,目前多数领域都存在大量的数据。问题在于,我们缺乏擅长于将所有这些数据转换为知识的足够分析人员,他们能够将分类树转为智慧。
数据挖掘和知识发现领域的持续显著成长是源于多种因素幸运交汇的结果:
●收集到的数据呈爆炸性增长,正如前述超市扫码器的案例所示;
●将数据存储到数据仓库中,从而整个企业能够访问可靠的、最新的数据库;
●越来越多的人能够通过网页浏览和内联网访问数据;
●在经济全球化进程中为增加市场份额所遇到的竞争压力;
●可用的商业数据挖掘套件的开发;
●计算能力和存储能力的不断增大。
遗憾的是,McKinsey报告7认为:
企业需要的能够利用大数据的人才存在短缺。因此,想要获取大数据中蕴含的价值将严重受制于人才的短缺,特别是具有统计和机器学习方面专门知识的专家型人才,以及熟知如何利用从大数据中获得的知识来运营公司的管理人员和分析师。我们认为对大数据领域需要的、能够进行深入分析的职位呈现供不应求的状况,短缺将达到140 000~190 000个职位。此外,我们认为在美国大约需要额外的150万管理人员和分析师,他们能够提出正确的问题并有效地使用大数据分析的结果,开展管理和分析工作。
本书试图帮助缓解数据分析人员严重短缺的现状。
1.3 数据挖掘离不开人的参与
自动化无法替代人的监督,数据挖掘过程的每个阶段都需要人的积极参与。与其寻找人员适合在数据挖掘中处理什么工作,不如询问我们如何能够将数据挖掘设计成为人性化的问题求解过程。
此外,当前可用的强大数据挖掘算法嵌入在黑盒软件中,这会导致大量的误用,从而产生更大的危险。与其他新的信息技术一样,数据挖掘技术也容易产生不良的效果。例如,
6 Megatrends, John Naisbitt, Warner Books, 1984.
7 Big data: The next frontier for innovation, competition, and productivity, by James Manyika et al., Mckinsey Global Institute, , May, 2011. Last accessed March 16, 2014.