浅谈数据挖掘

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

计算机与信息学院

本科毕业论文(设计)文献综述

浅谈数据挖掘

0前言

随着网络的迅猛发展,依托于网络的网络购物做为一种新型的消费方式脱颖而出,在全国乃至全球范围内都在迅猛的发展。网络购物行业也越来越得到更多人的关注,与此同时,各种研究方法、数据分析方法也被运用到了关于网络购物的研究当中。数据挖掘技术作为一种新的数据分析方法逐步应用到网络购物的分析中,获取数据、抽取规律、预测趋势、建立模式,这对促进网络购物行业的健康、有序发展是十分有益的。本研究使用数据挖掘的方法,借助SAS 工具,以阿里巴巴大数据竞赛的真实数据为基础,对天猫用户购物行为进行了研究分析。

1什么是数据挖掘

数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

在较浅的层次上,它利用现有数据库管理系统的查询、检索及数据挖掘功能,与多维分析、统计分析方法相结合,进行联机运算分析处理,从而得出可供决策参考的统计分析数据的一个有商业意义的结果,这个结果可以出售给需要的卖家,这就是所谓的大数据分析。

在深层次上,则从数据库中发现前所未有的、隐含的知识。例如:在大街上川流不息的车流量,在普通人眼里,当你通过一个十字路口时,可能会看到除了塞车就是车祸,亦或者没有事的安全通行,没有其他的信息可能会有,如果是一个数据挖掘人员就会发现其中的数据信息,一小时会有横向会有多少车流量,竖向会有多少车流量,这样可以得到一组数据,通过数据挖掘分析后得到更有的结果,十字路口的红绿灯就可以根据车流量设置时间长短。而从另一个角度,如果在十字路口进行路线测绘的话,就可以得到类似地图的数据,手机中的导航软件就是通过这样实现的,所以我们生活中数据挖掘无处不在,只是在我们不认识数据挖掘时,不会去发现。

2数据挖掘的任务

数据挖掘的两个高层目标是建立模型和预测。前者指用一些变量或数据库的若干已知字段通过相应的数据挖掘分析软件,以及某些情况下需要实地考察,再结合团队间的分析,结合数据挖掘的相应模块导出一个比较合理性、可行性、具有预测性的模型,而后者是建立在前面的

分析好后,通常,预测是通过分类或估值起作用的,也就是说,通过分类或估值得出模型,该模型用于对未知变量的预测。从这种意义上说,预测的目的就是对未来未知变量的预测,这种预测需要时间来验证,所以他需要更加具体化的分析出一些较为能大众接受的信息,分析出相应的规律,总结出相关的报告,来确认验证这一预测。

3数据挖掘的特点

数据挖掘技术具有以下特点:

(1)数据挖掘基本分为3步骤:数据准备、规律寻找和规律表示。

(2)数据的主要分析方法有:关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。

(3)需要处理的数据规模十分庞大,达到GB、TB数量级,甚至更大,所以数据挖掘常被较为“大数据挖掘”。

(4)在许多些应用(如商业投资等)中,由于数据变化迅速,因此要求数据挖掘能快速做出相应反应以随时提供决策支持。

(5)数据挖掘往往需要把一些无规律,大数量级的,含有偏离点的(因特殊因素而导致的不正常的数值),在有效的时间内转换成有规律,无瑕疵的,主要预测动向的模型。

(6)在某种角度上,数据挖掘也是可以与用户知识库交互,从用户的数据中寻找规律,并且规律是可视化的。

4 数据挖掘的过程

数据挖掘的步骤会随不同领域的应用可能有所变化,每一种数据挖掘技术也会有各自的特性和使用步骤,所以首先需要明确业务对象清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构同样是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会得到理想的结果的。

(1)数据的准备与选择。搜索所有与研究对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(例:在中国统计局官网上就可以搜索到往年的与国家经济有关的数据资料)官方的数据也较为真实可靠,具有挖掘价值。

(2)数据的预处理。主要是分析并提高数据的质量,排除一些因某些特殊因素而引起的特殊值,会影响整个数据组的最后预测效果。

(3)模型的建立。通过数据挖掘软件(例如:SAS)将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(4)数据的预测。建立模型之后,在模型上会有一些本来用于分析的数据,也会有未来的一些经过分析后预测的数据,通过这些数据,我们就可以知道一些即将发生的现象或者问题,并对其进行提前预防,或其他措施。

(5)数据预测的结论整理。数据挖掘这项任务的工作者,往往不是最后的执行者,所以我们需要将预测的结果整理成一份通俗易懂的报告,最好附上图表,让上司或领导更易理解,这也

是十分关键的一步,一个好的结论没有表述好,可能就会被抛弃。

5天猫用户数据挖掘的分析及作用

数据挖掘如果运用到天猫、淘宝上,那么他就目的只有一个就是盈利。我们都知道双十一网购狂欢节,今年2014年1分钟就交易额突破了1亿,如此巨大的交易额,不光需要他庞大的用户量,还需要就是分析他们的需求信息。天猫用户那么多,首先一点就是需要明确每一个用户需要买什么东西,这就是我们数据挖掘需要做的,在我们上网点击的过程,其实就是他们数据采集的过程,他们通过你点击浏览的网站就预测你的喜好及可能还会去点击的网站,并在一个栏目对你播放相对应的广告,促使你更有欲望去购买这些东西。

6数据挖掘的应用领域及前景

与国外相比,国内对DMKD的研究稍晚,1993年国家自然科学基金首次开始支持对该领域的研究项目。近年来发展迅速,进行的大多数研究项目是由政府资助进行的,如国家自然科学基金、863计划、“九五”计划等。所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的实际应用以及有关数据挖掘理论方面的研究。国内从事数据挖掘研究的机构主要在大学,也有部分在研究所或公司。当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。

5 结论

数据挖掘技术是一个让你从无知到有知的探索,商业利益的强大驱动力将会不停地促进它的发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入,他也将变得更加具有交互性、可视性。

[参考文献]

[1]彭剑芳.基于数据挖掘的网络购物行为的分析[D].云南:云南大学,2011.5.1.

[2]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学,2003.5.1.

[3]李菁菁,邵培基,黄亦潇,等.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(03):10~15.

[4]毛国君,等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.

[5]Pang-Ning Tan,Michael Steinbach,Vipin Kum.数据挖掘导论[M]北京:人民邮电出版社,2010.12.10

[6]David Hand,Helkki Mannila,Padhraic Smyth. 数据挖掘原理[J] 北京:机械工业出版社,2009,09(12):1721-1741.

[7]陈京民,等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.

[8]陈文伟,等.数据挖掘技术[M].北京:北京工业大学出版社,2002.

[9]史忠植.知识发现[D]. 北京:清华大学出版社,2002

相关文档
最新文档