数据挖掘与分析心得体会

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。

1、数据挖掘

数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤!

由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。

数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进!

2、数据分析

数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:

1、探索性数据分析:当数据刚取得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方

向和用何种方式去寻找和揭示隐含在数据中的规律性。

2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。

3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。

数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各

个过程都需要适当运用数据分析过程,以提升有效性。

由上可见,数据挖掘和数据分析虽然概念上层次清晰,作用上分工明确(数据分析主要以上数理统计为主,数据挖掘主要是挖掘算法为主)。但很明显的是,数据挖掘必须借助数据分析的有关方法来挖掘出有效的,对目标应用有意义的模式和知识。或者可以说:数据挖掘也可以是数据分析的一种!

在这样一个信息迅速膨胀的时代,数据挖掘和分析都与大量数据打交道。两者都离不开一种80年代后期兴起的一种高级数据分析技术:数据仓库和联机分析处理。

3、数据仓库

数据仓库是一个从多个数据源收集的信息存储库,存放在一致的的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为便于决策,数据仓库中的数据围绕主题组织。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理(OLAP)。

数据仓库有以下四种关键特征:

面向主题的:数据仓库围绕一些重要主题,如顾客、供应商、产品、和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。

集成的:通常,构造数据仓库是将多个异构数据源,使用数据清理和数据集成技术,确保命名约定,编码结构,属性度量等的一致性。

时变的:数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。

非易失的:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作:数据的初始化装入和数据访问。

4、分类及算法

分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户

手中,从而大大增加了商业机会。

分类算法主要有决策树归纳、贝叶斯分类、使用IF-THEN规则分类、神经网络、支持向量机等。

5、聚类分析

聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

常用的算法有:

划分方法:k-均值算法,k-中心点算法。

层次方法:层次聚类算法、平衡迭代归约和算法、Chameleon(变色龙)、

基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法。

基于网格的方法:STING(统计信息网格),CLIQUE

6、广泛应用

作为一个应用驱动的领域,数据挖掘融汇来自其他一些领域的技术。这些领域包括统计学、机器学习、数据库和数据仓库系统,以及信息检索。数据挖掘研究与开发的多学科特点大大促进了数据挖掘的成功和广泛应用。

数据挖掘已经有许多成功的应用,如商务智能,Web搜索,生物信息学,卫生保健信息学,金融,数字图书馆和数字政府等。

7、学习总结

数据挖掘技术已经形成很广泛的应用空间,而目前JDMP的版本也在完善当中,大多数数据挖掘开发工具涌现出来。各种相关的框架如Hadoop也如雨后春笋纷纷出现。这些现象的出现,正是因为数据挖掘的发展会有越来越广泛的天空。然而数据挖掘还是有很多需要面临并且急需解决的问题……而我们也希望其越来越深刻的研究和改进。

对于数据挖掘的学习,还是要注重算法的研究和开发。目前我还很欠缺这一块知识。包括统计学、概率论,机器学习等。数据挖掘是个繁复的过程,需要我们长此以往的研究!

相关文档
最新文档