学科前沿讲座心得
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
学科前沿讲座—数据挖掘
近年来,大数据、云计算等非常火热。
听了老师所讲的关于《数据挖掘》这块的相关知识讲解,颇有感受。
下面就是我听过讲座之后以及查阅资料之后,对数据挖掘的一些认识。
随着数据库技术和计算机网络的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,而数据挖掘就是在这样的背景下产生的。
简单的说,数据挖掘就是从大量数据中提取或“挖掘”出潜在的、有价值的知识、模型或者规则的过程。
作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等方面的技术。
在听讲座时,老师主要讲解了一下数据挖掘中的有关关联规则、聚类、分类的方法以及相关的算法。
老师在讲关联规则时,提到了关于“尿布与啤酒”的故事。
一般,按照我们常规思维,这两种东西根本就是两个毫无关联的商品,但是借助数据挖掘技术对大量交易数据进行挖掘之后,却可以寻求到这一有价值的规律。
从一定程度上可以表明数据挖掘技术的巨大价值。
另外还讲到了关联规则算法---Apriori算法。
Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集。
首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然后利用L1找频繁2项集的集合L2,L2找L3,如此下去,直到不能再找到任何频繁k项集。
最后再在所有的频繁集中找出强规则,即产生用户感兴趣的关联规则。
其中,Apriori算法具有这样一条性质:任一频繁项集的所有非空子集也必须是频繁的。
因为假如P(I)< 最小支持度阈值,当有元素A添加到I 中时,结果项集(A∩I)不可能比I出现次数更多。
因此A∩I也不是频繁的。
说到数据挖掘,应该了解数据挖掘包含哪些步骤?第一,要确定研究对象,这是数据挖掘的重要一步。
数据挖掘的最后结是不可预测的,但是要探索的问题是很明确的。
第二,数据准备阶段。
具体包含以下步骤:
1)数据的选择,即搜索所有与业务对象有关的内部和外部数据信息,并从中选择出
适用于数据挖掘应用的数据
2)数据的预处理,即研究诗句的质量,为进一步分析做准备,并确定将要进行的挖
掘操作的种类
3)数据的转换,将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的,
能否建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。
第三,数据挖掘阶段。
即对经过预处理的数据进行挖掘,包括分析和预测,关联分析以及聚类分析相关算法等。
第四,结果分析阶段,解释并对结果进行评估,通常使用到可视化技术。
第五,知识的同化,将分析所得到的知识集成到业务信息系统的组织结构中去,从而得到有价值的信息。
通过上网查询资料,了解到数据挖掘有一下七种常用方法:
①分类。
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不
同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别,使
用到KNN算法。
它可以应用到客户的分类、客户的属性和特征分析、客户满意度分
析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不
同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户
手中,从而大大增加了商业机会。
②回归分析。
回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。
它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。
③聚类。
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。
使用到K-means算法。
它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。
④关联规则。
关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。
⑤特征。
特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。
⑥变化和偏差分析。
偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。
在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。
意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。
⑦Web页挖掘。
随着Internet的迅速发展及Web 的全球普及,使得Web上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
数据挖掘是一种决策支持过程,它通过高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。
这对于一个企业的发展十分重要。
通过听此次学科前沿讲座以及查阅相关资料,对数据挖掘有了一个较为全面的了解。
在这个信息化时代,数据挖掘技术是一个发展很迅速的领域,随着数据挖掘技术在各个领域的发展和应用,未来会有很多人投入到数据挖掘技术的学习和研究中来。
对我来说,作为一个计算机专业的人,数据挖掘也是我继续关注和学习的一个领域,现在应该学习更多相关的知识,为将来打好基础。