大数据分析方法聚类分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析方法聚类分析
根据大数据分析方法,鉴于聚类分析方法的复杂性,下面介绍一下常规的聚类分析过程。
聚类分析包括以下三个步骤。
1.确定聚类的标准变量
在对事物进行聚类时,我们必须要正确地选择分类的变量,变量的选择决定了分类的结果,所以这一步非常关键,如果我们选择错了,则分类的结果就错了。
事物的分类维度与变量必须要与企业的管理目标相结合。
所谓的管理目标就是分类的目的。
分类的根本目的是认知事物,那么我们认知事物的目的是什么?如果是认知客户,那么我们是为了开发产品、寻找产品存在的缺陷,还是为了提高客户服务的满意度、改善客户管理和服务系统?不同的出发点需要选择不同的路径,即选择看待事物的角度。
如果认知客户的目的是了解客户对产品和服务的看法,从而为产品的研发和服务创新提供新想法,那么在选择聚类变量时,就要从客户的需要以及这些需要背后的驱动要素出发。
如果我们的目的是改善客户关系管理体系,那么选择聚类的维度要多从我们与客户接触过程的数据变量出发,例如客户订单、客户投诉、客户行为等。
如果是为了评价产品的竞争性、品牌资产在消费者心中的形象,那么我们就应该使用另外一套数据集。
不同的变量
不是由我们有什么数据来决定,而是由我们需要什么数据来决定。
当我们使用现有数据进行分析时,必须要清楚这个数据集能够为我们提供什么。
再次回到RFM模型。
如果我们想对客户进行评价找到优质客户,则RFM模型显然是不适用的,因为其所选择的三个维度的变量都是客户与我们的接触点数据,不是客户的自身特征数据。
在确定了维度之后,还需要细分维度的数据来源。
有的时候数据本身存在一定的采集难度,有些人就会用一种数据来代替另外一种数据,这其中会隐藏着巨大的问题。
例如,如果我们用客户订单的交易额M来替代客户规模或者对客户购买能力的评价指标,就完全错了。
2.标准化事物描述变量
当我们选择变量之后,会发现不同的变量之间使用了不同的数据类型,有的是定性数据,有的是定距数据,还有的是定序数据。
那么不同类型的数据如何进行归类和对比呢?即使是同类型的数据,也会不统一。
例如一个人的身高用cm(厘米)标识时,基本都在0~200cm范围内,少数会超过200cm,但没有超过300cm的。
如果用mm(毫米)标识,那就在0~2000mm范围内;如果用m(米)标识,那就在0~2m范围内。
身高是定量数据,可以统一用cm标识,而一个人的血型、性别、学历等数据该如何标准化呢?
一般的数据标准化方法有极值标准化(最大值标准化、最小值标准化)、平均值标准化、方差标准化等,主要的目的就是消除数据之间因度量的差异性所带来的数据计算偏差。
3.设计聚类的算法或者程序
算法程序非常重要,它决定着这个算法的效率。
当对象数量比较多时,算法就会比较复杂,有可能超过了目前计算机甚至计算机集群的处理能力。
常规的聚类算法叫作“系统聚类”算法。
该算法的逻辑如下。
假定我们有n个对象,我们将其看作n个类,每个对象都是一个类。
第一步,先计算所有类之间的距离,然后选择距离最小的两个类聚集为1个类,这个类中包含两个对象,合并后我们就有了n-1个类。
第二步,用第一步的方法计算这n-1个类两两之间的距离(其实只需要计算新合并的类与其他n-2个类之间的距离即可,因为其他类相互之间的距离已经在第一步中计算过了),然后再在这n-1个类中找出最短距离的两个类聚集在一起,由此就会有n-2个类。
第三步,以此类推,直至最后所有的对象都聚集成为1个类为止。
这样我们就有了把这n个对象聚集成1个类(所有对象聚集为1类)、2个类、3个类、……n个类(所有对象都是独立的类),共n种分法。
第四步,我们比较这n种分类中,哪一种的聚类特征更好(各个类相互间距离较大,类内对象间距离较小),从而可以推荐出比较好的聚类数量。
这样的算法模型就是系统聚类的算法。
当n很大的时候,计算量将非常巨大。
所以,后来就衍生出很多变种的方法以节省或者快速获得聚类,包括分裂法(划分法)、基于密度的方法、基于网络的方法、基于模型的方法等。