CPDA考试移动客户细分聚类

合集下载

一、假如你是某移动运营商的数据分析师，结合用户通话行为数据，通过数据分析为用

户推荐相应套餐或者结合用户现有套餐优化套餐，提供个性化套餐，从而对客户进行精准营销，增加客户粘性。

运营商收集到的数据包含下列字段；

根据客户行为数据，进行数据的预处理（可以自行根据现有变量构造新变量进行分析），预处理之后选择适合变量进行分析，分析算法自行选择，写出分析思路和过程，通过数据分析对客户进行细分，并为运营商提供客户精准营销的相关建议。（请写出分析的流程并刻画最后细分之后的客户的特点和相应的营销建议）。

K-Means据类的步骤：

1.确定所有聚类变量（聚类因子）；

2.数据预处理（分类变量数值化、处理缺失值、分析是否存在共线性等，若只有两个

变量共线则用比值法，较多变量共线用主成分分析进行降维）；

3.确定聚类个数并用处理后的聚类因子进行聚类分析（若未说明则需要尝试不同的聚

类个数[3，4，5，6，7]，从中选择平均轮廓系数较大且结果易于分析解释的模型）；

4.分析聚类效果和聚类结果（类中心点和每个类等）；

5.结合实际情况分析每类的意义等。

（聚类分析处理共线性时不能直接删除，可用比值替代或主成分分析等来消除共线性）案例分析：

观察数据类型，检查数据是否具有缺失值。数据类型为数值型，原始数据没有缺失

值。我们把数据导入DATAHOOP平台，在展示分析中进行异常值分析。分析结果如下表：

由上面可以得到异常值的个最多的具有36个，在数据总体样本中占比比较大。所以不处理异常值，这些异常值有可能是数据中一些特殊的类。

进行相关系数矩阵分析，分析得到的相关系数矩阵如下：

观察相关系数矩阵中有一个相关系数为0.9415，该系数比较大。所以我们要处理，我们用比值替换法（把两个变量做比，得到的比值替换其中的一个变量）。我们在数据中重新插入得到他们的变量比值，替换Peak_mins变量。得到新的变量，我们把新的一列为Peak_mins

Total_mins

数据导入DATAHOOP中求出相关系数矩阵：

得到的相关系数矩阵中的相关系数没有大于0.85，所以解决了共线性。我们可以直接进行K-Means聚类。聚类的参数在有聚类的个数为5，进行标准化，初始中心点选择的次数要大，最大迭代次数也要大。然后进行K-Means聚类，运行结果如下：

平均轮廓系数:0.2467

该平均轮廓系数是比较小，平均轮廓系数越接近于1越好。实际案例里面我们有可能我们得不到太大的轮廓系数，聚类效果是不明显。聚类不是太明显，但聚类是有区别的。我们研究该聚类的区别。

我们得到上面表格的类中心点坐标是经过我们标准化的，我们还原成原来的数据。得到原始的分类，然后求每一类的平均值，总结如下表：

对类进行特征分析：

0类：总通话（Total mins）较长，下班通话时间（Offpeak mins）最长，上班通话时间（Peak mins）比较长，命名为中端客户；

1 类：总通话（Total mins）长，上班通话时间（Peak mins）长，周末通话时间（Weekend mins）较长，国际通话时间（International mins）长，命名为高端用户；

2类：总通话（Total mins）较长，上班通话时间（Peak mins）仅次于第一类，周末通话时间（Weekend mins）居中，国际通话时间（International mins）居中，命名为中端用户；3类：在各项中均较低，命名为不常使用用户；

4类：平均每次通话时间（average mins）最长，命名为长聊用户。

综上，根据以上客户细分的结果和特征分析，移动产品开发部门有针对性的开发设计套餐品类，满足不同类型的客户的实际需求，增加客户黏性，提高客户的满意度，最终提高客户的生命周期价值。

CPDA考试 移动客户细分聚类