电信企业客户流失及忠诚度分析

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电信企业客户流失及忠诚度分析
东华⼤学研究⽣课程论⽂封⾯
教师填写:
本⼈郑重声明:我恪守学术道德,崇尚严谨学风。

所呈交的课程论⽂,是本⼈独⽴进⾏研究⼯作所取得的成果。

除⽂中已明确注明和引⽤的内容外,本论⽂不包含任何其他个⼈或集体已经发表或撰写过的作品及成果的内容。

论⽂为本⼈亲⾃撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本⼈承担。

论⽂作者签名:
注:本表格作为课程论⽂的⾸页递交,请⽤⽔笔或钢笔填写。

⽬录
1 引⾔ (1)
2 数据理解 (1)
3 数据准备 (4)
4 预测模型的建⽴ (5)
5 模型评估及客户特征分析 (6)
6 客户忠诚度的分析 (8)
7 结论 (12)
电信企业客户流失及忠诚度分析
王丹丹
(东华⼤学,管理科学与⼯程,2150863)
摘要:近年来国内电信业的分割、电信体制的激烈变⾰,竞争的急速加剧使得各电信企业在开拓市场、发展客户的同时,同样注重对⽼客户的挽留,预测客户流失因素,如何保持现有的客户吸引更多的潜在客户,是电信企业⾯临的重要问题
本⽂主要在已知数据的基础上利⽤数据挖掘中的决策树、神经⽹络以及Logistic 回归算法具体在电信业客户流失分析中的应⽤。

关键词:客户流失、决策树、神经⽹络、客户忠诚度
1 引⾔
2001年开始,中国电信⾏业就开始规划和实现经营分析系统,初衷就是建⽴数据仓库及基于数据仓库之上的数据分析和应⽤,其中主要包含两个主题——流失分析和交叉销售,⽽之前的相关杂志也发表了很多技术⽂章,但当时整个电信⾏业主要以中国移动为主,竞争压⼒并不⼤,业务⼈员更关注的是开拓市场和发展客户,对客户流失问题的关注很少。

但2011年之后,电信⾏业不断竞争,所以各⼤公司反过头来⼜做客户流失,意识到挽留⼀个⽼客户要⽐吸引⼀个新客户对公司的价值会更⼤。

因此,现在移动、联通等电信⾏业都会付出很⼤努⼒来尽量防⽌客户流失增加客户忠诚度。

本⽂的⼯作正是基于此为背景通过分析客户的基本数据、交易数据和⾏为模式,通过spss modeler14.0利⽤决策树、神经⽹络、等数据挖掘技术,建⽴客户流失预测模型,并在此基础进⾏初步的流失原因分析和客户流失特征,给企业以有效的建议,并利⽤因⼦分析对客户的忠诚度进⾏分析。

本⽂主要以下⼏个⽅⾯来展开:数据理解和准备、建⽴流失预测模型和模型的验证评估,最后是客户忠诚度分析。

2 数据理解
由于数据信息量⽐较⼤,变读⼊电信客户数据telco.sav,数据有多达42 个字段,我们有必要对原始数据进⾏探索,找出影响客户流失的最重要的因素,数据探索不是⼀个⼀次性的⼯作,它是⼀个分布的,需要反复试探和观察的过程。

可以通过观察每⼀个变量与⽬标变量之间的相互关系作为变量选择和变量衍⽣的依据之⼀,并同时评估数据的质量,如检查空值、异常值、缺失值、噪声数据等。

随着下⾯数据准备过程的不断进⾏。

在数据探索中使⽤SPSS Modeler中的数据
审核节点以及特征选择节点能够⽅便地观测各字段的数据以及⼀些简单的基本统计数据。

在SPSS Modeler中新建数据流定义为“数据探索”,创建数据流如图1所⽰:
1)将流失字段churn ⾓⾊设置为⽬标。

将所有其他字段的⾓⾊设置为输⼊。

2)通过使⽤“特征选择”节点,删去不能为变量和⽬标之间的关系添加任何有⽤信息的
预测变量或数据,并选择重要变量,使⽬标与变量之间的相关性更好,如图所⽰:
重要性是基于Pearson 分布的,当值⼩于0.9,模型将认为该字段是不中要的。

重新回到之前⽣成的模型块。

所以进⾏选择后剩下的变量都是重要性的变量。

3)运⾏“特征选择”节点,可以得到结果为:
我们从运⾏结果就可以得到3个变量分别因单个类别过⼤、缺失值过多和变异系数低于阈值⽽被过滤掉,并且根据重要性的筛选最终获取除⽬标变量外的27个变量字段。

为了验证这3个变量分析是否准确,对其进⾏数据分析结果如下:
引⼊1个字段logwire进⾏数据分析,可以得到:
我们可以看出logwire 的有效数据是 296 条,相对于总的 1000 条数据,它的缺失⽐率为 70.4%, ⾼于“特征节点”定义的 70%。

对于分析⽬标变量有效值较少,所以被筛选掉。

引⼊“分布”节点连接到读⼊数据的数据源节点,选择 retire 字段,运⾏流。

可以看到 retire 字段中,确实有 95.3% 的⼈都是未退休的⼈。

此信息⽆助于区分客户。

4)接下来利⽤“过滤”节点将不重要的变量过滤掉,再次对28个字段进⾏数
据分析,可以看出字段 logtoll,其有效值⽐例⼩于 50%。

通常我们对于这种有效值⽐较低的字段的做法是⽤它的均值代替它的空值与⽆效值,这⾥我们看到,它的均值是 3.240。

接下来,我们⽤“填充”节点来实现对空值与⽆效值的替换。

如下图所⽰,对于字段logtoll 的空值和⽆效值,将⽤均值 3.240 替代。

综上分析结果,最后我们导出28个字段作为预测模型的客户原始变量。

3 数据准备
将“含有28个字段变量的客户信息”作为数据源对1000个数据进⾏抽样,所建数据流命名为“数据准备”
1)⾸先我们对含有28个字段的1000个数据按照3:7的⽐例进⾏抽样,引⼊“导
出”字段,命名为“抽样”,输⼊随机抽取公式,⽣成的样本分布为训练集为699,测试集为301
2)将“选择”节点接⼊“抽样”,进⾏随机选择,并且过滤到“抽样”字段,
最终⽣成随机的训练样本train和测试样本test。

4 预测模型的建⽴
综上所述,数据准备阶段已经完成,我们⼰经为建⽴模型准备好了数据以及变量,本节的内容便是⽤抽取出来的训练数据建⽴客户流失分析模型。

下⾯我们选择cs5.0、cart和神经⽹络为基础建⽴预测模型。

以train样本建模,test样本进⾏模型评估和验证有效性。

建⽴数据流命名为“建⽴模型”:
5 模型评估及客户特征分析
将数据源test接⼊数据流,使其分别在三个模型中运⾏过后来评估,3个模型的有效性和准确性:
1)分析进⾏对⽐评估
预测模型的评估⽅法是:⽤分布图来展⽰预测值与真实值的对⽐情况,预测模型评估⽤样本的检验集数据(共312条)来验证模型的情况。

通过对⽐,我们可以发现CART树的正确率较⾼为75%。

所以我们选择这种模型进⾏客户流失和未流失特征分析。

2)利⽤节点评估模型的评估结果——增益图
从增益图中可以看出,三种模型变化趋势相近,但还是可以隐约看出CART 模型准确率更好⼀点,所以我们应该选择这种模型。

3)客户特征分析
根据CRAT模型得出,结果如下
根据预测变量的重要程度,将重要性较低的变量字段在⽣成树状图的时候直接过滤掉了。

因此,在分析客户是否流失时最主要关注的两个变量是longten和equipmon . 当longten<=143.05时,流失率为49.673%,当equipmon>19.650时,流失率达到了73.239%,相反,客户则很少流失,所以电信企业要在这两个⽅⾯加强。

6 客户忠诚度的分析
本⽂利⽤spss modeler进⾏数据清洗后的27个字段变量1000个样本数据,再利⽤spss进⾏因⼦分析。

1)相关性检验
由KMO检验标准,检验值为0.825,表⽰原始变量之间具有较强的相关性,所以适合作因⼦分析。

2)因⼦旋转后提取公因⼦
为了能够在统计学上对获得客户忠诚度的这个综合指标更多的解释度,所在提取主成分时提取10个,获得更好的解释度。

表2 旋转后⽅差贡献率
表3 公共因⼦提取
由表2我们可以得出10个公共因⼦的⽅差贡献率,表3中我们可以根据公共因⼦在变量上的解释度进⾏命名。

因⼦1命名为“长途业务”,其⽅差贡献为14.83%,因⼦2命名为“⽆线业务”,⽅差贡献为13.28%,因⼦3命名为“呼叫业务”⽅差贡献为10.197%,因⼦4命名为“收⼊情况”,⽅差贡献为8.348%,因⼦5命名为“主叫业务情况”,⽅差贡献为8.044%,因⼦6命名为“设备基本情况”⽅差贡献率为7.388%,因⼦7命名为“免费业务”,⽅差贡献为7.018%,因⼦8命名为“年龄居住情况”,⽅差贡献为6.396%,因⼦9命名为“⽹络电⼦账单情况”,⽅差贡献为4.904%,因⼦10命名为“教育⽔平”,⽅差贡献为3.832%。

3) 建⽴客户忠诚度计算公式
将主成分得分矩阵作为矩阵A,⽅差贡献作为矩阵B,AB相乘就可以得到忠诚度评分模型系数即:
因此,
客户忠诚度= 0.0271*Months with service+ 0.0174*Age in years+??0.0228*Log-income+0.0268*Customer category
4)得出客户忠诚度后,对所有客户原始数据代⼊模型中,可以得到所有客户的
忠诚度评分。

对所有的客户忠诚度评分与客户是否流失进⾏分析。

如图所⽰:
横轴代表客户忠诚度得分排序后的分档客户,纵轴代表客户是否流失的频数,可以得出的⼀个很显然的结论是随着忠诚度得分不断提⾼,客户的流失率不断下降,⽽企业更关注的是忠诚度得分较低的顾客,对其进⾏分析。

从图中我们可以看出忠诚度得分在60分⼀下的所有客户中流失⽐率占⽐较⼤,这些客户属于低忠诚度客户,⽽忠诚度得分在60分以上的客户属于⾼忠诚度客户,企业应该根据从忠诚度系数较⾼的变量着⼿,同时结合因⼦分析中公共因⼦⼏个⽅⾯进⾏改善。

7 结论
本⽂根据电信企业的客户基本属性和各种⾏为数据信息,客户是否流失进⾏了两⽅⾯的分析。

⼀⽅⾯是电信企业影响客户是否流失的变量有很多,⽐如本⽂利⽤的数据源,字段变量⾼达42个,但并不是所有的字段都是影响客户流失的重要因素,变量越多在挺⾼模型的精确度上不会很明显,所以本⽂利⽤spss
modeler14.1对所有的变量进⾏了挖掘,最终筛选出影响客户流失的27个字段变量,并在27个变量的基础上进⾏决CART、
C5.0和神经⽹络的建模,同时进⾏了模型评估,最终选择CART模型对客户流失最重要的特征进⾏了分析;另⼀个⽅⾯是本⽂运⽤因⼦分析建⽴客户忠诚度评分模型,使企业更容易发现低忠诚度的客户和影响的关键影响因素。

因此本⽂在研究电信企业客户流失⽅⾯对业务⼈员具有⼀定的参考意义。

相关文档
最新文档