电信企业客户流失及忠诚度分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
东华大学研究生课程论文封面
教师填写:
本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的课程论文,是本人独立进行研究工作所取得的成果。除文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本人承担。
论文作者签名:
注:本表格作为课程论文的首页递交,请用水笔或钢笔填写。
目录
1 引言 (1)
2 数据理解 (1)
3 数据准备 (4)
4 预测模型的建立 (5)
5 模型评估及客户特征分析 (6)
6 客户忠诚度的分析 (8)
7 结论 (12)
电信企业客户流失及忠诚度分析
王丹丹
(东华大学,管理科学与工程,2150863)
摘要:近年来国内电信业的分割、电信体制的激烈变革,竞争的急速加剧使得各电信企业在开拓市场、发展客户的同时,同样注重对老客户的挽留,预测客户流失因素,如何保持现有的客户吸引更多的潜在客户,是电信企业面临的重要问题
本文主要在已知数据的基础上利用数据挖掘中的决策树、神经网络以及Logistic 回归算法具体在电信业客户流失分析中的应用。
关键词:客户流失、决策树、神经网络、客户忠诚度
1 引言
2001年开始,中国电信行业就开始规划和实现经营分析系统,初衷就是建立数据仓库及基于数据仓库之上的数据分析和应用,其中主要包含两个主题——流失分析和交叉销售,而之前的相关杂志也发表了很多技术文章,但当时整个电信行业主要以中国移动为主,竞争压力并不大,业务人员更关注的是开拓市场和发展客户,对客户流失问题的关注很少。但2011年之后,电信行业不断竞争,所以各大公司反过头来又做客户流失,意识到挽留一个老客户要比吸引一个新客户对公司的价值会更大。因此,现在移动、联通等电信行业都会付出很大努力来尽量防止客户流失增加客户忠诚度。本文的工作正是基于此为背景通过分析客户的基本数据、交易数据和行为模式,通过spss modeler14.0利用决策树、神经网络、等数据挖掘技术,建立客户流失预测模型,并在此基础进行初步的流失原因分析和客户流失特征,给企业以有效的建议,并利用因子分析对客户的忠诚度进行分析。本文主要以下几个方面来展开:数据理解和准备、建立流失预测模型和模型的验证评估,最后是客户忠诚度分析。
2 数据理解
由于数据信息量比较大,变读入电信客户数据telco.sav,数据有多达42 个字段,我们有必要对原始数据进行探索,找出影响客户流失的最重要的因素,数据探索不是一个一次性的工作,它是一个分布的,需要反复试探和观察的过程。可以通过观察每一个变量与目标变量之间的相互关系作为变量选择和变量衍生的依据之一,并同时评估数据的质量,如检查空值、异常值、缺失值、噪声数据等。随着下面数据准备过程的不断进行。在数据探索中使用SPSS Modeler中的数据
审核节点以及特征选择节点能够方便地观测各字段的数据以及一些简单的基本统计数据。
在SPSS Modeler中新建数据流定义为“数据探索”,创建数据流如图1所示:
1)将流失字段churn 角色设置为目标。将所有其他字段的角色设置为输入。
2)通过使用“特征选择”节点,删去不能为变量和目标之间的关系添加任何有用信息的
预测变量或数据,并选择重要变量,使目标与变量之间的相关性更好,如图所示:
重要性是基于Pearson 分布的,当值小于0.9,模型将认为该字段是不中要的。重新回到之前生成的模型块。所以进行选择后剩下的变量都是重要性的变量。
3)运行“特征选择”节点,可以得到结果为:
我们从运行结果就可以得到3个变量分别因单个类别过大、缺失值过多和变异系数低于阈值而被过滤掉,并且根据重要性的筛选最终获取除目标变量外的27个变量字段。为了验证这3个变量分析是否准确,对其进行数据分析结果如下:
引入1个字段logwire进行数据分析,可以得到:
我们可以看出logwire 的有效数据是 296 条,相对于总的 1000 条数据,它的缺失比率为 70.4%, 高于“特征节点”定义的 70%。对于分析目标变量有效值较少,所以被筛选掉。
引入“分布”节点连接到读入数据的数据源节点,选择 retire 字段,运行流。可以看到 retire 字段中,确实有 95.3% 的人都是未退休的人。
此信息无助于区分客户。
4)接下来利用“过滤”节点将不重要的变量过滤掉,再次对28个字段进行数
据分析,可以看出字段 logtoll,其有效值比例小于 50%。通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值,这里我们看到,它的均值是 3.240。接下来,我们用“填充”节点来实现对空值与无效值的替换。如下图所示,对于字段logtoll 的空值和无效值,将用均值 3.240 替代。
综上分析结果,最后我们导出28个字段作为预测模型的客户原始变量。
3 数据准备
将“含有28个字段变量的客户信息”作为数据源对1000个数据进行抽样,所建数据流命名为“数据准备”
1)首先我们对含有28个字段的1000个数据按照3:7的比例进行抽样,引入“导
出”字段,命名为“抽样”,输入随机抽取公式,生成的样本分布为训练集为699,测试集为301
2)将“选择”节点接入“抽样”,进行随机选择,并且过滤到“抽样”字段,
最终生成随机的训练样本train和测试样本test。
4 预测模型的建立
综上所述,数据准备阶段已经完成,我们己经为建立模型准备好了数据以及变量,本节的内容便是用抽取出来的训练数据建立客户流失分析模型。
下面我们选择cs5.0、cart和神经网络为基础建立预测模型。以train样本建模,test样本进行模型评估和验证有效性。
建立数据流命名为“建立模型”: