基于数据挖掘的电信行业客户流失管理研究
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
DUFE
信息系统研究方法与问题
学号:2013100654
专业:电子商务
姓名:徐麟
基于数据挖掘的电信行业客户流失管理研究
一、研究背景
2008年中国对电信运营企业进行了重组,中国移动和中国联通合并运营TD—SCDMA网络,中国电信与中国联通C网合并运营CDMA2000网络,中国联通G网和中国网通合并运营WCDMA网络,从而形成了移动、电信、联通三足鼎立的局面,电信公司之间的竞争也越来越激烈。
对电信企业来说,客户是最重要的资源,也是生存和发展的必需品。
客户资源是电信运营企业的根本,保留并巩固客户资源意义重大。
而在当前中国电信市场下,电信运营商为了争夺客户,除了通过简单的价格竞争以外,还不断推出各种新的套餐和新的业务来优先获得客户资源,双卡情况越来越严峻,这就在很大程度上加大了客户的不稳定性,使得客户在三家运营商之间不断做出选择的现象频繁发生。
据官方统计,中国移动客户的离网率近几年不断攀升,2013年全年离网率高达50%左右。
从客户关系管理理论上看,开发一个新用户的成本是保留一个有价值老用户的5-10倍,因此在新增电信客户不断下降的时候,想要保持企业持续增长的利润就需要在挽留老客户这一相对低成本高收益上想办法。
二、研究的目的和意义
本文的研究目的就是在对电信客户流失等业务知识的理解和研究一些常用的数据挖掘方法上,依据数据挖掘建模流程,研究并实现一个准确实用的的客户流失预测模型和流失客户分类模型,并结合广丰县移动客户数据进行分析,对分析结果进行评估验证。
在对客户流失预测模型和流失客户分类模型进行评估和结果分析的基础上,得到了有效的客户流失规则集,并给出预测的准确率,同时依据流失客户分类结果对客户的挽留策略提出一些意见和建议。
最后对所做的理论研究工作、实验工作和实验中所遇到的问题以及下一步工作进行总结。
三、研究的主要方法和手段
1、数据挖掘的定义
数据挖掘技术是数据库知识发现的核心技术,产生于二十世纪八十年末,至今大约经历了30年的发展历史,但它的定义却没有一个被完全认同。
因为数据挖掘技术被广泛地应用到互联网、电子商务、零售、电信等各个领域在不同的领域应用也不同,因此各专家及学者也分别对数据挖掘进行定义:数据挖掘就是从众多的、不完整的、有杂质的数据中,挖出隐含在里面的、人们以前不清楚的、但又是潜在存在的有用信息的过程。
简单地说,数据挖掘就是从众多的数据中找出有用的信息,如图所示,数据挖掘被认为是知识发现过程中的一个步骤。
图1数据挖掘的过程
2、数据挖掘的任务
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
(1)关联分析(AssociationAnalysis)
关联规则挖掘是由Rakesh Apwal等人首先提出的。
两个或两个以上变量的取值之间存在某种规律性,就称为关联。
数据关联是数据库中存在的一类重要的、可被发现的知识。
关联分为简单关联、时序关联和因果关联。
关联分析的目的是找出数据库中隐藏的关联网。
一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
(2)聚类分析(Clustering)
所谓聚类[55],就是按照事物的某些属性聚集成类,使得类间的相似性尽可能的小,类间的相似性尽可能的大。
聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
聚类分析的算法可以分为以下几大类:分裂法、层次法、基于密度的方法、基于网格的方法和基于模型的方法等。
(3)分类(Classification)
分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。
分类可被用于规则描述和预测。
(4)预测(Predication)
预测是利用历史业务数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。
预测关心的是精度和不确定性,通常使用预测方差来度量。
(5)时序模式(Time-series Pattern )
时序模式是指通过时间序列搜索出的重复发生概率较高的模式。
与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
(6)偏差分析(Deviation)
在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。
偏差检验的基本方法就是寻找观察结果与参照之问的差别。
在本文中需要数据挖掘完成的任务主要是对电信客户流失数据的分类及预测。
3、数据挖掘过程模型
本文准备采用CRISP-DM模型来进行数据挖掘。
CRISP-DM模型定义了 6个阶段,分别是:商业理解(Business Understanding)、数据理解(Data Understanding)、数据准备(Data Preparation)、建立模型(Modeling)、模型评估(Evaluation)、发布模型(Deployment)。
CR1SP-DM模型如图2所示:
图2CRISP-DM模型
4、数据挖掘工具
SPSS Clementine是一个开放式数据挖掘工具,它不但支持整个数据挖掘过程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准CRISP-DM,提供了完善的项目管理功能。
SPSS Clementine的可视化数据挖掘使得“思路”分析成为可能,有助于把有限的精力放在对商业的理解、数据的处理和模型选优等关键问题上,即将精力集中在要解决问题的本身,而不是局限于完成一些技术性的工作(比如编写代码)。
提供了多种图形化技术,有助于理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法,根据公布的用户基准测试,它在可伸缩性、预测准确率和处理的时间方面都表现得很好。
本文研究使用通用CRISP-DM标准的SPSS Clementine数据挖掘软件建立电信企业的客户流失预测模型。
5、预测模型技术
决策树算法是二十世纪中期J. Ross Quinlan开发出来的一种算法,因其结构就像一颗树,因此被称为“决策树”。
目前决策树算法己经被广泛地应用于分类识别问题的数据挖掘,它是利用分割前后信息熵来计算信息增益,并将其作为判断能力的度量准则。
决策树算法是一种基于概率供给的分类方法,它是通过从一个空白的树开始,不断增加结点,逐步精确化的数据挖掘方法。
决策树中每一条从根到叶结点的途昆明理工大学硕士学位论文径即为一条合取规则,其整棵树则为析取规则的集合体。
决策树算法的目的是通过向数据学习,获得输入变量和输出变量不同取值下的数据分类和预测规律,并用于对新数据对象的分类预测。
届时,决策树能够依据新数据输入变量的取值,推断其输出变量的分类取值。
决策树算法属于有指导的学习,要求数据既包含输入变量也包含输出变量。
决策树主要围绕两大核心问题展开:第一,决策树的生长问题,即利用训练样本集来完成决策树的建立过程;第二,决策树的剪枝问题,即利用检验样本集对形成的决策树进行精简。
不同决策树算法采用不同的分枝生长及剪枝策略。
四、研究的重点和创新点
本文研究的重点在寻找用于挖掘的最优算法,准备通过以下模型来寻找最优算法。
图3应用数据挖掘建立最优模型
本文的创新点准备放在对算法的优化上面。
参考文献
[1]杨树莲. 数据挖掘在电信行业客户流失分析中的应用[J]. 计算机与现代化,2005,02:109-111.
[2]高洋. 基于数据挖掘的电信客户流失预测系统研究[D].昆明理工大学,2013.
[3]隆曼. 基于数据挖掘的电信行业客户流失管理研究[D].西南财经大学,2013.
[4]肖仲东. 数据挖掘在预测电信客户流失中的研究与应用[D].湖南师范大学,2012.
[5]梁循. 数据挖掘算法与应用.北京大学出版社,2006.
[6]马钢. 商务智能.东北财经大学出版社,2010.。