电信客户流失分析(第九组)

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

电信业客户流失分析

电信市场竞争比较激烈,挽留一个老客户能够带来很大的收益,,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。因此分析流失客户的特征是很关键的,现要求对数据库中的数据进行分析,看看哪些客户可能会流失?这些客户都有哪些特征?根据流失客户的特征组织一个市场营销活动来遏制这种趋势。

数据表一: 客户基本信息表(custinfo.csv)

customerID: 客户编号;gender:性别;age:年龄;L_O_S:在网时间;tariff:话费方案;Handset:手机品牌;

表二:客户通话情况表的结构

Peak_calls:高峰时期电话数;peak_mins:高峰时期电话时长;offpeak_calls:低谷时期电话数;offpeak_mins:低谷时期电话时长;weekend_calls:周末时期电话数:weekend_mins:周末时期电话时长:international_mins:国际电话时长;Net_call_cost:国内电话时长;Month:月份;

表三:话费方案表

Tariff:话费类型;fixed_cost:固定费用;free_mins:免费时长;peak_rate:高峰时期单价;pffpeak_rate:非高峰时期单价;weekend_rate:周末单价;international_rate:国际长途单价

二、问题分析

根据已有的结果—流失客户,寻找他们流失的原因,即流失客户的特征。通过数据处理,统合数据,将用户通话总话费求出,代表一个特征来描述客户。在综合数据求出一些派生的特征指标,例如高峰比率、低峰比率等。综合这些特征的指标,我们通过用“特征选择模型”,选出对流失客户影响大的指标,再用决策树将选出的指标进行分析可以得到这些指标对流失客户的具体影响。

三、模型的建立和求解

3.1数据预处理

1、数据理解

2、数据预处理

根据所给数据分别计算出高峰平均每次通话时长、低峰平均每次通话时长、周末平均每次通话时长、国内通话总次数、国内通话总时长,进而求出国内平均每次通话时长以及全部时长、总费用,由国内通话费用=高峰+低谷+周末,得到总费用=国内通话费用+国际通话费用。

3.2模型建立

1、特征选择的算法:

为了缩小选择范围,可以使用特征选择算法来识别对某给定分析最为重要的字段

特征选择由以下三个步骤组成:

(1)删除不重要或有问题的输入、记录或个案(例如输入字段含有过多缺失值,或者输入字段的变异太大或太少而变得无用)。

(2)对剩余输入进行排序并根据重要性进行分级。主要运用Persron卡方统计量进行排序

(3)识别在后续模型中使用的功能子集,例如通过仅保留最重要的输入,过滤或排除所有其它输入。

Persron卡方统计量算法:

2、C5.0的算法

C5.0来处理数值型或分类型的资料,它的分类预测是基于逻辑的,即通过对输入变量取值的布尔比较实现对输出变量的分类预测,在众多的输出变量中选择一个当前最佳的分组变量,并从分组变量的众多取值中找到一个最佳的分割点,且为了清楚的表示分析结果,可用决策树(decision trees)或是 if- then 的关系显示.

C5.0模型基本算法

设R 是非标称属性集;C 是标称属性;S 是训练集;()trees 是决策树生成的函数:

),,(S C R trees // 函数返回值类型为决策树

{

/ ***************** 相关定义 ********************

*{}m j d j ,,2,1| =为属性D 的值;

*}{m j S j ,,2,1| =为S 的子集,分别包含属性D 的不同值d ;

******************************************************/

if (S 为空) then 返回单一失败节点;

if (R 包含的记录的标称属性值均相同) then 返回具有该标称属性值的单一节点;

if (R 为空) then 返回用S 的最常见值赋值的单一节点;/* 此时为出

错,记录没有被适当分类 */

在R 中找寻具有最大信息增益的属性D ;

; 生成一棵以D 为根的树,分支为m d d d ,,,21 ;

递归调用函数

});

,},{(,);,},{();,},{(21m S C D R trees S C D R trees S C D R trees ---

3.3模型的求解

1、运用spss modeler 利用特征选择模型对合并后的数据进行重要性选择,选择对流失影响比较大的16个属性,整理成如下表(表一):

2、利用C5.0决策模型建立模型,以客户流失与否为目标,上述表一得出的重要属性为影响目标的决策因素(图一):

3、(1)不同手机品牌的流失平均值(表二):

(2)不同套餐的流失平均值(表三):

由表三和表四可以看出,由于手机品牌不同的流失平均值比由于套餐不同流失的平均值相对都要大,这说明,手机品牌比套餐影响客户流失的作用大。这也正好应正3.2.2图二的内容。

3.4模型准确性评价

准确率结果评估表(表五):

3.5结果分析:

由树形决策图可以看出:

手机型号对客户流失的影响最大,其中型号SOP10、SOP20、ASAD90、CAS30的客户比较容易流失,在手机型号SOP10影响最大的情况下,高峰通话时间<71.4的客户容易流失。在高峰通话时间>71.4的前提下,使用手机套餐Play100的客户容易流失,在此前提下,年龄<32岁的客户容易流失,在网时间>49.533的客户容易流失。

相关文档
最新文档