SPSS Modeler 预测电信客户流失案例
电信企业客户流失及忠诚度分析

电信企业客户流失及忠诚度分析东华⼤学研究⽣课程论⽂封⾯教师填写:本⼈郑重声明:我恪守学术道德,崇尚严谨学风。
所呈交的课程论⽂,是本⼈独⽴进⾏研究⼯作所取得的成果。
除⽂中已明确注明和引⽤的内容外,本论⽂不包含任何其他个⼈或集体已经发表或撰写过的作品及成果的内容。
论⽂为本⼈亲⾃撰写,我对所写的内容负责,并完全意识到本声明的法律结果由本⼈承担。
论⽂作者签名:注:本表格作为课程论⽂的⾸页递交,请⽤⽔笔或钢笔填写。
⽬录1 引⾔ (1)2 数据理解 (1)3 数据准备 (4)4 预测模型的建⽴ (5)5 模型评估及客户特征分析 (6)6 客户忠诚度的分析 (8)7 结论 (12)电信企业客户流失及忠诚度分析王丹丹(东华⼤学,管理科学与⼯程,2150863)摘要:近年来国内电信业的分割、电信体制的激烈变⾰,竞争的急速加剧使得各电信企业在开拓市场、发展客户的同时,同样注重对⽼客户的挽留,预测客户流失因素,如何保持现有的客户吸引更多的潜在客户,是电信企业⾯临的重要问题本⽂主要在已知数据的基础上利⽤数据挖掘中的决策树、神经⽹络以及Logistic 回归算法具体在电信业客户流失分析中的应⽤。
关键词:客户流失、决策树、神经⽹络、客户忠诚度1 引⾔2001年开始,中国电信⾏业就开始规划和实现经营分析系统,初衷就是建⽴数据仓库及基于数据仓库之上的数据分析和应⽤,其中主要包含两个主题——流失分析和交叉销售,⽽之前的相关杂志也发表了很多技术⽂章,但当时整个电信⾏业主要以中国移动为主,竞争压⼒并不⼤,业务⼈员更关注的是开拓市场和发展客户,对客户流失问题的关注很少。
但2011年之后,电信⾏业不断竞争,所以各⼤公司反过头来⼜做客户流失,意识到挽留⼀个⽼客户要⽐吸引⼀个新客户对公司的价值会更⼤。
因此,现在移动、联通等电信⾏业都会付出很⼤努⼒来尽量防⽌客户流失增加客户忠诚度。
本⽂的⼯作正是基于此为背景通过分析客户的基本数据、交易数据和⾏为模式,通过spss modeler14.0利⽤决策树、神经⽹络、等数据挖掘技术,建⽴客户流失预测模型,并在此基础进⾏初步的流失原因分析和客户流失特征,给企业以有效的建议,并利⽤因⼦分析对客户的忠诚度进⾏分析。
SPSS数据挖掘_Modeler在通信行业应用(客户细分案例-精确营销案例-客户流失预警案例)

数据业务类
19 GPRS上行流量 20 GPRS下行流量 21 GPRS上下行流量比 22 Fetion PC客户端活跃 23 Fetion 手机客户端活跃 24 Fetion 短信活跃 25 Fetion IVR端活跃 26 Fetion 好友数 27 Fetion 消息数 28 中央音乐平台彩铃下载次数 29 振铃下载次数 30 手机证券费用 31 彩铃下载次数 32 开通手机电视 33 音乐盒下载次数 34 12580查询次数 35 WAP业务信息费 36 开通GPRS功能 37 彩铃换歌次数 38 WAP业务订购数量 39 GPRS上行流量
5组
3组
合计
分组人数 98383 72933 77875 61733 66659 111296 85963 105029 201288 111169 50733 72523 114696 197246 115613 57777
外呼有效样本 228 202 251 142 116 222 176 243 384 226 59 97 191 301 136 53 3027
时段、拨打次数等
▪ ARPU、MOU、在网时长 :营业、计费、crm、经分系统 ▪ 客户的媒体接受习惯、个性、爱好、满意度 :市场调查
步骤四
选择细分方法并进行细分
步骤五 步骤六
描述细分市场并进行有 效性检验
选择目标市场并制定 营销策略
▪ 通常采用PASW Modeler的k-means方法 ▪ Kohonen、两步聚类
交往圈/活动范围特征
平均交往圈
本组均值 总体均值
60.21
32.40
主叫交往圈占比 联通交往圈占比 最常通话号次数比 通话不同基站数
61.5% 16.9% 25.0% 52.44
SPSSModeler预测电信客户流失案例

SPSSModeler预测电信客户流失案例Modeler 帮助电信运营商预测客户流失案例本文主要通过运用IBM SPSS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果引言目前电信运营商面临着激烈的市场竞争。
对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。
因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。
客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。
可以说,未来的电信行业,得客户者得天下。
数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。
客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。
本文主要通过运用IBM SPS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。
数据准备读入数据源读入电信客户数据,数据有多达42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。
将流失字段churn 角色设置为目标。
将所有其他字段的角色设置为输入。
图 1.数据源由于数据包括多达42 个字段,我们将先进行数据准备阶段。
SPSSmodeler文本分类

SPSSmodeler文本分类1、数据介绍本节教程中将利用SPSS Modeler18.0对电信客户流失数据使用KNN模型进行分类分析,所使用的数据集是SPSS Modeler18.0自带数据集《telo.sav》,本教程所涉及的数据集我也整理了一份放在云盘,提取码: ktyb,需要的朋友可以直接下载。
本次所用数据与教程(一)中相同,数据结构如下:该数据表示的某电信公司的用户数据数据,共有42个字段,其中最后一个字段【churn】表示的是用户流失与否,0表示客户未流失,1表示客户流失,其他字段是每个客户在不同指指标上的值。
2、操作步骤利用SPSS Modeler建立KNN分类模型分析客户流失,模型建立如下:在构建区建立【源】【类型】【过滤器】【分区】的方法与决策树相同,再将【建模】节点中的【KNN】模型拖入构建区,在目标选项卡中设置预测目标字段。
在【字段】选项卡中可以使用预定义角色或者在下面手动设置,在【设置】现象卡的【模型】选项中,勾选【使用分区数据】、【为每个分割构建模型】、【标准化范围输入】,消除量纲的影响。
在【相邻元素】选项卡中,设置自动选择K的范围,设定K的值为3-5,让模型自动选择最佳的K值。
点击运行,得到如下模型结果,其中左边为样本在低维度预测空间中的映射分布情况,右边的K选择错误日志,显示了K值确定的过程。
本例中最终K为4时,训练集上效果最好。
当在左边选择任一样本作为焦点时,将会自动连接到对应的K近邻样本点,在右边选择【邻元素和距离表】,可以看到与改焦点距离最近的K个元素。
选择【象限图】则展示与改焦点最近的K个样本在每个属性上的分布情况,最懂显示六个属性。
【分类表】表示该KNN分类模型的准确率情况。
对于KNN模型结果,可以添加【分析】和【表格】节点查看模型情况。
在【分析】节点中点击运行,查看模型在训练集和测试集上的准确性。
3、小结本节教程中,主要讲解了利用SPSS Modeler18.0KNN分类建模,详细阐述了从数据过滤到模型参数设置的步骤,并对模型结果进行了详细讲解。
数据挖掘第19讲SPSSModeler分类课件

习方式
基于连
接方式
神经网络节点构成
W1
W2
加
法
器
激活函
数
神经网络激活函数
➢ 阀值函数(阶跃函数)
() =
1 (当v大于等于0时)
0 (当v小于0时)
➢ 分阶段函数
➢ Sigmoid函数(S型函数)
1
() =
1 − −
神经网络建立步骤
① 数据处理(去除变量间的量纲影响、分类型变量
案例背景
中国电信市场的用户通常都为刚需用户,不存
A
在用户不再使用电信业务。但各大运营商之间
却存在巨大的竞争,尤其是各家运营商之间的
很多服务几乎都是交叉重叠的服务,因此用户
D
ABCD
B
通常会由于某些原因离网转而使用其它运营商
的服务。为有效减少自家用户的流失,运营商
通常会基于自身的数据做一些分析来最大限度
否
是
阴天
凉爽
正常
是
是
阴天
凉爽
高
是
是
阴天
热
正常
否
是
下雨
凉爽
高
是
否
C5.0计算步骤
① 计算目标变量(是否打球)不确定性
I(是否打球)
② 计算各个输入变量的熵
E(是否打球|天气)、……、E(是否打球|是否有风)
③ 计算各个输入变量的信息增益
Gain(是否打球|天气)、 ……、 Gain(是否打球|是否有风)
14 14
14
计算步骤
Step 2:计算每个属性的信息增益(以天气为例)
天气
是否打球
=
“是”
是否打球
SPSS 电信用户 综合实验报告

《统计学与实用统计软件》综合实验报告专业:班级:学号:姓名:得分:报告完成时间:关于电信用户的统计分析报告一、项目分析1、背景分析中国经济发展的过程就是各主要行业逐步从垄断走向竞争的过程。
以电信行业为例,最早是中国电信一枝独秀。
随着社会经济和时代科技的发展,特别是中国加入WTO 之后,社会各行业从垄断走向竞争。
就电信行业而言,目前已形成了中国电信、中国联通和中国移动全业务运营,全面竞争,还觉得竞争不够充分,再下猛药,于是又有了2010年海南和天津的可以携号转网试点。
所有这些举措对作为消费者的老百姓来说,无疑是受益多多,举双手赞成。
可是,对电信运营商的市场营销策略影响却非常巨大,它们为了生存,为了利润,将不得不更多地认识客户,理解客户,从而影响客户的决策。
企业竞争加剧了,客户对企业来说就成了最重要的资源,毕竟客户—尤其是有钱有需求的客户就那么多,如何把客户拉过来并且留住就成为了企业的工作重点,这也使得各户流失成为众多企业的关注主题之一。
那么如何在客户即将流失之前有效地发现他们,对其特征进行刻画,从而帮助营销部门]确定客户挽留市场活动的目标客户群以及合适的作销方案就是企业分析部门的重要工作。
在这些方面,数据挖掘可以帮助企业。
数据来源于某电信公司客户的细分模型,目的是了解不同用户群体的消费习惯,以更好的采取一系列措施减少用户的流失。
2、数据介绍数据源文件包括42个变量,1000个个案,每个个案对应一个单独的客户,并记录各类人口统计和服务用途信息。
例如可以利用教育程度变量与客户流失变量通过二项分布分析电信客户哪一种教育程度的客户的流失率较高,进而针对该类对象采取积极的措施。
二、数据分析1、频数分析/描述统计分析①目的一:分析用户的婚姻情况对于电信客户流失有无影响。
主要操作步骤:结果模型:结果分析:所有数据中未婚与已婚人数基本持平,但未婚的客户流失率比已婚的客户流失率略要高。
②目的二:分析年龄对客户流失是否有影响主要操作步骤:结果模型:结果分析:调查的客户中,中年占比例最大为57%,老年人占的比例最小为9.6%,青年人占的比例为33。
SPSS电信行业经典案例

1.前言随着电信业务的发展和体制改革地不断深化,国内电信行业内部各大运营商之间的竞争日趋激烈,这一趋势在国内移动通信业内表现的尤为突出。
移动通信运营商为了获取更多的客户资源和占有更大的市场份额往往采取“简单”的价格竞争和“此起彼伏”的广告宣传战,其弊端显而易见。
这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。
因此,客户关系管理(CRM)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。
在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。
近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。
从电信业务层面来讲,电信业务已从单纯的提供市话和长话服务演变为提供综合电信服务,如宽带、移动电话、语音、传真、图像、电子邮件、计算机和Web数据传输,以及其他数据通信服务。
电信、计算机网络、因特网和各种其他方式的通信和计算机的融合是目前的大势所趋。
而且随着许多国家对电信业的开放和新兴计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。
因此,为了提高企业竞争力利用数据挖掘技术来挖掘现有电信业务能力,提高商业效率具有重要意义。
数据挖掘的概念数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。
数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其它一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。
后三者通常是用户根据已知的情况对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。
电信运营商拥有许多成熟的数据库应用系统,如网管系统、财务系统、计费账务系统、112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。
第四篇电信客户流失影响因素与预测分析

电信客户流失影响因素与预测分析一、引言目前电信运营商面临着激烈的市场竞争。
对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。
因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。
客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。
可以说,未来的电信行业,得客户者得天下。
当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。
而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。
二、问题分析根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。
通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。
对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。
三、算法简介3.1分类分析分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。
分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。
分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。
数据挖掘4G用户流失SPSS建模报告(附代码数据)

数据挖掘4G用户流失SPSS决策树建模报告问题理解(10%)1.对初赛主题“4G用户流失建模”的理解通信市场竞争日趋激烈,客户规模和份额是三家运营商竞争的焦点。
广西移动存量客户约3000万,客户份额约70%,一直是广西电信、广西联通以低资费千方百计策反的重点客户,建立大数据高危离网客户预警模型,细分高危离网客户群体挽留举措,对保障我公司主导运营商的地位有着极其重要的意义。
当前四五星到达客户总数约237万,月均流失客户总数约0.55万,月均流失率约0.23%。
三星及以下到达客户总数约2647万,月均流失客户总数约83万,月均流失率约3.15%,其中,四五星客户属于高价值重点保有客户,而三星及以下客户为主体客户,其流失现象也不容忽视。
全省在网客户约3000万,月均流失40万,流失率约1.4%。
针对存量客户建立高危离网客户预警和保有模型,一是识别高危离网客户的规模、特征、离网概率等;二是根据客户特点,分析出挽留高危离网客户群体的解决方法,如预存话费、办理宽带等。
2.解决本问题的常见思路的调研总结(请结合自己之前的实际工作详细展开)3.总括性介绍本团队的解决思路1)首先这个数据是不平衡数据,需要进行平衡化处理后再进行建模,以便提高对于少数类(1,在本次初赛总也就是流失客户)的预测准确度与预测规模。
2)数据预处理是保证数据挖掘最后所获得知识的必要保证。
所以本团队进行了详细的预处理工作,主要包括字段属性以及数据个案的处理。
3)鉴于培训期间学习了很多的模型以及实现方法,并且有了可以进行模型评优的标准,也就是ROC曲线。
所以本团队尝试了多种模型并进行了集成学习以提高模型的效果。
4)选出最优模型后,输出了十万个个案的预测为1的概率,下一步就是找到判决门限,即预测为1的概率大于多少时判为1。
使用开题辅导时讲述的Q函数(也就是本次初赛的Y函数)求最值的方法,找出使得分数最高的最优判决门限。
一、数据选择与预处理(20%)1.对训练集数据字段的理解逐个字段进行意义的理解,结合以前的工作以及该类流失问题的经验得知,“被叫次数”、“主叫次数”、“被叫时长”、“主叫时长”等字段对于本赛题比较重要,着重进行处理。
电信客户流失预测模型研究

识 别 。本 次 客 户 流 失 预 测 主 要 是 针 对 电信 行 业 的 流 失 客户 。 3 2 数 据 理 解 和 准 备 . 为 了建 立 客 户 流 失 模 型 ,必 须 收 集 所 有 的 原 始 数 据 , 并
目前 在 全 球 电 信 业 发 展 处 于 低 迷 的情 况 下 , 我 国 不 断 深 化 企 业 对
行 为 变 量 ; 内 、 内 漫 游 通 话 的 行 为 变 量 ; 澳 台 、 它 国 省 国 港 其 家 漫 游 通 话 及 国 际 、 澳 台长 途 的 行 为 变 量 : 转 及 呼 叫 。 港 呼 反
映客户 呼转 到不同 电信运 营商的情况 , 客户 呼叫不 同电信运
营 商 的 情 况 ; 据 业 务 的 使 用 情 况 ; 话 号 码 数 : 户 的总 体 数 通 客 主 被 叫 行 为 等 ) 进 一 步 的衍 生 变 量 X4 建 模 的 目的 就 是 要 ; 。 分析 、确 定这 些 向量变量 与客 户流 失状态 变 量 Y 的关 系 , 即 : Fx1X2 X3 X ) Y= f , , , 4 。
具进行 数据预测 模型 的建立 ,数据处 理采用 了 S bs yae公司
的 I 数据 仓库 。 O
3 数 据 挖 掘 模 型 应 用 .
进 行 知 识 挖 掘 时 _ 先 从 原 始 数 据 集 合 r 里 指 数 据 挖 掘 3 J , 这
目标表 1 中取 出一 个与探 索 的 问题 相关 的样本 数据 集 , 经过
针对 被动流 失客户( 即欠 费销户) 建立 模型 , 一般客 户 对
而 言 , 因欠 费停 机 , 且 在 3个 月 内 没 有 还 款 , 后 会 被 欠 若 并 最
基于spss modeler的电商运营商户研究分析报告

基于spss modeler的电商运营商户研究分析一、研究内容1.1、研究背景客户在电商运营商户群中的地位十分重要。
在电商业新的市场格局重新确定后,各大电商运营商间的竞争往往首先发生在对客户资源的争夺上。
如何有效地保留现有客户、开发潜在客户、回流已流失客户是电商运营商在当前日益激烈的市场竞争中必须重视的三个环节。
所以,进行电商客户流失问题的研究,显得尤为重要。
1.2、研究目的通过运用决策树和Logistic回归方法,找出影响客户流失的因素,建立合适的模型,对电商客户流失问题进行分析以及提供一些合理化的建议。
1.3、研究意义了解不同区域电商客户流失的现状,并根据找到的一些影响因素,保留现有客户、开发潜在客户、回流已流失客户这三个方面提供一些建议。
1.4、研究方法主要采用聚类、决策树和Logistic回归方法对数据进行分析。
二、数据介绍2.1、数据来源本次分析的数据来自数据堂的电商客户数据。
2.2、指标选取本次分析一共选取了19个指标1000个样本,分别是:区域、月服务、年龄、婚姻状况、居住时间、收入、受教育水平、工作时间、退休、性别、家庭人数、免费服务、设备租赁、呼叫卡服务、无线服务、长途距离、免费通信、客户类别、流失。
2.3、指标介绍(1)区域:电商客户来自3个不同的区域,1表示区域1,2表示区域2,3表示区域3;(2)月服务:电商客户上个月消费次数;(3)年龄:电商客户的年龄;(4)婚姻状况:电商客户的婚姻状况,0表示未婚,1表示已婚;(5)居住时间:电商客户在本区域的居住时间;(6)收入:电商客户以家庭为计算的收入;(7)受教育水平:电商客户的受教育水平,1表示高中以下,2表示高中,3表示专科,4表示本科,5表示研究生;(8)工作时间:电商客户已经工作的年限;(9)退休:电商客户的退休状态,0表示未退休,1表示已退休;(10)性别:电商客户的性别,0表示男性,1表示女性;(11)家庭人数:电商客户的家庭人口数;(12)免费服务:电商运营商是否提供免费服务,0表示提供,1表示不提供;(13)设备租赁:电商运营商是否提供设备租赁,0表示提供,1表示不提供;(14)呼叫卡服务:电商运营商是否呼叫卡服务,0表示提供,1表示不提供;(15)无线服务:电商运营商是否提供无线服务,0表示提供,1表示不提供;(16)长途距离:电商客户距离电商中心的距离;(17)免费通信:电商运营商提供免费通信的时间;(18)客户类别:电商运营商提供服务的类别,1表示提供基本服务,2表示提供电子服务,3表示提供附加服务,4表示提供全方位服务;(19)流失:电商客户上个月是否流失,0表示未流失,1表示流失。
SPSS Modeler数据挖掘操作之条形图

SPSS Modeler数据挖掘操作之 条形图
数据说明
1
以电信客户数据为例的分析目标是:分析客户所选的套餐类型与是否流失的 关系
利用条形图对分类型变量间的相关性做粗略的直观分析
条形图
2
选择【图形】选项卡中的【分布】节点连接到数据流的恰当位置 右键单击【编辑】选项,可以进行参数设置
【条形图】参数设置
3
图:选定字段表示用户自行制定绘图变量,并在【字段】框中选择变量; 【所有标志】表示默认对数据流节点中所有标志性变量绘图。
交叠字段:选择交叠变量 比例尺:选中表示调整条形图的长短
【图】选项卡设置方法如下
4
案例的条形图显示
5
本图中值列的1-4表示套餐类 型
流失下的0与1分别表示是否流 失
SPSS 金融行业成功案例--客户流失

SPSS 金融行业成功案例--客户流失(2009-03-31 10:54:23)标签:银行汇丰杂谈分类:招聘&职场美国汇丰银行面临问题同一地区可能有多家银行设有分支机构,从而引起持续的竞争来吸引和保持附近的潜在客户。
为保持高水平的客户获取和保持率,并维持可赢利性,银行经常要实现以下目标:-- 扩展和现有客户的关系-- 控制营销费用以维持利润-- 用新的智能快速转移市场解决方案美国汇丰银行用 SPSS 对不断增长的客户数据进行挖掘,建立预测模型来发现交叉销售和"翻滚" 销售机会。
定位于每一产品最有价值的客户可以使销售最大化、营销费用最小化。
而且, SPSS 的易用性使研究人员可以快速地把研究结果提交给决策者。
应用结果小额银行是一个高竞争性的业务。
除了周边其他银行在核算、投资和借贷方面持续不断的竞争,近期一些反常情况显示各种金融服务公司、股票经纪人和抵押公司也加入了这一激烈竞争之中。
由于有这么多的机构盯着同一个用户群体,客户保持力的价值大大超过以前。
现在许多银行的销售策略都集中在吸引现有客户,来"翻滚"成熟的产品,或交叉销售新的产品。
过去,美国汇丰银行经常使用从市场研究公司购买的生命周期细分信息,如根据临域或细分的收入和购买行为预测研究,来向新旧客户推广产品。
"那种外部的细分方案有它自己的市场,在发展新客户时可能是有价值的。
但是,我们认为已经拥有相当多的关于我们现有140万用户的购买习惯和需求的详细和有潜在价值的信息。
"美国汇丰银行客户获取和研究部经理Joe Somma说。
"我们只需对这些模式进行挖掘和分析,来了解什么人在什么时候需要什么。
这种预测分析帮助我们在合适时间、用合适的产品和服务接触合适的人。
而SPSS为我们提供了进行这些分析的有力武器。
"揭示特定客户的需求,销售增加50%根据Somma的说法,关键在于利用SPSS来发现和过去表现出特定购买习惯的客户类似的人,如购买投资类产品。
电信行业数据分析发掘交流

2
数据理解与准备
3
变量筛选
部署可固化 易现网应用
4
模型建立
• •
决策树、回归、关联等模型 评估优化 模型、预测公式和规则 名单输出 营销落地工作开展
•
相应硬件、软件配置完善 后,模型可直接固化在IT系 统中
5
模型输出
• • •
•
可根据现有系统布局,灵
熟的预测分析模型。
快速帮助数据挖掘工作者进行 数据探索和模型的优化。同时 ,增强了数据源连接、数据处 理、建模分析等功能。
10
中国电信广东公司 企业信息化部 综合部
软件界面介绍
工具栏
模型、流、输出件管理窗
操作区
工程文件管理窗
节点选项板
11
中国电信广东公司 企业信息化部 综合部
可读入数据
自由格式的文本文件 固定格式的文本文件 Excel文件 SPSS数据文件 SAS数据文件 数据库文件
模型应用强壮性
将模型应用到有相同结构的数据集得到的预测结果越接近,模型的 应用强壮性越好,模型就越好
中国电信广东公司 企业信息化部 综合部
数据挖掘总流程
1 商业理解
•
• 商业目标 • 模型定义
• • • • 清洗、合并原始字段 创建衍生字段 剔除无关字段 剔除无建模意义字段
商业背景
模型可解读 易移植承接
中国电信广东公司 企业信息化部 综合部
输入输出变量定义
1. 选择‘Field’窗口的‘Type’节点,并将其与数据节点连接 2. 双击节点,在属性框中设置字段运算方向,将预测变量‘Churn’设置为 ‘Out’,其他设置为‘In’
【原创】SPSS决策树和Logistic回归预测客户流失报告论文附代码数据

一、研究内容1.1、研究背景客户在电信运营商户群中的地位十分重要。
在电信业新的市场格局重新确定后,各大电信运营商间的竞争往往首先发生在对客户资源的争夺上。
如何有效地保留现有客户、开发潜在客户、回流已流失客户是电信运营商在当前日益激烈的市场竞争中必须重视的三个环节。
所以,进行电信客户流失问题的研究,显得尤为重要。
1.2、研究目的通过运用决策树和Logistic回归方法,找出影响客户流失的因素,建立合适的模型,对电信客户流失问题进行分析以及提供一些合理化的建议。
1.3、研究意义了解不同区域电信客户流失的现状,并根据找到的一些影响因素,保留现有客户、开发潜在客户、回流已流失客户这三个方面提供一些建议。
1.4、研究方法主要采用决策树和Logistic回归方法对数据进行分析。
二、数据介绍2.1、数据来源本次分析的数据来自SPSS软件自带数据文件telco.sav。
2.2、指标选取本次分析一共选取了19个指标1000个样本,分别是:区域、月服务、年龄、婚姻状况、居住时间、收入、受教育水平、工作时间、退休、性别、家庭人数、免费服务、设备租赁、呼叫卡服务、无线服务、长途距离、免费通信、客户类别、流失。
2.3、指标介绍(1)区域:电信客户来自3个不同的区域,1表示区域1,2表示区域2,3表示区域3;(2)月服务:电信客户上个月呼叫的电信服务次数;(3)年龄:电信客户的年龄;(4)婚姻状况:电信客户的婚姻状况,0表示未婚,1表示已婚;(5)居住时间:电信客户在本区域的居住时间;(6)收入:电信客户以家庭为计算的收入;(7)受教育水平:电信客户的受教育水平,1表示高中以下,2表示高中,3表示专科,4表示本科,5表示研究生;(8)工作时间:电信客户已经工作的年限;(9)退休:电信客户的退休状态,0表示未退休,1表示已退休;(10)性别:电信客户的性别,0表示男性,1表示女性;(11)家庭人数:电信客户的家庭人口数;(12)免费服务:电信运营商是否提供免费服务,0表示提供,1表示不提供;(13)设备租赁:电信运营商是否提供设备租赁,0表示提供,1表示不提供;(14)呼叫卡服务:电信运营商是否呼叫卡服务,0表示提供,1表示不提供;(15)无线服务:电信运营商是否提供无线服务,0表示提供,1表示不提供;(16)长途距离:电信客户距离电信中心的距离;(17)免费通信:电信运营商提供免费通信的时间;(18)客户类别:电信运营商提供服务的类别,1表示提供基本服务,2表示提供电子服务,3表示提供附加服务,4表示提供全方位服务;(19)流失:电信客户上个月是否流失,0表示未流失,1表示流失。
国内某电信运营商客户流失预警分析

国内某电信运营商客户流失预警分析
某移动公司客户月流失率在3 %-5 %之间,如果静态计算,则所有客户会在2 -3 年内全部流失。
在降低客户流失率方面,哪怕仅仅降低 1 %就意味着你至少可以有百万元的收入增长!客户是一个公司最宝贵的财富,因此保持客户并增长客户就是头等重要的事情,同是又是很困难的一项任务。
客户流失分析系统正是针对这一业务问题而专门设计的软件系统。
我们为某移动公司提供了流失模型(Churn Model ),能很好地预测其客户在下两个月的流失可能性,使市场人员和客服人员能预先地、有针对性地开展客户挽留工作,取得了非常好的效果。
主要益处
通过发现客户流失问题的真正原因,建立一对一的客户关系管理系统;
了解客户群的需求;
对客户的评价在数小时内完成,而不是几天;
系统实施在数周内完成,而不是几个月;
最大化每个客户的收入。
基本流程。
SPSS电信客户分析

电信客户数据流失分析一、调查目的通过对电信客户数据流失分析,找出哪些客户特征是流失产生的关键因素,并对这些因素进行分析。
二、调查步骤1、分析流失数据,选择自己假定关键因素。
2、在spss clementine中分析自己选择的关键因素,看他们是否真的为关键因素。
3、利用得到的关键因素,建模分析。
4、分析决策树,得出规则。
5、规则分析与准确率分析。
三、调查结果(一)确定关键因素1、分析性别因素与流失的关系,如下图,性别不是流失的关键因素。
2、分析手机品牌与流失的关系,如下图,可知手机品牌为SOP10、SOP20、CAS30、ASAD90是产生流失的重要因素。
3、分析年龄因素与流失的关系,如下图,可知年龄是产生流失的重要因素。
4、分析高峰时期通话时长与流失的关系,如下图,可知高峰通话时长是产生流失的重要因素。
5、分析话费方案是否合理与流失的关系,如下图,可知话费方案是否合理是重要因素。
6、分析使用频率与流失的关系,如下图,可知使用频率是重要因素。
(二)利用上述关键因素建模分析(三)得出的规则:满足以下规则的客户不会流失1、Traiff-ok in [“ok”]and handset in [“ASAD170””BS110””BS210””CAS60””S80””WC95”]2、Traiff-ok in [“ok”]and handset in [“ASAD90””CAS30”SOP10”SOP20”] and handsetin[“s50”]and peak-mins<=188.400and usage-band in[“中使用率”]3、Traiff-ok in [“ok”]and handset in [“ASAD90””CAS30”SOP10”SOP20”] and handsetin[“s50”]and peak-mins<=188.400and usage-band in[“低使用率”]and peak-mins>=114.6004、Traiff-ok in [“ok”]and handset in [“ASAD90””CAS30”SOP10”SOP20”] and handsetin[“s50”]and peak-mins<=188.400and usage-band in[“极高使用率”高使用率”]5、Traiff-ok in [“ok”]and handset in [“ASAD90””CAS30”SOP10”SOP20”] and handsetin[“s50”]and peak-mins>188.400(四)准确度分析从图中可看出,利用这些关键因素得出的准确率高达94%以上,说明用所选的关键因素来分析客户流失较为准确。
电信客户流失分析(第九组)

电信业客户流失分析电信市场竞争比较激烈,挽留一个老客户能够带来很大的收益,,可是这个客户挽留活动毕竟只是公司众多市场活动中的一个,预算也有限。
因此分析流失客户的特征是很关键的,现要求对数据库中的数据进行分析,看看哪些客户可能会流失?这些客户都有哪些特征?根据流失客户的特征组织一个市场营销活动来遏制这种趋势。
数据表一: 客户基本信息表(custinfo.csv)customerID: 客户编号;gender:性别;age:年龄;L_O_S:在网时间;tariff:话费方案;Handset:手机品牌;表二:客户通话情况表的结构Peak_calls:高峰时期电话数;peak_mins:高峰时期电话时长;offpeak_calls:低谷时期电话数;offpeak_mins:低谷时期电话时长;weekend_calls:周末时期电话数:weekend_mins:周末时期电话时长:international_mins:国际电话时长;Net_call_cost:国内电话时长;Month:月份;表三:话费方案表Tariff:话费类型;fixed_cost:固定费用;free_mins:免费时长;peak_rate:高峰时期单价;pffpeak_rate:非高峰时期单价;weekend_rate:周末单价;international_rate:国际长途单价二、问题分析根据已有的结果—流失客户,寻找他们流失的原因,即流失客户的特征。
通过数据处理,统合数据,将用户通话总话费求出,代表一个特征来描述客户。
在综合数据求出一些派生的特征指标,例如高峰比率、低峰比率等。
综合这些特征的指标,我们通过用“特征选择模型”,选出对流失客户影响大的指标,再用决策树将选出的指标进行分析可以得到这些指标对流失客户的具体影响。
三、模型的建立和求解3.1数据预处理1、数据理解2、数据预处理根据所给数据分别计算出高峰平均每次通话时长、低峰平均每次通话时长、周末平均每次通话时长、国内通话总次数、国内通话总时长,进而求出国内平均每次通话时长以及全部时长、总费用,由国内通话费用=高峰+低谷+周末,得到总费用=国内通话费用+国际通话费用。
SPSS Modeler数据挖掘操作之分类汇总

多重分类汇总设置
5
本例的第二个操作目标术语 多重分类汇总问题。
其中第一个分组变量为流失, 第二个分组变量为套餐类型, 汇总变量为基本费用,如图 所示
运行结果如下
6
将【表】节点添加到数据流中并运行,可以看到汇总后的结果
SPSS Modeler数据挖掘操作之 分类汇总
分类汇总说明
1
数据的分类汇总:首先根据指定的分组变量将数据分成若干组;然后在各个 组内计算汇总变量的基本描述统计量
在【记录选项】选项卡中的【汇总】节点可实现数据的分类汇总
数据说明
2
本例以虚拟的电信客户数据为例,说明分类汇总的具体操作: 操作目标如下:
一、分别计算未流失客户和流失客户的基本费用的均值和标准差 二、分别针对未流失客户和流失客户群,计算选用不同套餐类型的客户,其基本费用的
均值和标准差
基本操作简介
3
一、选择【Stastistics文件】节点,添加到数据流区,并读入 Telephone.sav文件数据。
二、选择【记录选项】中的【汇总】节点,将其添加到数据流中,右击鼠标, 选择弹出的【编辑】选项进行参数设置,如下
外文翻译--预测电信行业客户流失--基于一种SAS生存分析模式的应用程序

外文原文:Predicting Customer Churn in the Telecommunications Industry –– An Application of Survival Analysis Modeling Using SAS ABSTRACTConventional statistical methods (e.g. logistics regression, decision tree, and etc.) are very successful in predicting customer churn. However, these methods could hardly predict when customers will churn, or how long the customers will stay with. The goal of this study is to apply survival analysis techniques to predict customer churn by using data from a telecommunications company. This study will help telecommunications companies understand customer churn risk and customer churn hazard in a timing manner by predicting which customer will churn and when they will churn. The findings from this study are helpful for telecommunications companies to optimize their customer retention and/or treatment resources in their churn reduction efforts.INTRODUCTIONIn the telecommunication industry, customers are able to choose among multiple service providers and actively exercise their rights of switching from one service provider to another. In this fiercely competitive market, customers demand tailored products and better services at less prices, while service providers constantly focus on acquisitions as their business goals. Given the fact that the telecommunications industry experiences an average of 30-35 percent annual churn rate and it costs 5-10 times more to recruit a new customer than to retain an existing one, customer retention has now become even more important than customer acquisition. For many incumbent operators, retaining high profitable customers is the number one business pain. Many telecommunications companies deploy retention strategies in synchronizing programs and processes to keep customers longer by providing them with tailored products and services. With retention strategies in place, many companies start to include churn reduction as one of their business goals.In order to support telecommunications companies manage churn reduction, notonly do we need to predict which customers are at high risk of churn, but also we need to know how soon these high-risk customers will churn. Therefore the telecommunications companies can optimize their marketing intervention resources to prevent as many customers as possible from churning. In other words, if the telecommunications companies know which customers are at high risk of churn and when they will churn, they are able to design customized customer communication and treatment programs in a timely efficient manner.Conventional statistical methods (e.g. logistics regression, decision tree, and etc.) are very successful in predicting customer churn. These methods could hardly predict when customers will churn, or how long the customers will stay with. However, survival analysis was, at the very beginning, designed to handle survival data, and therefore is an efficient and powerful tool to predict customer churn.OBJECTIVESThe objectives of this study are in two folds. The first objective is to estimate customer survival function and customer hazard function to gain knowledge of customer churn over the time of customer tenure. The second objective is to demonstrate how survival analysis techniques are used to identify the customers who are at high risk of churn and when they will churn.DEFINITIONS AND EXCLUSIONSThis section clarifies some of the important concepts and exclusions used in this study.Churn – In the telecommunications industry, the broad definition of churn is the action that a customer’s telecommunications service is canceled. This includes both service-provider initiated churn and customer initiated churn. An example of service-provider initiated churn is a customer’s account being closed because of payment default. Customer initiated churn is more complicated and the reasons behind vary. In this study, only customer initiated churn is considered and it is defined by a series of cancel reason codes. Examples of reason codes are: unacceptable call quality, more favorable competitor’s pricing plan, misinformation given by sales, customer expectation not met, billing problem, moving, change in business, and soon.High-Value Customers –Only customers who have received at least three monthly bills are considered in the study. High-value customers are these with monthly average revenue of $X or more for the last three months. If a customer’s first invoice covers less than 30 days of service, then the customer monthly revenue is prorated to a full month’s revenue.Granularity – This study examines customer churn at the account level.Exclusions –This study does not distinguish international customers from domestic customers. However it is desirable to investigate international customer churn separately from domestic customer churn in the future.Also, this study does not include employee accounts, since churn for employee accounts is not of a problem or an interest for the company.SURVIVAL ANALYSIS AND CUSTOMER CHURNSurvival analysis is a clan of statistical methods for studying the occurrence and timing of events. From the beginning, survival analysis was designed for longitudinal data on the occurrence of events. Keeping track of customer churn is a good example of survival data. Survival data have two common features that are difficult to handle with conventional statistical methods: censoring and time-dependent covariates.Generally, survival function and hazard function are used to describe the status of customer survival during the tenure of observation. The survival function gives the probability of surviving beyond a certain time point t. However, the hazard function describes the risk of event (in this case, customer churn) in an interval time after time t, conditional on the customer already survived to time t. Therefore the hazard function is more intuitive to use in survival analysis because it attempts to quantify the instantaneous risk that customer churn will take place at time t given that the customer already survived to time t.For survival analysis, the best observation plan is prospective. We begin observing a set of customers at some well-defined point of time (called the origin of time) and then follow them for some substantial period of time, recording the times at which customer churns occur. It’s not necessary that every customer experience churn(customers who are yet to experience churn are called censored cases, while those customers who already churned are called observed cases). Typically, not only do we predict the timing of customer churn, we also want to analyze how time-dependent covariates (e.g. customers calls to service centers, customers change plan types, customers change billing options, and etc.) impact the occurrence and timing of customer churn.SAS/STAT has two procedures for survival analysis: PROC LIFEREG and PROC PHREG. The LIFEREG procedure produces parametric regression models with censored survival data using maximum likelihood estimation. The PHREG procedure is a semi-parametric regression analysis using partial likelihood estimation. PROC PHREG has gained popularity over PROC LIFEREG in the last decade since it handles time dependent .However if the shapes of survival distribution and hazard function are known, PROC LIFEREG produces more efficient estimates (with smaller standard error) than PROC PHREG does.SAMPLING STRATEGYOn August 16, 2000, a sample of 41,374 active high-value customers was randomly selected from the entire customer base from a telecommunications company. All these customer were followed for the next 15 months. Therefore August 16, 2000 is the origin of time and November 15, 2001 is the observation termination time. During this 15-month observation period, the timing of customer churn was recorded. For each customer in the sample, a variable of DUR is used to indicate the time that customer churn occurred, or for censored cases, the last time at which customers were observed, both measured from the origin of time (August 16, 2000). A second variable of STATUS is used to distinguish the censored cases from observed cases. It is common to have STATUS = 1 for observed cases and STATUS = 0 for censored cases. In this study, the survival data are singly right censored so that all the censored cases have a value of 15 (months) for the variable DUR.DATA SOURCESThere are four major data sources for this study: block level marketing and financial information, customer level demographic data provided through a third partyvendor, customer internal data, and customer contact records. A brief description of some of the data sources follows.Demographic Data –Demographic dada is from a third party vendor. In this study, the following are examples of customer level demographic information: - Primary household member’s age- Gender and marital status- Number of adults- Primary household member’s occupation- Household estimated income and wealth ranking- Number of children and children’s age- Number of vehicles and vehicle value- Credit card- Frequent traveler- Responder to mail orders- Dwelling and length of residenceCustomer Internal Data – Customer internal data is from the company’s data warehouse. It consists of two parts. The first part is about customer information like market channel, plan type, bill agency, customer segmentation code, ownership of the company’s other products, dispute,late fee charge, discount, promotion/save promotion, additional lines, toll free services, rewards redemption, billing dispute, and so on. The second part of customer internal data is customer’s telecommunications usage data. Examples of customer usage variables are:- Weekly average call counts- Percentage change of minutes- Share of domestic/international revenueCustomer Contact Records –The Company’s Customer Information System (CIS) stores detailed records of customer contacts. This basically includes customer calls to service centers and the company’s mail contacts to customers. The customer contact records are then classified into customer contact categories. Among the customer contact categories are customer general inquiry, customer requests tochange service, customer inquiry about cancel, and so on.MODELING PROCESSModel process includes the following four major steps. Explanatory Data Analysis (EDA) –Explanatory data analysis was conducted to prepare the data for the survival analysis. An univariate frequency analysis was used to pinpoint value distributions, missing values and outliers.Variable transformation was conducted for some necessary numerical variables to reduce the level of skewness, because transformations are helpful to improve the fit of a model to the data. Outliers are filtered to exclude observations, such as outliers or other extreme values that are suggested not to be included in the data mining analysis. Filtering extreme values from the training data tends to produce better models because the parameter estimates are more stable. Variables with missing values are not a big issue, except for those demographic variables. The demographic variables with more than 20% of missing values were eliminated. For observations with missing values, one choice is to use incomplete observations, but that may lead to ignore useful information from the variables that have nonmissing values. It may also bias the sample since observations that have missing values may have other things in common as well. Therefore, in this study, missing values were replaced by appropriate methods.For interval variables, replacement values were calculated based on the random percentiles of the variable’s distribution, i.e., values were assigned based on the probability distribution of the nonmissing observations. Missing values for class variables were replaced with the most frequent values (count or mode).Variable reduction –Started with 212 variables in the original data set, by using PROC FREQ, an initial univariate analysis of all categorical variables crossed with customer churn status (STATUS) was carried out to determine the statistically significant categorical variables to be included in the next modeling step. All the categorical variables with a chi-square value or t statistics of 0.05 or less were kept. This step reduced the number of variables to 115 (&VARLIST1) – including all the numerical variables and the kept categorical variables from the step one.The next step is to use PROC PHREG to further reduce the number of variables.A stepwise selection method was used to create a final model with statistically significant effects of 29 exploratory variables on customer churn over time.PROC PHREG DATA = SASOUT2.ALL2 OUTEST =SASOUT2.BETA;MODEL DUR*STATUS(0) = &VARLIST1/ SELECTION = STEPWISESLENTRY = 0.0025 SLSTAY = 0.0025 DETAILS;Model Estimation –With only 29 exploratory variables, the final data set has reasonable number of variables to perform survival analysis. Before applying survival analysis procedures to the final data set, the customer survival function and hazard function were estimated using the following code. The purpose of estimating customer survival function and customer hazard function is to gain knowledge of customer churn hazard characteristics. From the shape of hazard function, customer churn in this study demonstrates a typical hazard function of a Log-Normal model. As previously discussed, since the shape of survival distribution and hazard function was known, PROC LIFEREG produces more efficient estimates (with smaller standard error) than PROC PHREG does.PROC LIFETEST DATA = SASOUT2.ALL3 OUTSURV =SASOUT2.OUTSURVMETHOD = LIFE PLOT = (S, H) WIDTH = 1GRAPHICS;TIME DUR*STATUS(0);RUN;The final step is to estimate customer churn. PROC LIFEREG was used to calculate customer survival probability. At this step the final data set was divided 50/50 into two data sets: model data set and validation data set. The model data set is used to fit the model and the validation data set is used to score the survival probability for each customer. A variable of USE is used to distinguish the model data set (set USE = 0) and validation data set (set USE = 1). In the validation data set, setboth DUR and STATUS missing so that cases in the validation data set were not to be used in model estimation.出处:Jun Xiang Lu, Ph.D. Predicting Customer Churn in the Telecommunications Industry –– An Application of Survival Analysis Modeling Using SAS: SAS User Group International (SUGI27) Online Proceedings,2002, Paper No. 114-27.中文译文:预测电信行业客户流失——基于一种SAS生存分析模式的应用程序摘要传统的统计方法(如logistic回归,决策树等等)都是能非常成功的预测客户流失的。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Modeler 帮助电信运营商预测客户流失案例本文主要通过运用IBM SPSS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果引言目前电信运营商面临着激烈的市场竞争。
对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。
因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。
客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。
可以说,未来的电信行业,得客户者得天下。
数据挖掘在电信领域有着广泛的应用:计费分析、客户细分、电话欺诈、客户流失预警分析等等。
客户流失预警分析是通过数据挖掘,发现和分析出客户的许多属性特性和行为特征,从而找到流失客户的特征,为企业挽留这类客户提供决策参考。
本文主要通过运用IBM SPS Modeler 中C5.0 节点所具有的特殊算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户,达到亡羊补牢的效果。
数据准备读入数据源读入电信客户数据,数据有多达42 个字段,其中包含一些客户个人信息,例如年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别,还包含一些客户使用电信服务信息,例如使用电信服务时间,是否开通无线服务,是否开通语音信箱服务,是否开通亲情号服务,以及上月基本话费,上月长话费,上月上网费,累计基本话费,累计长话费,累计上网费等等。
将流失字段churn 角色设置为目标。
将所有其他字段的角色设置为输入。
图 1.数据源由于数据包括多达42 个字段,我们将先进行数据准备阶段。
数据准备是数据挖掘最重要的阶段之一,通常需要花费大量的时间。
据估计,实际的数据准备工作通常占50-70% 的工程时间和工作量。
在前期的业务理解和数据理解阶段投入足够的精力可以将对这一阶段的投入降至最低,但您仍需花费大量的精力在建模前做数据准备工作。
利用“特征选择”节点删除无用字段首先通过使用“特征选择”节点,删去不能为预测变量/ 目标之间的关系添加任何有用信息的预测变量或数据。
将数据源节点链接到“特征选择”节点,双击打开“特征选择”节点。
图 2.设置选择可以看到用户可以选择定义缺失值最大百分比,单个类别中记录的最大百分比,作为记录百分比的最大类别数,最小变异系数,最小标准差,来进行数据选择。
这里保持默认设置,运行流。
打开生成的模型块如下;图 3.模型块,3 个字段分别由于单个类别过大,缺失值过多以及变异系数低于阈值而不会被选定作为输入字段。
让我们进一步解释一下。
单个类别中的记录最大百分比筛选相对于记录总数而言,同个类别中具有过多记录的字段。
例如,如果数据库中95% 的客户开同一类型的车,则此信息无助于区分客户。
任何超过指定最大值的字段都将被筛选掉。
我们通过图形看一下retire 字段。
选择“分布”节点连接到读入数据的数据源节点,选择retire 字段,运行流。
可以看到retire 字段中,确实有95.3% 的人都是未退休的人。
此信息无助于区分客户。
图 4.退休情况图字段logwire 由于缺失值的最大百分比超过“特征选择”节点中定义的70% 而被筛选出。
显而易见,具有过多缺失值的字段,几乎不提供任何预测信息。
我们先直观的用“表”节点来观察一下这个字段,可以看到字段中确实有许多值是缺失的$null$ 值。
图 5.logwire那么到底缺失比率到底是多少呢,我们用“数据审核”节点来看一下具体的统计分析值。
将“数据审核”节点连接到读入数据的数据源节点,选择logwire 字段,运行流。
可以看到logwire 的有效数据是296 条,相对于总的1000 条数据,它的缺失比率为70.4%, 高于“特征节点”定义的70%。
图 6.数据审核情况而logequi 字段由于变异系数低于“特征选择”节点中定义的最小变异系数0.1 而被筛选掉。
此度量值是输入字段标准偏差与输入字段均值之间的比值。
如果此值接近0,则变量值的变异性就不高,则信息无助于区分客户。
利用“特征选择”节点选择重要字段除了这三个字段,我们还将滤除非重要性的字段。
重要性是在建模之前在“特征选择”节点中定义的,我们建模时使用的是它的默认值,这里重新打开“特征选择”节点,到“选项”选项卡。
图7.选择重要字段可以看到重要性是基于Pearson 分布的,当值小于0.9,模型将认为该字段是不中要的。
重新回到之前生成的模型块,可以看到从字段marital 开始,重要性是非重要的。
我们将滤去这些字段,在模型块菜单中选择生成过滤器,选择“所有排列的字段”/“重要“并单击确定。
图8.选择生成过滤将生成的过滤节点连接到数据源节点,打开过滤节点,可以看到许多字段被过滤掉了。
实际上通过以上的数据准备阶段,源数据的42 个字段已被降低到28 个字段,这些字段将用来建立模型,分析客户流失。
图9.删除过滤后的源数据利用“过滤”节点处理含有大量缺失数据的字段在最终建模预测客户流失之前,我们还需要对这28 个数据进行分析,识别所有含有大量缺失数据的字段。
这里我们再次运用“数据审核节”节点。
将数据审核节点附加到生成的“过滤”节点后,运行流。
图10.数据审核可以看到唯一需要修改的字段是logtoll,其有效值比例小于50%。
通常我们对于这种有效值比较低的字段的做法是用它的均值代替它的空值与无效值,这里我们看到,它的均值是 3.240。
接下来,我们用“填充”节点来实现对空值与无效值的替换。
如下图所示,对于字段logtoll 的空值和无效值,将用均值3.240 替代。
图11.替换无效值利用C5.0 创建并分析模型创建模型这里我们完成了数据准备阶段,接下来我们就可以真正建立模型了。
我们选择C5.0 节点创建模型图12.创建模型分析模型利用C5.0 所具有的函数定义将属性进行排列,具有最高信息增益的属性选作给集合S 的测试属性。
创建一个根节点,并以该属性标记,对属性的每个值创建分支,然后递归建树,可构造一个树状结果图。
其中每一个节点都是属性中具有最大增益的属性,生成的树状结果图如下可见:图13.生成树状结果图从这张图上,我们可以清楚的看到,对于从根到树叶的每条路径创建一个规则,以现有形式条件分类规则,组成规则集。
沿着给定路径上的每个属性,叶子节点包含的类预测,形成后的部分,将规则存入规则库。
从图 1 中可以看出,本地通话费小于等于 4.976 分钟/ 月为分类条件,可以将现有客户分成两个集合;然后又根据性别,将其中一个集合再次划分为两个字集合;还可以通过年龄、收入、国际长话费时间等再细分,以此类推。
分析数据挖掘结果探寻客户管理策略从图13 树状分析结论来对某电信公司主动流失客户的具体情况进行分析,可以看出在本地通话费小于等于 4.976 分钟/ 月的人群中客户最容易流失,这是因为这一部分人大多有相对稳定的工作、收入相对较高,基本上每人都有自己的移动通信工具,孩子较大且大多在外读书或者已经上班,家中很少有人在,因使用频率低而销户。
本文认为,为挽留这类客户,就应该针对他们工作相对稳定并已经定性、不需要为打拼天下花大量的时间和精力、需要决策而必须了解和掌握大量信息、休闲娱乐的时间相对较多而且固定等特点,采取“固话+ 宽带”绑定的方法一定会受到他们的欢迎。
年轻 e 族(年龄, 小于等于39)收入少、赶新潮、思维活跃、攀比心理较强,因而用以受到新的竞争因素影响而成为易流失的客户,针对这部分人的情况,可以采用各种优惠办法,或赠送时尚彩铃,或发展为各种等级的VIP会员等办法,来增加对年轻人的吸引力。
年收入低于38950 元的低收入群体也是易流失客户,电信公司可以针对这类低收入客户,采取零月租,接听免费,赠送话费等实用措施,留住低收入客户。
相对应的就有年收入高于51669 元的客户,可能这类客户很多竞争公司会来拉拢,这类客户会因为需要联系业务或是别的要求,经常需要打电话,所以电信可以投其所好,对这类稍高收入群开办套餐,比如200 元包月任意打、且免除漫游费等优惠活动。
(等等可根据其他细分情况提出有针对性的挽留优惠活动)另外,对易流失客户群, 采取提高服务质量(如进行客户满意度调查、客户投诉分析、客户咨询和查询焦点分析等)、适当的优惠赠送活动等办法来提高竞争力,加强企业与客户之前的感情沟通,从而留住客户。
关于模型准确性评估图14.准确率评估结果图图14 可以看出,建模和评估模型得出来的结果几乎差不多,而且准确率可以达到90% 以上。
实验结果表明,使用该算法进行客户流失的分析和预测是可行的和有效的,它可以帮助管理者更好地了解客户的流失受到哪些因素的影响,以便在今后的市场营销中有针对性的对那些客户流失率高的客户做好服务工作,防止客户的流失引发的经营危机,这对于提高公司竞争力、改善客户关系具有重要意义。
结论客户资源是电信公司的生命,保留并巩固客户资源对电信公司来说意义重大。
C5.0 节点是数据挖掘中一个常用的节点,其算法理论清晰、方法简单、适用于处理大规模的数据问题,因此是一种知识获取的有用工具。
将C5.0 算法应用于客户流失分析,能够帮助电信公司深入了解客户流失的原因,改进客户服务,对提高客户的留存率,具有十分重要的应用价值。