基于clementine神经网络的电信客户流失预测
Logit模型预测客户流失 - 软件测试,数据分析
在一般线性模型中,因变量为一个连续变量,如建立一个GDP与进出口的线性模型,GDP为一个连续变量。但在实际工作中,因变量常常为分类变量,比如性别,要么是男性、要么是女性,又如本文要解决的,对电信客户是否流失的预测。这时可以用事件的发生概率P为因变量,以影响因素作为自变量,进行线性回归分析,那么此时因变量P的取值就必须是0-1之间,一般的线性回归分析就不能满足了,logit回归可以解决这个问题。
7 0 0 0 1.45 0.0862 0
8 1 0 0 2.63 0.0299 0
9 0 1 1 1.34 0.6638 1
10 1 1 0 2.15 0.3259 0
11 0 0 0 3.09 0.0056 0
12 1 0 1 1.58 0.3223 0
13 0 0 0 3.47 0.0029 0
ln()=
优势比如图:
从优势比中可以得到结论,男性流失概率是女性的2.5倍,接受语音聊天服务顾客的流失率是不接受的6.86倍,使用电子账户的客户流失概率是不使用的2.53倍,长途服务中,距离越长顾客的流失概率为稍低一个等级顾客的0.18倍。
(3)预测telcotest.sav的客户流失
将telcotest的新客户数据代入生成的logit模型中,只需要代入gender、voice、ebill、loglong四个变量,预测结果如下表所示:
No. Gender Voice Ebill Loglong Churn 是否流失
1 0 0 0 1.65 0.0626 0
2 0 1 0 2.52 0.0929 0
3 1 1 1 2.96 0.2326 0
4 0 0 0 2.2 0.0253 0
5 1 1 1 1.45 0.8031 1
基于神经网络的客户流失预警研究
摘要基于神经网络的客户流失预警研究面对不断变化的市场需求和竞争激烈的市场环境,将客户流失率降至最低,是企业赢得市场、取得成功的根本。
自从我国加入WTO后,各个市场对外开放,我国各行各业都面临来自外国产品的竞争,大大加重了企业对客户资源的争夺,与此同时,信息技术的快速发展推动了电子商务时代的到来,网络营销以其独特的优势运营而生,使得供应商也成为企业的竞争对手,这对零售企业来说无疑是雪上加霜。
因此,对零售行业的进行客户关系管理显得迫切而重要。
客户关系管理的重点在于降低客户流失率,而降低客户流失率的关键在于客户流失预警,进行客户流失预警的常用技术是数据挖掘。
本论文在客户关系管理的大知识背景框架下,梳理分析客户流失管理相关理论的基础上,利用数据挖掘技术方法对零售业客户流失预测问题进行了研究。
本文首先回顾了客户关系管理的相关理论知识,客户流失的定义、原因及客户流失管理过程,探讨了客户价值的概念以及客户价值评估的几类算法。
然后提出了基于RFM客户价值和IG-NN属性选择的客户流失预警模型,利用RFM模型计算出客户价值,用信息增益选择主要属性,再用神经网络分析每个主要属性对客户流失率的影响程度并结合二八法则判断导致客户流失的关键属性,并以客户价值、关键属性作为神经网络的输入,客户流失概率作为网络输出,构建基于RFM客户价值和IG-NN属性选择的客户流失预警模型。
然后将本文所得结果与单一神经网络和基于IG-NN属性选择的客户流失预警模型进行对比,发现本文的客户流失预警模型在准确率、命中率、覆盖率以及提升度方面均优于另外两个模型。
最后,对本文的研究结论进行了总结,并对未来研究提出展望。
关键词:客户价值,RFM模型,信息增益,神经网络,属性选择,零售业AbstractResearch on Customer Churn Early-warningBased on Neural NetworkIn nowadays, the market demands are changing continuously and the market is full of competition, so minimizing the loss of customers is an essential method for enterprises to win the market shares and successes. Since we acceded in WTO, domestic industries have been facing on the increasing challenges from abroad for the opening of the market, which aggravates the contest on customer resources. Meanwhile, the development of information technology brings electronic commerce. Owing to the network marketing’s advantages, the suppliers are accounted as opponents by enterprises, and this situation is especially severe for the retailers. For above reason, customer analysis is necessary and urgent in retailing.The point to decrease the loss of customers is early warning, which always take advantages of data mining technology. The work in this article is conducted on the framework of customer relations management, researching the early warning on customer losses by means of data mining technology. At first, relevant basic theory on customer relation management is reviewed in this article, including the definition, reason and management of the loss of customers. Then discussions on customer values and some kinds of algorithms are demonstrated. Secondly, the early warning model is constructed base on RFM customer values and IG-NN attributes selection. In this model RFM is used to calculate customer values, and the main attributes are selected according to the information gains. The neural net analyses all main attributes’ contributions on the loss rate of customers and then gives the key attributes in accordance with the Rule of two eight. Another neural net is trainedusing customer values and key attributes as inputs and loss rate of the customers as output, so we say the constructed model is based on RFM customer values and IG-NN attributes selections. Comparisons between our model with single neural net as well as that only base on IG-NN attributes selections are also done in this article. The results show that our model is more satisfactory than those two on the aspects of accuracy, hit rate and speed improvement. The last part is the conclusion and some discussion on future researches.Key words:Customer value ,RFM model ,Information gain,Retali businessNeural network ,Attribute selection目录第1章绪论 (1)1.1研究背景、目的、意义 (1)1.2研究方法 (2)1.3论文的组织结构 (3)1.4论文创新点 (4)第2章文献综述 (5)2.1客户关系管理理论 (5)2.2客户流失理论 (7)2.3客户价值理论 (12)2.4数据挖掘 (17)第3章零售业客户流失预警模型的构建 (30)3.1客户流失预警的概念及其内容 (30)3.2客户流失预测系统的结构及功能 (31)3.3客户价值计算及属性选择 (34)3.4构建零售企业预测客户流失概率的BP网络模型 (37)第4章实证分析 (43)4.1数据准备 (43)4.2属性选择 (46)4.3计算客户流失概率 (50)4.4客户价值与客户流失概率相关性分析 (52)4.5模型评估 (53)结论与展望 (56)参考文献 (58)致谢 (62)第1章绪论1.1 研究背景、目的、意义市场中存在着各行各业,零售企业是指那些专门从事采购日用品及非生产性消费品,并连同一定的服务将它们向最终消费者出售的营利性经济组织[1]。
基于注意力机制的电信用户流失预测模型研究
基于注意力机制的电信用户流失预测模型研究基于注意力机制的电信用户流失预测模型研究摘要:随着电信行业竞争日益激烈,如何预测用户流失并采取相应措施已成为电信企业关注的焦点。
本文提出一种基于注意力机制的电信用户流失预测模型,通过对多个因素进行分析和建模,预测客户是否会发生流失。
该模型采用自注意力机制,能够对数据中不同特征之间的关系进行建模,有效提高了预测的准确性和稳定性。
在数据集上的实验结果表明,该模型的准确率达到了85%以上,比传统的预测方法显著提高了预测效果。
关键词:电信用户流失;预测模型;注意力机制;自注意力机制一、引言电信公司是信息技术领域的先行者之一,其用户是竞争者争夺的重要资源。
然而,由于竞争激烈和客户需求变化等原因,电信用户流失已经成为一个普遍的问题。
预测用户流失并及时采取相应措施,不仅可以提高客户满意度和忠诚度,也能够有效降低企业的成本和风险。
因此,电信用户流失预测成为电信企业关注的焦点和研究的热点之一。
传统的电信用户流失预测方法主要基于统计分析和机器学习技术,如逻辑回归、决策树、支持向量机等。
然而,这些方法在建模多个因素、挖掘数据潜在关联等方面存在一定的局限性。
随着深度学习技术的发展,基于神经网络的用户流失预测方法逐渐得到广泛的应用,如多层感知机、循环神经网络等。
然而,当特征之间存在较强的关联性时,这些方法往往难以准确地捕捉其之间的复杂交互。
为了解决这一问题,本文提出了一种基于注意力机制的电信用户流失预测模型。
注意力机制是近年来深度学习领域广泛使用的一种技术,它可以通过对不同特征之间的重要性进行加权,同时对数据中不同特征之间的关系进行建模,有效提高了模型的准确性和稳定性。
本文采用自注意力机制,用于建模特征之间的交互关系,从而更好地捕捉潜在的数据关联。
实验结果表明,该模型相较于传统的预测方法,在预测准确率和稳定性方面都取得了显著的提高。
二、相关工作电信用户流失预测是业界和学术界长期关注的研究问题,已经涌现出许多优秀的方法。
第四篇-电信客户流失影响因素与预测分析
电信客户流失影响因素与预测分析一、引言目前电信运营商面临着激烈的市场竞争。
对电信运营商来说,客户即生命,如何保持现有客户是企业客户管理的重中之重。
因此,电信运营商拥有的客户越多,作为主要成本的前期投资就会越大,企业的利润也就越大。
客户资源对于电信运营商来说其意义不言而喻,电信运营商之间的竞争实际上就是对客户资源的竞争。
可以说,未来的电信行业,得客户者得天下。
当今电信市场竞争激烈,运营商每月客户流失率在1%~3%,挽留将要流失客户,降低客户流失率是近年来热门的研究领域。
而数据挖掘技术是解决这一问题的有效途径,本文使用IBM Spss Clementine(IBN SPSS Modeler)进行数据挖掘与分析,深入了解电信客户流失的关键,以对该类客户的行为特性进行预警分析,采取针对性的措施改善客户关系,避免客户流失或者挽留客户。
二、问题分析根据已有的结果——流失客户(在数据中直接有判别数据有没有流失的字段churn),寻找他们流失的原因,即流失客户的特征。
通过数据处理,统合数据,根据以前拥有的客户流失数据建立基本属性、服务属性和客户消费数据与客户流失可能性的数据模型,找出其潜在的关系,分析出客户流失的因素,计算出客户流失的可能性,预测客户是否流失的可能性。
对于客户的基本数据、客户行为数据及消费数据,进行数据挖掘,研究已流失客户数据,从中找出先前未知的、对企业决策有潜在价值的知识和规则,发掘潜在流失客户,让企业适时把握住市场及客户动态,掌握客户流失的规律。
三、算法简介3.1分类分析分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构建模型,一般用规则或决策树模式表示。
分类是数据挖掘的主要方法,分类模型能很好地拟合训练样本集中属性集与类别之间的关系,也可以预测一个新样本属于哪一类。
分类技术已经在很多领域得到成功应用,如医疗诊断,客户流失预测,信用度分析,客户分群和诈骗侦测。
使用Clementine多项式Logistic回归判定电信客户类别
a c c u r a c y , we c a n i n v e s i t g a t e t h e c a t e g o i r e s o f p o t e n t i a l c u s t o me s r . T h e e x p e r i me n t a l r e s u l u s h o w t h a t t h e u s e r ’ S e d u c a t i o n l e v e l , j o b t e n u r e ,
s e t t l e d l i v e s a n d t h e n u mb e r o f f a mi l y me mb e r s l e a d s h i d i s c imi r n a t i n g a c c u r a c y f o r a d it d i o n a l —s e r v i c e C l a S S . Th e s e i f e l d s s h o u l d b e i n v e s i t g a t e d f r o m p o t e n t i l a u s e s’ r d e mo ra g p h i c s .
【 中图分类号 】T N9 1 4
神经网络在客户流失预测系统的应用
-2-
3. 基于BP神经网络的客户流失预测模型
现以某超市为例,基于BP神经网络的客户流失预测系统系统采用JAVA程序设计语言编 程实现,整个系统的软件结构主要由数据输入、数据预处理、神经网络学习、神经网络测评 四个模块组成.影响客户流失的因素有很多,企业和客户方面的都有。具体评价指标笔者主 要总结一下几个,分别为X1,X2,X3,X4,X5,X6,其中X1代表产品质量,X2代表客户服 务,X3代表产品价格,X4代表购物环境,X5代表产品种类,X6代表售后服务。通过市场调 研让顾客给超市的以上指标打分,我们将评价指标及评价目标的取值范围定为[0,10], 在综合考虑各种情况的基础上,得到如表1所示的 BP 神经网络学习样本集。
客户的需求就是企业奋斗的目标,随着信息化时代的到来,我们的传统工作方式发生了 显著的变化。在各大中小企业,商业以及服务行业里,对客户需求进行综合测评的工作也开 始计算机化。评价一位顾客的综合需求,须从等方面进行,而各个评价指标和总体综合素质 之间的关系并不一定是简单的线性关系,所以本文利用 BP 神经网络建立了客户需求综合 测评模型,为CRM客户流失预测模型的研究提供了有意义的参考价值,而且还使企事业的 管理人员从繁琐、重复的工作中解脱出来,提高工作效率[1]。
1. 引言
在当今的商业环境中,竞争对手的增加、业务的多样化和经济的全球化使企业之间的竞 争日益激烈。新经济时代的到来,使得客户成为企业至关重要的成功因素和利润来源,谁把 握了客户,谁就拥有了市场。企业的战略正从“以产品为中心”向“以客户为中心”转变。他们 已经意识到,只有不断通过各种渠道加强与客户之间的交流,并且不失时机地从中获取有用 信息,才能改善客户关系,提高客户满意度,从而增强自身的核心竞争力,在竞争中立于不 败之地。
基于神经网络模型的客户流失分析研究
基于神经网络模型的客户流失分析研究第一章绪论1.1 研究背景客户流失是企业面临的一个难题,对企业的经营和发展都有不利影响。
随着信息化、数字化时代的到来,客户数据快速积累,如何利用这些数据分析客户流失成为了企业面临的一个重要问题。
神经网络模型是一种常见的数学模型,可以较好地处理高维、非线性数据。
基于神经网络模型的客户流失分析研究成为了一个热门的研究方向。
1.2 研究目的本文旨在探讨基于神经网络模型的客户流失分析方法,以提高企业对客户流失的预警和防范能力,增强企业竞争力。
1.3 研究内容1)回顾客户流失的研究现状和问题2)介绍神经网络模型的原理和应用3)提出基于神经网络模型的客户流失分析方法4)实证分析和结果讨论5)总结和展望第二章客户流失的研究现状和问题2.1 客户流失的概念客户流失是指原本使用某企业产品或服务的客户不再使用或购买该产品或服务,包括永久性和暂时性的流失。
2.2 客户流失的原因客户流失有多种原因,包括:产品价值不足、服务质量下降、竞争对手优势、个人喜好变化等。
2.3 客户流失的影响客户流失对企业经营和发展产生不利影响,包括:减少收入、增加营销成本、降低品牌形象、损害企业声誉等。
2.4 客户流失的研究现状在客户流失的研究中,传统的统计学方法主要集中在描述性统计和因果关系的分析,而在机器学习和大数据时代,基于数据挖掘和深度学习的方法受到越来越多的关注。
2.5 客户流失的问题客户流失的问题主要包括以下几个方面:1)数据质量的不稳定,可能带来预测偏差和误解。
2)缺乏有效的特征选择方法,模型泛化能力较弱。
3)不同的客户流失原因需要采用不同的分析方法。
第三章神经网络模型的原理和应用3.1 神经网络模型的基本原理神经网络模型是一种模拟人脑神经元对信息进行处理的数学模型,其基本原理是通过数据的训练,对隐含于数据中的模式进行识别和分类,从而构建一个具有自我学习和发现能力的模型。
3.2 神经网络模型的应用神经网络模型已在很多领域得到广泛应用,包括图像识别、自然语言处理、语音识别、财务分析等。
基于神经元网络的客户流失数据挖掘预测模型
摘
要: 数据挖 掘技 术是预测客 户流 失最常 用的方 法。 以电信行 业的客 户流失 问题 为研 究 对象, 讨论如何提 高
使 用数据挖掘对客 户离网预测的准确性。通 过分析 离网客 户建立挖掘模 型 , 获得 大量 流失的客 户群 特征 , 服 务属性 和客 户消费数据 与流失的最终状态的关 系, 并用此 关系建 立不 同的算 法的挖掘模 型 , 最后 分析、 验证 不 同模型的优缺 点, 给 出挖 掘的最佳 方案, 制定具体有效的挽 留战略 以减少流失率, 其结果也体现 了基 于神经元 网络 的移动大客户流
J o u r n a l o f C o mp u t e r Ap p l i c a t i o n s
I S S N 1 0 01— 9 0 8l
2 01 3一 O 6— 3 O
计算机应 用, 2 0 1 3 , 3 3 ( s 】 ) : 4 8— 5 1
文章编号 : 1 0 0 1 — 9 0 8 1 ( 2 0 1 3 ) S 1— 0 0 4 8— 4 0
L I Ya n g
( S c h o o l o f I n f o r m a t i o n a n d C o m p u t e r ,A n h u i A g r i c u l t u r a l U n i v e  ̄ i @,He f e i A n h u i 2 3 0 0 3 6 ,C h i n a )
c u s t o m e r c h u r n p r o b l e m a s t h e r e s e a r c h o b j e c t ,t h i s p a p e r d i s c u s s e d h o w t o i m p r o v e t h e p r e d i c t i o n a c c u r a c y o f c u s t o m e r c h u据挖掘 ; 客 户流 失 信 息 ; 移 动 业务 支撑 系统 ; 神 经元 网络 ; 预 测 模 型 中 图分 类 号 : T P 3 1 1 . 1 3 ; T P 1 8 2 文献标志码 : A
关于“电信业客户流失预测”
关于“电信业客户流失预测”/bbs/showthread.php?t=16350理论背景客户流失分析或客户流失预测:通过离网调研和数据挖掘,捕捉客户离网前的特征,预测客户流失的概率。
这对于优质客户的保护是十分重要和有效的分析手段。
对于客户流失预测,从两个方面来看:一个是客户流失预警,一个是流失客户特征分析。
客户流失预警:定义统一的预警模型,根据预警模型,客户话单数据中自动匹配预警数据,预警模型可以按如下规则定义,并且可以灵活扩展。
流失客户特征分析:通过决策数算法,分析流失客户特征,然后通过这些特征得到当前在网客户中匹配流失概率高的客户数据。
通过客户流失分析获得流失客户数据和潜在流失客户数据,从而将这些数据分配给客户服务部门,整合销售服务资源,根据客户的需求,设计个性化的营销策略,快速反应,以此达到召回流失客户,挽留流失概率高的客户,实现对客户的守护。
(摘自人民邮电报)现实背景随着电信行业竞争的加剧,客户流失的规模越来越大,周期越来越短;电信业新增客户和客户流失模式,就犹如往没有底的水桶中倒水。
分析方法客户流失分析的流程到处都在讲,不外乎是:1. 分析主题确定及数据指标的选择;2. 数据仓库数据提取及清洗;3. 不相关指标剔除;4. 用训练数据建立模型;5. 用测试数据检验模型;6. 预测新的流失用户,并提取用户名单;为了引起更多的这方面的探讨,本人有的一些想法,先现世:其实本人认为关键是指标的选择,以及模型建立前的资料的分类,这样将增加模型的准确性,后面的步骤都是水到渠成,但有关这方面的探讨确实很少,应用的实例就更少了。
一般电信运营商客户资料主要包括:1.客户背景资料:年龄、性别、收入。
2.客户消费行为:是否欠费,流失前半年平均消费额\消费趋势,话费构成...3.其他:交费方式,设备使用类别..其实能够想到的指标都可以放上去,然后从定性和定量的角度考虑剔除大家想到有什么新的指标都可以跟帖原贴在我的Blog上:这个帖子是我在数据挖掘研究院上的一篇回贴,原贴我也放在本文的下方:我曾经看过所谓预警模型,只是对一些指标设定阈值,然后多个指标加权评分之后,得到总预警评分,若超过阈值,则提出预警。
基于深度神经网络的客户流失预测模型
收稿日期:2018-10-19 修回日期:2019-02-21 网络出版时间:2019-04-24基金项目:教育部人文社会科学规划基金项目(17YJA 880080);广西跨境电商智能信息处理重点实验室培育基地(广西财经学院)专项资助项目;广西财经学院创新治理与知识产权学科群(政府治理的互联网创新发展)专项资助项目作者简介:马文斌(1989-),男,硕士,研究方向为数据挖掘;夏国恩,博士,教授,研究方向为商务智能㊁智能决策㊁客户关系管理㊂网络出版地址:http :// /kcms /detail /61.1450.TP.20190424.1051.044.html基于深度神经网络的客户流失预测模型马文斌,夏国恩(广西财经学院工商管理学院,广西南宁530003)摘 要:客户流失是企业面临的一个重要问题,为及时发现流失客户,降低企业损失,目前已有许多研究对客户流失问题给出解决方案,但是大部分研究中使用的是浅层学习算法,预测结果依赖于特征选择,需要在特征工程上花费大量的时间和精力㊂随着客户数据的快速增长,在大数据情况下,人工特征工程已不能有效地获取高质量特征㊂深度学习通过模拟人脑多层㊁逐级地抽取信息特征,能自动学习到较好的数据特征,在图像识别㊁语音识别等领域取得显著成果㊂为研究深度学习在客户流失预测方面的应用,构造了基于深度神经网络的流失预测模型,并在电信客户数据集上,与经过特征选择的Logistic 回归㊁决策树等预测模型作对比,验证其预测准确度㊂实验结果表明,深度神经网络模型取得了较好的预测效果㊂关键词:深度学习;深度神经网络;客户流失;电信中图分类号:TP 31 文献标识码:A 文章编号:1673-629X (2019)09-0076-05doi :10.3969/j.issn.1673-629X.2019.09.015Customer Churn Prediction Model Based on Deep Neural NetworkMA Wen -bin ,XIA Guo -en(School of Business Administration ,Guangxi University of Finance and Economics ,Nanning 530003,China )Abstract :One of the important problem enterprise faced is customer churn.In order to find out the customer loss in time and reduce the loss of enterprises ,many researchers have proposed solutions to the problem of customer churn.However ,most studies use shallow learning algorithm ,whose prediction results depend on feature selection and require a lot of time and energy in feature engineering.With the rapid growth of customer data ,in the case of big data ,artificial feature engineering has been unable to effectively obtain high -quality features.Deep learning can automatically learn better data features by simulating the human brain to extract information features in multiple layers and step by step ,making remarkable achievements in the fields of image recognition and speech recognition.In order to study the application of deep learning in customer churn prediction ,a churn prediction model based on deep neural network is constructed and compared with the Logistic regression ,decision tree and other models after feature selection in the telecom customer data set to test the prediction accuracy.Experiment shows that deep neural network model has better prediction effect.Key words :deep learning ;deep neural network ;customer churn ;telecommunications1 概 述流失客户通常是指在一定时期内终止使用企业的服务或产品的客户㊂客户流失是企业面临的一个重要问题,也是学术界研究的热点㊂高流失率代表企业产品的市场份额的减少,客户流失率的降低则意味着企业效益的提高㊂同时,企业获取新客户的成本也是保留老客户成本的数倍㊂为及时发现流失客户,减少客户流失量,研究者借助机器学习与数据挖掘算法,构建了大量的客户流失预测模型㊂表现好的流失预测模型对于最小化流失率非常重要,因为可以为那些不满意的特定客户提供个性化的促销或优惠活动,以此来挽留将要流失的客户㊂国内外企业为了深入了解客户行为,寻找影响客户流失的关键因素,通过开展数据挖掘竞赛的形式来发现优秀的客户流失预测解决方案㊂例如,法国电信运营商Orange 在KDD Cup 2009中提供了大量客户行为数据,供参赛者分析预测;KDD Cup第29卷 第9期2019年9月 计算机技术与发展COMPUTER TECHNOLOGY AND DEVELOPMENT Vol.29 No.9Sep. 20192015使用由学堂在线提供的用户在线学习行为数据,预测用户的流失率;携程也在2016年开展了客户流失概率预测竞赛;WSDM Cup2018则要求参赛者预测KKBOX的订阅用户的流失情况㊂经过多年对客户流失预测的研究,取得了较为显著的成果,客户流失中的数据不平衡㊁预测方法的选择等问题也得到了有效解决㊂在目前的研究中,研究者将客户流失预测视为一种分类问题,因此有监督学习算法大量地应用于客户流失预测,并取得了不错的效果㊂根据使用方法的不同,客户流失预测研究主要可分为五个方面㊂一是基于统计学的研究,具有代表性的方法是聚类算法㊁回归分析等㊂姜晓娟等[1]针对客户数据的类别不平衡㊁大规模等问题,在聚类算法基础上设置不同权重参数,实验表明该算法具有较好的预测效果㊂基于统计学方法的流失预测模型的优势是具有较强的可解释性,不足之处在于在大数据背景下,数据往往呈现高维㊁非线性㊁非正太分布等特点,此类方法的泛化能力得不到有效的保证㊂二是基于人工智能理论的研究㊂此类研究的代表性方法是人工神经网络㊂李洋[2]通过分析客户群特征㊁服务属性和客户消费数据,对比不同的预测模型,验证了神经网络预测的有效性㊂Kasiran Z等[3]结合增强学习算法与循环神经网络,预测移动手机用户的流失情况㊂冯鑫等[4]结合神经网络与自然语言处理,利用客户消费评论信息,预测客户是否会流失,并给出影响客户流失的主要指标㊂人工神经网络模拟人脑处理信息的结构,能够处理较复杂的数据,但可解释性较低,且容易产生过拟合问题㊂三是基于统计学习理论的研究㊂统计学习理论主要是构建给定数据的概率统计模型,并对未知数据进行预测,朴素贝叶斯算法㊁决策树㊁支持向量机等都属于常用的方法㊂Kirui C等[5]利用朴素贝叶斯㊁贝叶斯网络两种概率模型预测客户流失㊂尹婷等[6]结合决策树与贝叶斯分类算法,弥补了决策树算法的缺点㊂盛昭瀚等[7]给出一种加权熵的ID3算法解决客户流失预测问题㊂张宇等[8]使用C5.0算法预测邮政短信业务的客户流失情况㊂夏国恩等[9]通过与多种预测算法的比较,验证了支持向量机的预测有效性㊂王观玉等[10]结合主成分分析与支持向量机,降低数据的冗余性,提高了预测效果㊂Chen Zhenyu等[11]给出一种分层多核支持向量机,融合特征选择过程,在多个数据集上有较好的预测结果㊂赵琨等[12]利用双子支持向量机分析信用卡用户的流失情况㊂支持向量机基于VC维理论和结构风险最小化原理,具有较强的泛化能力,但可解释性较低,在小样本的情况下表现优异,但随着数据规模的增大,支持向量机已不能在有效的时间内完成计算任务㊂四是基于集成学习理论的研究㊂集成学习方法通过集成多种方法的优势,提高预测性能㊂子算法的选择㊁子算法预测结果的集成等问题是集成学习方面的研究热点㊂罗彬等[13]通过使用聚类算法分组样本集,然后利用不同的算法分别在样本子集上构建预测模型,最后基于成本敏感性,利用人工鱼群算法集成子模型的结果,实验表明提出的集成方法优于单个预测模型的预测性能㊂Coussement K等[14]利用集成学习方法预测在线客户的流失情况㊂五是基于社会网络分析的研究㊂社会网络是一种较为新颖的客户流失预测方法,使用社会网络发现潜在流失客户的假设前提是与流失客户存在于同一社区内或存在关联关系的客户更容易流失㊂Phadke C 等[15]基于客户的呼叫网络,给出一个度量客户间社会联系强度的公式,并利用影响扩散模型计算流失客户的净积累影响,最后在真实的移动客户数据上验证了使用社会网络分析预测客户流失的有效性㊂Verbeke W等[16]在关系分类模型中引入非马尔可夫网络,并融合关系分类模型与非关系分类模型,构建了流失预测模型㊂黄婉秋[17]基于RFM模型和时间序列分析法,结合社区发现㊁独立级联模型进行客户流失分析,并在零售客户数据上验证了基于社会网络方法的有效性㊂上述客户流失预测研究中使用的方法,预测效果依赖于特征处理的好坏,需要花费大量的时间与精力在特征工程上,随着客户数据的快速增长,在大数据情况下,人工特征工程已不能有效地获取高质量特征㊂但是深度学习通过模拟人脑多层㊁逐级地抽取信息特征,能够自动学习到可以较好地表示数据集的特征,借助深度学习,构建预测模型时,将不再依赖于特征选择㊂目前深度学习在客户流失预测方面的研究成果还较少,为探究深度学习在客户流失预测中的应用,文中构建了包含3隐层的深度神经网络模型,并在电信客户数据集上与经过特征选择的Logistic回归㊁决策树等预测模型作对比,从而验证深度神经网络模型的预测效果㊂2摇深度学习简介人工神经网络是客户流失预测中常用的一种算法,而深度学习是人工神经网络的延伸和发展,是一种拥有多隐层的人工神经网络算法,通过模拟人脑多层㊁逐级地抽取信息特征,最终获得能够较好地表示输入数据的特征[18]㊂2006年,Hinton等提出的深度置信网络(DBN)是当前深度学习算法的框架,打破了深层神经网络难以有效训练的僵局[19]㊂支持向量机㊁隐马尔可夫模型㊁感知机等都是典型的浅层学习算法,与浅层㊃77㊃ 第9期 马文斌等:基于深度神经网络的客户流失预测模型学习算法相比,深度学习在网络表达复杂目标函数的能力㊁网络结构的计算复杂度㊁仿生学角度㊁信息共享等方面更具有优势[20]㊂根据构造深度学习模型时采用的结构㊁学习算法等因素,深度学习可分为3类:生成深度结构㊁判别深度结构㊁混合深层结构[19]㊂生成深度结构的代表是深度置信网络;判别深度结构的代表模型是卷积神经网络;混合深层结构则是结合生成深度结构和判别深度结构来实现模式分类的一类深层结构㊂目前,借助于大数据,深度学习在许多领域的表现都优于浅层模型㊂根据数据类型的不同,深度学习主要应用在如下领域:一是图像识别,常用的算法是卷积神经网络或改进的卷积神经网络;二是语音识别,常用的算法是循环神经网络(RNN)或改进的循环神经网络;三是自然语言处理,由于自然语言的复杂性,虽然深度学习在自然语言处理上取得了一定的进展,但是并没有在图像㊁语音上的成果显著㊂3摇基于深度学习的客户流失预测模型经典的客户流失预测模型结构见图1㊂由图1可以看出,经典的客户流失预测模型主要包含数据预处理㊁属性选择㊁特征选择㊁流失预测㊁结果评价等阶段㊂属性选择和特征选择主要是为了减小原始数据中存在的主观性,降低数据 噪声”,达到约简数据维度,而不损失或较少损失数据信息的目的㊂特征选择主要是指从数据集的所有特征中,利用某种度量方法,筛选出分类预测效果最好的一组特征子集,常用的特征选择方法有互信息㊁Fisher比率㊁ReliefF等㊂当数据维度较大时,组合筛选出最优特征子集,需要花费大量的时间㊂图1 经典客户流失预测模型结构基于深度学习的客户流失预测模型如图2所示㊂由图2可知,经典客户流失预测模型与基于深度学习的客户流失预测模型最大的区别是在特征处理方面㊂特征工程需要一定的领域知识,且费时费力,最后选择的特征子集也不一定具有较好的预测结果㊂在基于深度学习的客户流失预测模型中,深度学习算法可以自主逐层地进行特征处理,没有属性选择㊁特征选择等特征工程阶段,节省了时间成本,且能够获得更为准确刻画数据信息的特征子集㊂图2 基于深度学习的客户流失预测模型结构基于深度学习的预测模型结构的预测过程是:多来源收集客户行为数据,确定初始属性集;对数据进行缺失值处理㊁异常值处理㊁峰度转换㊁标准化等预处理工作;将准备好的数据集输入深度学习算法,逐层学习数据特征,训练预测模型;评价预测结果,采用常用的精确率㊁召回率等评价指标,评价预测模型的性能㊂目前,常用的深度学习框架包括TensorFlow㊁Caffe㊁Keras㊁PyTorch㊁CNTK等㊂其中,Caffe采用配置文件定义网络结构,容易使用,且支持python接口,仅需要少量的代码构建预测模型,训练速度较快㊂因此,文中基于Caffe框架,研究深度学习算法在网络客户流失预测中的应用,通过参考现有深度学习算法模型,调整隐层以及各层的参数,构建了包含3个隐层的深度神经网络模型,如图3所示㊂Caffe中每一个网络模块都是一个层,文中构建的深度神经网络模型使用了数据层㊁全连接层㊁DropOut层㊁损失层等㊂这里对各层进行描述㊂图3 深度神经网络模型数据层:Caffe不直接处理原始数据,需要由处理程序转换为Caffe支持的数据格式㊂目前,Caffe支持HDF5㊁LMDB等多种数据格式,文中构建的深度神经网络使用HDF5格式㊂数据层定义4D的输入(1,1,1,87),表示一次输入一个数据,数据大小是(1,87)㊂全连接层:全连接层的每个节点与相邻层的所有节点都有连接㊂文中构建的深度神经网络的隐层是三个全连接层的堆叠,可看作是对输入数据逐层地提取㊃87㊃ 计算机技术与发展 第29卷信息,最后学习到较好的数据特征㊂全连接层的神经元数目分别是87㊁50㊁50,损失层的神经元数目则是2个㊂为加快收敛速度,全连接层的激活函数采用ReLU (rectified linear unit )㊂ReLU 函数(式1)是一种非饱和激活函数,Sigmoid ㊁Tanh 等饱和激活函数存在严重的梯度消失问题,训练收敛速度较慢㊂f (x )=for x <0x for x ≥{0(1)DropOut 层:为了防止训练网络时产生过拟合现象,提高模型泛化能力,文中构建的网络中使用了DropOut ㊂DropOut 是一种参数正则化方法,在训练网络过程中,按照一定的概率从网络中暂时丢弃部分节点,减少特征之间的相互作用,能够有效防止过拟合,提高模型健壮性㊂文中构建的网络中全连接层的丢弃率分别是0.5㊁0.4㊁0.3㊂损失层:损失函数度量网络输出的好坏,通过最小化损失,训练得到较好的网络㊂Caffe 中定义了多种损失函数,如EuclideanLoss ㊁HingeLoss ㊁SoftmaxLoss 等,由于客户流失预测是一种二类分类问题,因此采用SigmoidCrossEntropyLoss ㊂4 实验结果与分析4.1 数据集客户流失预测是在客户的历史行为数据上提取㊁选择客户特征,并运用分类预测算法建立预测模型,预测客户未来的状态㊂文中实验所用的电信客户行为数据来源于美国DUKE 大学,其中训练集共100000个样本,包含流失客户49562个,非流失客户50438个,两类客户的比例基本为1∶1;测试集共51306个样本,包含流失客户924个,非流失客户49514个,客户流失率为1.8%,数据类别严重不平衡㊂原始数据中部分属性存在缺失的情况,通过删除缺失率过高的属性以及填充缺失率较低的属性,共取得87个初始属性指标㊂4.2 预测算法和模型评价实验分别采用Logistic 回归㊁朴素贝叶斯和决策树3种常用算法构建预测模型,与深度神经网络预测模型进行对比,并从精确率㊁召回率㊁准确率㊁提升系数和F 1值5个方面评价模型预测结果㊂由表1可知,精确率=A /(A +C );召回率=A /(A +B );准确率=(A +D )/(A +B +C +D );提升系数=精确度/测试集的客户流失率;F 1=(2*精确率*召回率)/(精确率+召回率)㊂表1 混淆矩阵客户实际状态预测流失预测非流失流失A B 非流失CD4.3 实验环境实验所用的Logistic 回归㊁朴素贝叶斯和决策树等算法的实现主要使用基于Python 的机器学习库Scikit -Learn ㊂数据预处理主要使用Pandas 数据分析库㊂实验所用电脑的内存是16G ,处理器是Intel (R )Xeon (R )CPU E 5-1603v 3,操作系统为Win 764位㊂支持向量机也是客户流失预测中常用的方法,但是在现有的硬件条件下,在实验所用的数据集上,支持向量机不能在有效时间内计算出结果,因此没有选择支持向量机作为对比算法㊂4.4 实验结果分析深度神经网络的预测效果与网络的学习率相关,实验通过设定步长和搜索范围,经过多次对比,确定了预测效果较好的学习率为0.002㊂不同模型的预测结果如表2所示㊂表2 不同模型的预测结果预测算法精确率召回率准确率提升系数F 1DNN 0.02220.41990.65721.23530.0423Logistic 回归0.02120.51080.56741.17980.0408朴素贝叶斯0.01890.82680.22471.05050.0370决策树0.02070.53460.53571.14850.0398 由表2可知,深度神经网络(DNN )具有较好的预测结果㊂对比数据发现:在精确率上,DNN 的结果相对较好,分别比Logistic 回归等三种算法高出0.1%㊁0.33%㊁0.15%㊂精确率表示预测为流失客户的样本中的正确率,DNN 的精确率最高,表明在预测为流失客户的样本集中,DNN 预测正确的比例相对更高;在召回率上,DNN 的结果低于其他三种算法,说明DNN 在实际流失的样本集中,预测正确的比例较低;在准确率上,DNN 的表现也优于其他三种算法,说明DNN 预测正确的流失样本与非流失样本的数量更多;在提升系数上,DNN 的表现同样优于其他三种算法,提升效果明显;在F 1值上,DNN 的结果同样优于其他三种算法,F 1值是精确率和召回率的一种加权平均,DNN 的精确率比其他算法高,召回率比其他算法低,但F 1值最高,同时测试数据具有严重的类别不平衡性,说明DNN 的综合性能更优㊂㊃97㊃ 第9期 马文斌等:基于深度神经网络的客户流失预测模型朴素贝叶斯模型的召回率高达0.8268,但精确度㊁F1值在四个预测模型中最低,说明朴素贝叶斯模型预测错误的非流失客户更多,模型的整体性能不高㊂整体而言,与经过特征选择的Logistic回归等模型相比,DNN具有较好的预测效果㊂5摇结束语客户流失预测是一个不断发展的问题,过去的研究成果解决了客户流失预测领域的一些重要问题,但随着大数据时代的来临,客户流失预测出现了新的特点,例如数据的超大规模㊁更高的复杂性等,对经典的预测方法提出了挑战,需要新的方法来应对变化㊂深度学习在处理大数据方面具有很大的优势,在图像㊁语音㊁自然语言处理等领域取得了较为显著的成果,但在客户流失预测方面的研究较少㊂为探究深度学习在客户流失预测上的效果,构造了包含3个隐层的深度神经网络,并在某电信客户数据集上与Logistic回归㊁决策树等常用预测算法进行对比,实验结果表明,与经过特征选择的Logistic回归等模型相比,构造的深度神经模型拥有较好的预测效果㊂由于条件所限,未能构建拥有更多隐层的深度神经网络模型,也未能在更大规模的数据集上验证深度神经网络的有效性㊂下一步,将探究更深层神经网络的性能以及卷积神经网络等经典模型在网络客户流失预测上的应用,并搜集更大规模的数据用于分析预测大数据环境下的客户流失问题㊂参考文献:[1] 姜晓娟,郭一娜.基于改进聚类的电信客户流失预测分析[J].太原理工大学学报,2014,45(4):532-536. [2] 李 洋.基于神经元网络的客户流失数据挖掘预测模型[J].计算机应用,2013,33(S1):48-51.[3] KASIRAN Z,IBRAHIM Z,MOHD RIBUAN M S.Custom⁃er churn prediction using recurrent neural network with rein⁃forcement learning algorithm in mobile phone users[J].In⁃ternational Journal of Intelligent Information Processing, 2014,5(1):1-11.[4] 冯 鑫,王 晨,刘 苑,等.基于评论情感倾向和神经网络的客户流失预测研究[J].中国电子科学研究院学报, 2018,13(3):340-345.[5] KIRUI C,HONG L,CHERUIYOT W,et al.Predicting cus⁃tomer churn in mobile telephony industry using probabilistic classifiers in data mining[J].International Journal of Com⁃puter Science Issues,2013,10(1):165-172.[6] 尹 婷,马 军,覃锡忠,等.贝叶斯决策树在客户流失预测中的应用[J].计算机工程与应用,2014,50(7):125-128.[7] 盛昭瀚,柳炳祥.客户流失危机分析的决策树方法[J].管理科学学报,2005,8(2):20-25.[8] 张 宇,张之明.一种基于C5.0决策树的客户流失预测模型研究[J].统计与信息论坛,2015,30(1):89-94. [9] 夏国恩,金炜东.基于支持向量机的客户流失预测模型[J].系统工程理论与实践,2008,28(1):71-77. [10]王观玉,郭 勇.支持向量机在电信客户流失预测中的应用研究[J].计算机仿真,2011,28(4):115-118. [11]CHEN Zhenyu,SHU Peng,SUN Minghe.A hierarchical mul⁃tiple kernel support vector machine for customer churn pre⁃diction using longitudinal behavioral data[J].European Jour⁃nal of Operational Research,2012,223(2):461-472. [12]赵 琨,许洪贵,田英杰.基于双子支持向量机的信用卡流失分析[J].数学的实践与认识,2015,45(17):85-92. [13]罗 彬,邵培基,夏国恩.基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究[J].管理学报, 2012,9(9):1373-1381.[14]COUSSEMENT K,BOCK K W D,MIZERSKI D.Customerchurn prediction in the online gambling industry:the benefi⁃cial effect of ensemble learning[J].Journal of Business Re⁃search,2013,66(9):1629-1636.[15]PHADKE C,UZUNALIOGLU H,MENDIRATTA V B,etal.Prediction of subscriber churn using social network analy⁃sis[J].Bell Labs Technical Journal,2013,17(4):63-76.[16]VERBEKE W,MARTENS D,BAESENS B.Social networkanalysis for customer churn prediction[J].Applied Soft Computing Journal,2014,14(1):431-446. [17]黄婉秋.一种基于社会网络的潜在流失客户发现方法[J].北京交通大学学报,2014,38(3):123-127. [18]余 凯,贾 磊,陈雨强,等.深度学习的昨天㊁今天和明天[J].计算机研究与发展,2013,50(9):1799-1804. [19]孙志远,鲁成祥,史忠植,等.深度学习研究与进展[J].计算机科学,2016,43(2):1-8.[20]刘建伟,刘 媛,罗雄麟.深度学习研究进展[J].计算机应用研究,2014,31(7):1921-1930.㊃08㊃ 计算机技术与发展 第29卷。
决策树算法在电信业务客户流失分析中的应用
廊坊师范学院《数据挖掘》课程论文题目:决策树算法在电信业客户流失分析中的应用学生姓名:XXX任课教师:XXX院别:数学与信息科学学院系别:信息与计算科学系专业:10级信息与计算科学年级:2010级本科(1)班学号:XXXXXXXXX完成日期2013年 6月 8日目录摘要 (1)Abstract (2)第一章引言 (3)1.1 问题背景 (3)1.2 研究现状 (3)1.3 研究目的和意义 (3)第二章决策树算法基本概述 (4)2.1 决策树算法的提出和发展 (4)2.2 C5.0 决策树算法 (4)2.3 算法的示例 (5)第三章数据预处理 (5)3.1 导入编译数据 (5)3.2 数据处理 (6)第四章构造决策树 (9)4.1建模 (9)4.2决策树剪枝 (10)第五章总结与展望 (12)5.1模型评估 (12)5.2未来展望 (13)参考文献 (14)廊坊师范学院《数据挖掘》课程论文论文题目:决策树算法在电信业客户流失分析中的应用论文摘要:随着数据挖掘技术的发展,数据挖掘的重要性已经被越来越多的人关注。
数据挖掘就是利用已知的大量数据,利用算法,通过建立数学模型找出隐含在数据中的业务规则,其中对电信行业的客户流失预测就是目前的一大热点。
目前电信运营商面临着激烈的市场竞争。
对电信运营商来说,客户即生命,如何保有客户是企业客户管理的重中之重。
本文运用决策树C5.0算法对电信客户的属性特征进行分析,得出流失客户的基本特征,以帮助企业管理者对该类客户的行为特征进行分析,采取针对性的措施挽留即将流失的客户或有流失意向的客户,达到亡羊补牢的效果。
关键词:数据挖掘电信客户流失决策树算法C5.0算法Title:The application of decision tree algorithm in telecom customer churn. Abstract:Along with data mining technology development, data mining importance already by more and more many person attention.The data mining is theuse known mass datas, the use algorithm, discovers the concealmentthrough the establishment mathematical model in the data service rule, inwhich to the telecommunication profession customer outflow forecast is apresent big hot spot.At present telecommunication operation business isfacing the intense market competition.To the telecommunicationoperation business, the customer is the life, how holds the customer is theenterprise customer management the most important.This article utilizesthe decision tree C5.0 algorithm to carry on the analysis to thetelecommunication customer attribute characteristic, obtains the outflowcustomer the basic characteristic, helps the enterprise superintendent tocarry on the analysis to this kind of customer behavior characteristic,adopts the customer which the pointed measure detains soon drains or hasthe outflow intention customer, achieved is better late than never effect. Keywords: Data mining telecommunication customer outflow decision tree algorithm C5.0 algorithm第一章引言1.1 问题背景随着西方国家数据挖掘在市场中的广泛应用,例如:数据挖掘在超市商品货物分析中发现客户购买的隐藏关系,中国也有越来越多的企业开始了这一门技术的使用。
【大数据部落】电信公司churn数据客户流失k近邻(knn)模型预测分析
【⼤数据部落】电信公司churn数据客户流失k近邻(knn)模型预测分析Data backgroundA telephone company is interested in determining which customer characteristics are useful for predicting churn, customers who will leave their service.The data set is Churn . The fields are as follows:State discrete.account length continuous.area code continuous.phone number discrete.international plan discrete.voice mail plan discrete.number vmail messages continuous.total day minutes continuous.total day calls continuous.total day charge continuous.total eve minutes continuous.total eve calls continuous.total eve charge continuous.total night minutes continuous.total night calls continuous.total night charge continuous.total intl minutes continuous.total intl calls continuous.total intl charge continuous.number customer service calls continuous.churn DiscreteData Preparation and Exploration1. 查看数据概览2. ## state account.length area.code phone.number3. ## WV : 158 Min. : 1.0 Min. :408.0 327-1058: 14. ## MN : 125 1st Qu.: 73.0 1st Qu.:408.0 327-1319: 15. ## AL : 124 Median :100.0 Median :415.0 327-2040: 16. ## ID : 119 Mean :100.3 Mean :436.9 327-2475: 17. ## VA : 118 3rd Qu.:127.0 3rd Qu.:415.0 327-3053: 18. ## OH : 116 Max. :243.0 Max. :510.0 327-3587: 19. ## (Other):4240 (Other) :499410. ## international.plan voice.mail.plan number.vmail.messages11. ## no :4527 no :3677 Min. : 0.00012. ## yes: 473 yes:1323 1st Qu.: 0.00013. ## Median : 0.00014. ## Mean : 7.75515. ## 3rd Qu.:17.00016. ## Max. :52.00017. ##18. ## total.day.minutes total.day.calls total.day.charge total.eve.minutes19. ## Min. : 0.0 Min. : 0 Min. : 0.00 Min. : 0.020. ## 1st Qu.:143.7 1st Qu.: 87 1st Qu.:24.43 1st Qu.:166.421. ## Median :180.1 Median :100 Median :30.62 Median :201.022. ## Mean :180.3 Mean :100 Mean :30.65 Mean :200.623. ## 3rd Qu.:216.2 3rd Qu.:113 3rd Qu.:36.75 3rd Qu.:234.124. ## Max. :351.5 Max. :165 Max. :59.76 Max. :363.725. ##26. ## total.eve.calls total.eve.charge total.night.minutes total.night.calls27. ## Min. : 0.0 Min. : 0.00 Min. : 0.0 Min. : 0.0028. ## 1st Qu.: 87.0 1st Qu.:14.14 1st Qu.:166.9 1st Qu.: 87.0029. ## Median :100.0 Median :17.09 Median :200.4 Median :100.0030. ## Mean :100.2 Mean :17.05 Mean :200.4 Mean : 99.9231. ## 3rd Qu.:114.0 3rd Qu.:19.90 3rd Qu.:234.7 3rd Qu.:113.0032. ## Max. :170.0 Max. :30.91 Max. :395.0 Max. :175.0033. ##34. ## total.night.charge total.intl.minutes total.intl.calls total.intl.charge35. ## Min. : 0.000 Min. : 0.00 Min. : 0.000 Min. :0.00036. ## 1st Qu.: 7.510 1st Qu.: 8.50 1st Qu.: 3.000 1st Qu.:2.30037. ## Median : 9.020 Median :10.30 Median : 4.000 Median :2.78038. ## Mean : 9.018 Mean :10.26 Mean : 4.435 Mean :2.77139. ## 3rd Qu.:10.560 3rd Qu.:12.00 3rd Qu.: 6.000 3rd Qu.:3.24040. ## Max. :17.770 Max. :20.00 Max. :20.000 Max. :5.40041. ##42. ## number.customer.service.calls churn43. ## Min. :0.00 False.:429344. ## 1st Qu.:1.00 True. : 70745. ## Median :1.0046. ## Mean :1.5747. ## 3rd Qu.:2.0048. ## Max. :9.0049. ##从数据概览中我们可以发现没有缺失数据,同时可以发现电话号地区代码是没有价值的变量,可以删去Examine the variables graphically从上⾯的结果中,我们可以看到churn为no的样本数⽬要远远⼤于churn为yes的样本,因此所有样本中churn占多数。
基于BP神经网络的电信客户流失风险预测
基于BP神经网络的电信客户流失风险预测【摘要】通过电信客户流失风险的预测,企业可以更有针对性地开展市场营销活动,降低客户流失率,提高企业的市场竞争力。
本文通过对电信客户流失的成因分析,建立电信客户流失风险预测指标体系,利用神经网络的学习功能,建立客户流失模型,预测未来客户的流失情况。
【关键词】电信客户流失;BP神经网络;风险预测随着电信市场的逐渐放开,在电信企业经营活动中,客户资源已经成为企业竞争的焦点。
能否处理好客户流失问题成为影响企业经营效益高低的主要原因。
因此,通过电信客户流失预测的研究,对在电信业经营过程中提高业绩有着极为重要的意义。
人工神经网络具有良好的非线性映射能力,能有效的解决非正态分布、非线性的电信企业客户流失风险问题,评估精度要高于传统数学模型。
1 BP神经网络及其改进学习算法原理1.1 BP神经网络原理BP神经网络是一种具有三层或者三层以上的阶层结构的神经网络。
即输入层、隐含层和输出层,各层之间神经元权连接,但每层的神经元之间互不连接。
当学习样本提供给网络之后,神经元的激活值从输入层经过隐含层向输出层传播,在输出层的各神经元获得网络的输入相应。
按照减少目标输出与实际误差的方向,从输出层经过各隐含层修正各连接权值,回到输入层,即BP算法。
随着这种误差逆的传播修正不断进行,网络对于输入模式的响应正确率也不断上升。
典型的BP神经网络结构如图1所示。
1.2 BP神经网络改进学习算法传统BP神经网络的学习算法是一种简单的梯度下降静态寻优算法,在修正权值时,只是按照某时刻的负梯度进行修正,收敛速度慢,很容易导致局部最小值,并且网络推广能力弱。
本文利用MATLAB中工具箱提供的Levenberg-Marquardt优化方法,有效改善了传统BP神经网络学习的缺点。
Levenberg-Marquardt优化方法(trainlm)是根据网络训练误差变化情况来自动调节训练参数,从而随时采用合适的训练方法。
ClementineC5.0模型预测CDMA客户流失
ClementineC5.0模型预测CDMA客户流失摘要:该文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,通过收集客户的基本数据、消费数据和缴费行为等数据,建立客户流失预测模型,进行客户流失分析及预测。
通过对大量相关技术和统计方法的研究,最终确定了clementine的C5.0模型作为电信客户流失的预测模型。
此模型对客户流失预测有较高的准确性,为电信经营分析系统作了有益的尝试与探索。
关键词:数据挖掘;客户流失;统计分析;C5.0模型;CDMA 客户1概述以中国电信云南某公司的项目支撑为基础,从统计数据来看,维持5%的老用户增长,给电信公司带来的利润将远远超过85%,而要想把一位非电信用户发展成客户,其成本将比保留一位老客户的成本高得多,统计数据表明成本是4倍左右,此时,客户对电信的忠实程序也将发生强烈的变化,由此给企业造成的损失将大大增加。
从项目的实施情况来看,为了保证成功向客户推销运营商的产品,多数人都只愿意向老客户推销。
因为由此付出的代价比用户要小得多,成功率也要高得多。
通过这些数据我们可以看到防范老客户的流失相比发2研究现状及C5.0模型特点在我们国内,很多运营商为了应对市场的竞争,多数都己经建立了“电信经营分析系统”,这在一定程序上为深层次的数据分析提供了良好的数据处理分析平台。
而目前国内在数据利用上确远远不及国外的层次深,国内的数据应用主要集中在固定报表处理、查询分析和个人的主观探索,在更高领域的应用如数据挖掘还不太成熟,更谈不上深层次的应用。
而这些在国外,很多知名的电信运营商却已经能够很好地利用数据挖掘技术,以便通过建立客户流失的模型,提升利润空间及对一些流失概率比较高的客户进行有针对的保留工作,这样做的目的可能有效地控制入网用户的流失。
Clementine作为一个数据挖掘软件,给运营商创造了很好的数据处理应用平台,在此平台下,运营商可以有效地使用一些商业技术准确、快捷地建立预测的模型,而后把由此模型生成的数据使用在推销应用领域。
基于K-Means和Logistic的寿险客户流失预测模型研究
金融视线DOI:10.19699/ki.issn2096-0298.2020.17.059基于K-Means和Logistic的寿险客户流失预测模型研究①山东科技大学数学与系统科学学院 张馨予 门玉杰山东科技大学审计处 孙晓红摘 要:为了帮助寿险行业从海量业务交易中提取有效客户信息并进行客户保留,本文首先用K-Means算法进行寿险客户的价值细分,初步判断哪类客户最有可能流失,并针对不同价值群体的客户给予公司不同的建议;其次对细分后的客户群体建立Logistic二分类回归预测模型,比较与细分前的预测精度差异。
实验结果中,细分后客户群对应Logistic模型的准确率、召回率和F1值较细分前均有提升,这说明客户细分能为其流失预测提供有价值的信息,有助于寿险公司盈利水平的提高。
关键词:寿险客户流失 客户细分 K-Means算法 Logistic模型中图分类号:F840.62 文献标识码:A 文章编号:2096-0298(2020)09(a)-059-03客户流失是指公司现存客户停止与当前公司的业务交易,转而与该公司的竞争对手进行业务交易[1],它是引发公司经济不景气的潜在不利因素。
寿险客户为非合约客户,相关性较弱且流动率较高,因此客户保留工作不容小觑。
国内针对寿险行业的客户流失预测研究起步较晚、成果较少。
2008年,孙红等建立寿险客户流失的价值指标体系,用决策树算法输出各项指标对决策的影响[2]。
2013年,周晓玮构建寿险预警指标,使用BP神经网络建立流失预测模型[3]。
2015年,梁锋将数据挖掘技术应用到寿险行业中,利用决策树算法建立预测模型[4]。
20世纪50年代中期,温德尔提出“客户细分”的概念,旨在从庞大的客户信息中获取少量精准信息进行客户分类,方便公司进行营销管理,实现经济效益最大化。
考虑到在寿险行业中,甚少有学者采用对客户进行先细分后流失预测的建模方法。
本文首先用K-Means聚类算法对寿险客户进行价值细分,获得不同价值类别的客户;其次建立Logistic二分类模型进行客户流失预测,并比较细分前、细分后的预测效果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于clementine神经网络的电信客户流失预测基于clementine神经网络的电信客户流失模型应用昆明理工大学信息与自动化学院颜昌沁胡建华周海河摘要本文针对目前电信行业中一个日益严峻的问题:客户离网进行研究,以电信行业为背景,通过收集客户的基本数据、消费数据和缴费行为等数据,建立离网客户的流失预测模型。
进行客户流失的因素分析以及流失预测。
以某电信分公司决策支撑系统为背景,通过在电信一年半时间的领域调研和开发实践,以此为基础,使用了统计分析和数据挖掘的技术,对PAS客户流失主题进行了较为完善、深入的分析与研究,为电信经营分析系统作了有益的尝试与探索。
针对PAS客户流失分析主题,本文选取了3个月的PAS在网用户和流失用户及其流失前的历史消费信息为样本,确定了个体样本影响流失的基本特征向量和目标变量。
通过对大量相关技术和统计方法的研究,最终确定了clementine的神经网络模型来作为电信客户流失的预测模型。
实践证明,本论文整体的技术路线是可行的,神经网络模型对电信客户流失预测有较高的准确性,所发现的知识具有一定的合理性和参考价值, 对相关领域的研究起到了一定的推动作用。
关键词:数据挖掘、客户流失、统计分析、神经网络一、引言本文是基于中国电信某分公司经营分析支撑系统项目为背景来展开的。
电信分公司经营分析支撑系统是电信运营商为在激烈的市场竞争中生存和持续发展,尽可能全面地满足企业经营管理工作的需要,跟上市场形势的变化,使庞大的数据库系统有效地产生企业知识,以新经营管理支撑手段及时准确地了解市场竞争、业务发展和资源使用情况,以便及时发现问题和解决问题,并根据分析结果及时调整政策而开发的分析系统。
根据调查机构的数据显示,“用户保持率”增加5%,就有望为运营商带来85%的利润增长,发展一位新客户的成本是挽留一个老客户的4倍;客户忠诚度下降5%,则企业利润下降25%;向新客户推销产品的成功率是15%,然而,向老客户推销产品的成功率是50%。
这些数据表明:如何防范老客户流失必须要引起高度重视。
对企业而言,长期的忠诚客户比短期获取的客户更加有利可图。
因为长期顾客较容易挽留,服务成本比新顾客低,而且能够为公司宣传、带来新的客户,因此客户离网成为电信运营商们最为关注的问题之一。
本文针对电信分公司PAS流失客户,从时间、地域、产品类型、在网时长、用户状态、消费金额、年龄等角度进行分析,通过构建数据仓库模型得到数据挖掘需要的样本集,通过聚类及知识领域的指导来生成关于PAS客户流失的神经网络模型,找出PAS客户流失的特征和规律,来辅助电信公司制定营销政策。
二、研究现状及神经网络模型特点国内的电信企业出于市场竞争的需求,大多己建立或在建“电信经营分析系统”,客观上为深层次的数据分析提供了良好的数据平台。
但是在分析及应用开发上,大多数的“经营分析系统”都基于固定报表、即时查询以及主观探索OLAP基础之上,深层次的数据挖掘大多处于理论探讨和尝试的阶段。
在国外,不少知名的电信公司利用数据挖掘技术提升利润空间,通过建立流失客户的预测模型,对高流失概率的客户进行针对性的市场挽留工作,能够明显减小在网客户的离网率。
目前采用的流失预测的数据挖掘模型包括决策树、神经网络、逻辑回归、聚类关联性分析等,其中大多数流失模型采用决策树进行建模,比如C4.5及其扩展、CART等模型。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含生其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
Clementine 是一个数据挖掘工具平台,通过此平台可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。
Clementine 参照行业标准 CRISP-DM 模型设计而成,可支持从数据到更优商业成果的整个数据挖掘过程。
在clementine中有各种不同的模型节点,如:K-Means 节点将数据集聚类到不同分组(或聚类)。
分类和回归树(C&RT)节点生成可用于预测和分类未来观测值的决策树。
线性回归是一种通过拟合直线或平面以实现汇总数据和预测的普通统计方法。
二元分类器节点用于创建和对比二元结果(是或否,流失或不流失等)的若干不同模型,使用户可以选择给定分析的最佳处理方法。
Logistic 回归是根据输入字段值对记录进行分类的统计技术。
本文选择的是神经网络模型节点来进行电信的客户流失预测。
神经网络节点使用的模型是对人类大脑处理信息的方式简化了的模型。
此模型通过模拟大量类似于神经元的抽象形式的互连简单处理单元而运行。
神经网络是功能强大的一般函数估计器,只需要最少的统计或数学知识就可以对其进行训练或应用。
神经网络是神经系统运转方式的简单模型。
其基本单元是神经元,通常将其组织到层中,这些处理单元都位于层中。
通常在神经网络中有三个部分:一个输入层,其中的单元表示输入字段;一个或多个隐藏层;一个输出层,带有一个或多个表示输出字段的单元。
这些单元通过可变的连接强度(或权重)连接。
输入数据显示在第一层,其值从每个神经元传播到下一层的每个神经元。
最终从输出层中输出结果。
该网络可通过以下过程进行学习,即检查单个记录,然后为每个记录生成预测,并且当生成的预测不正确时,对权重进行调整。
在满足一个或多个停止标准之前,此过程会不断重复,而网络会持续提高其预测准确度。
最初,所有的权重都是随机生成的,并且从网络输出的结果很可能没有意义的。
网络可通过训练来学习。
向该网络重复应用已知道结果的示例,并将网络给出的结果与已知的结果进行比较。
从此比较中得出的信息会传递回网络,并逐渐改变权重。
随着训练的进行,该网络对已知结果的复制会变得越来越准确。
一旦训练完毕,就可以将网络应用到未知结果的未来案例中。
神经网络节点可以处理数字、符号或标志型输入和输出。
神经网络节点应使用一个或多个方向为输入的字段,以及一个或多个方向为输出的字段。
设置为双向或无的字段将忽略。
执行节点时,字段类型必须已完全实例化。
三、神经网络模型的构建及应用在clementine中应用神经网络进行电信客户流失预测的过程如下:首先选择数据源:本例中数据源为一个电子表格,打开clementine11在底部的选项板区中选择数据源项,双击其中的excel, 右击excel选择编辑,在导入文件中选择要用的数据源。
然后在选项板中选择字段选项,选择其中的类型,进行编辑,读取所有值后将标识客户流失项设置为输出,总的挖掘过程如下图所示:在设置好输出后,在建模里选择特征选项,特征选择节点会根据某组条件(例如缺失百分比)筛选可删除的预测变量字段,对于保留的预测变量,随后将对其相对于指定目标的重要性进行排序。
这项的目的是用于对所有输入的项进行选择,可以用系统默认的设置,这样能保留哪些对输出(也就是客户的流失标志)有影响的项,以及各项对此的影响效果大小。
能去掉哪些对输出没有影响的项。
执行以后会生成一个模型,在这个特征模型里选择生成过滤节点,在过滤节点里,我们可以看到哪些对输出没有影响的项已经被过滤了,当然这一步如果对数据非常熟悉的话,也可以直接从数据类型里来做。
如下图所示:接着我们在模型里面选择神经网络,编辑神经网络模型的选项,可以在里面选择要使用的方法, Clementine 提供了六种用于构建神经网络模型的训练方法:1.快速:此方法使用数据的简明规则和特征来选择合适的网络形状(拓扑)。
2.动态:此方法会创建一个初始拓扑,但可以在训练过程中增加和/或删除隐藏的单元,从而修改该拓扑。
3.多重:此方法会创建几个具有不同拓扑的网络(确切数量取决于训练数据)。
4.修剪:此方法首先从一个较大的网络开始,然后会在训练过程中删除(修剪)隐藏层和输入层中最差的单元。
此方法通常速度较慢,但比其他方法产生的结果要好。
5.RBFN,6.穷举型修剪。
在模型中设置预防过度训练。
此选项会将数据随机分割为两部分,训练集合和检验集合,以便于建模。
如果正在使用单独的分区字段(例如分区节点创建的分区字段),预防过度训练设置则仅适用于训练分区,实际效果为“对分区进行分区”。
而设置随机数种子的意义在于:如果不设置随机数种子,则每次执行节点时用于初始化网络权重的随机值的序列都会不同。
这将导致即使节点设置和数据值都完全相同,节点也会在不同的运行中创建不同的模型。
通过选择该选项,可以将随机种子设置为特定值,从而使结果模型具有精确的可再现性。
特定的随机种子通常会生成相同的随机值序列,在这种情况下执行节点通常会产生相同的生成模型。
有以下几种停止标准:1.默认:如果使用此设置,网络将在表现为已经达到其最佳训练状态时停止训练。
2.精确性(%):如果使用此选项,训练则会一直继续,直到达到指定的精确性。
这种情况可能永远不会出现,但您可以随时中断训练,以截止到目前所达到的最佳精确性保存该网络。
3.周期:如果使用此选项,训练将持续指定的周期数(传递数据的次数)。
如果使用此选项,训练将持续指定的时间长度(以分钟为单位)。
5.选择内4.时间(分钟):存使算法在适当的时候以牺牲一定的速度为代价使用磁盘溢出,默认情况下选中此选项。
注意:以分布模式运行时,此设置可被在 options.cfg 中指定的管理员选项覆盖。
选项中有几个选项应加以注意:1.继续训练现有模型,默认情况下,每次执行神经网络节点时,都会创建一个全新的网络。
选择此选项,则训练会继续,直至节点成功生成最后一个网络。
2.使用二进制集合编码,选择此选项,Clementine 将对于集合字段使用压缩的二进制编码方案,可以将具有很多个值的集合字段用作输入,从而更加简便地构建神经网络模型。
3.显示反馈图形,可看到一个显示网络精确性的图形。
4.敏感度分析,敏感度分析会提供哪些输入字段对于预测输出字段最重要的相关信息。
下图为模型在生成前的选项和生成后的统计情况。
在执行后会在右面的窗口中生成神经网络模型,打开模型,可看到统计的数据,模型的准确度及时间等,还可在模型里导出PMML及导出SQL等。
在模型的准确度达到要求以后,将生成的模型导入到业务支撑系统中,在导出模板中,选择数据库,输入服务器地址及数据库名称。
如下图所示:四、客户流失分析及总结经过模型的建立和生成,对其进行分析整理后,可看出PAS 客户流失的特征,在没有预存的用户中,客户的流失率达到20%,比有预存的用户流失率要高8个百分点。
而在FEE_ALL这一项中,高端客户的流失率较低,PAS流失最严重的客户群在月消费为10至40的客户,流失率在22%以上,这也是占比最多的一部分。
如下表所示 FEE_ALL 流失数总用数流失率100<X<=150 50 666 0.07507580<X<=100 70 701 0.09985770<X<=80 65 551 0.11796760<X<=70 142 948 0.1497890<X<=10 425 2723 0.15607820<X<=30 969 4387 0.2208830<X<=40 711 3081 0.23076910<X<=20 959 4122 0.232654在网时长这一项中,在网时长位于28至31这一段的客户流失最为严重,流失率高达30%以上,应重点关注这部分用户。