客户流失分析(数据挖掘-第1讲)
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第1月 第2月 第3月 第4月 第5月 第6月 第7月 第8月 第9月 第10月
预测自变量时间窗口
间隔
预测目标变量时间窗口
商业理解
如何从分析结果中获取实际收益 得到了流失预测结果,如何使用?如何事先预估市场 挽留活动的收益?通过数据挖掘得到流失分析的结果往往有 两类: 一类是流失客户的特征描述 另一类是针对每一个客户的流失评分。 流失客户的特征描述可用来帮助市场部业务人员在制订 挽留性营销策略时参考,从而制订出有针对性的挽留策略; 而流失评分结合其它变量(例如客户价值)可以帮助业务人 员决定应该对哪些客户进行挽留。经过与市场业务人员的讨 论,我们得知针对特定客户的挽留措施往往是给他们一定折 扣或者优惠政策,这样就大体上得到了预估市场挽留活动预 期收益的数据公式: 预期收益=流失客户预期收入-流失客户挽留预期成本 其中,流失客户预期收入可以用流失客户过去若干个月的 总花费或者平均花费来表示,流失客户挽留预期成本包括: 电信公司进行时常挽留活动的总体策划、宣传成本;针对客 户的集体折扣或优惠成本。
客户流失分析
(数据挖掘-案例分析1)
上海****通信技术有限公司 Mr Jim(seniordba@sina.com) 2014-02
培训大纲
一、统计知识 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
CRISP-DM
CRISP-DM(即跨行业数据挖掘标准流程”的缩写),是 一种业界认可的用于指导数据挖掘工作的方法。
指标变量获取
2、衍生变量 为了更清晰的说明衍生变量的生成,我们把数据分为 两类:一类是横截面数据(指某一时点上收集到的数据), 另一类是时间序列数据,一条记录代表一个时间点或者时 间段上的取值,通常会有一个表示时间的变量。 对横截面数据的衍生变量来说有以下一些常用的生成 衍生变量的方法: ①、强度相对指标:有一个联系的两个指标之间相比 的结果得到的指标。例如平均通话时长=总通话时长/总通 话次数 ②、比例相对指标:用来反映总体中各组成部分所占 比例的一个指标。
商业理解
定义分析用数据的时间窗口 如何定义预测的输入变量(自变量)和预测变量(因变量)的时间窗口。 对自变量窗口来说,进行流失分析的目的显然是希望在客户流失之前发 现他,而在业务系统中,客户行为是连续发生的,那么在分析时应该取 多长时间的数据呢?取的时间过短,可能客户的行为受随机因素影响太 大,不具有代表性;取的时间过长,历史太久远的数据不能反映客户最 新的趋势。综合考虑数据的可获取性和有效性以后的结果,我们这里取 6个月的历史数据。 对因变量(是否流失)的数据窗口来说,为了使得到的预测结果既 具有前瞻性,又能给营销部门充分的营销时间,我们考虑流失定义的时 间窗口与自变量的定义窗口间隔一个月(通常需要3~7天的数据处理时 间),再考虑到如前述流失定义需要3个月的观察期(欠费与无通话行 为情形),具体预测自变量和目标变量(因变量)的时间窗口如下图所 示:
指标变量获取
2、衍生变量 对时间序列数据有以下一些常用的生成衍生变量的方 法: ①、滞后类指标:对于时间序列数据,各条记录之间 联系更加紧密,我们通常会取上一条记录(例如代表上月 取值)及上年同期(例如去年同月),与当前记录相比得 到环比增长率(例如本月值/上月值)和同比增长率(例如 本月值/上年同期值);为了消除波动,有时我们还对多个时 间段数值进行求和、平均等操作。例如股市中常用的股价 5日平均值,这类指标可以被归结为滞后类指标。 ②、汇总类指标: 汇总类指标:求和,平均值,最小值,最大值,标 准差,记录数等。
数据理解与数据准备
在数据理解与数据准备阶段,我们将 对数据做初步探索性分析,了解数据质量 状况,考察数据的大致分布情况,此外还 要将各方面的数据进行合并,整理成可以 进行数据挖掘的宽表形式(即行代表记录, 列代表变量的二维表),并进一步根据业 务上的考虑,生成一些有业务含义的衍生 变量。在实际的数据挖掘项目中,我们会 发现,数据理解和数据准备的时间经常会 占到整个项目周期的60%~70%,甚至更多。
指标变量获取
从业务系统中取出的数据都是根据业务的需 要考虑设计的,但往往不能达到取得良好数据挖掘 结果的目的.这时需要对数据进行各种变换或者生 成相关的衍生变量。下面介绍一些数据的常用变 换形式和衍生变量生成的常用方法。 1、单变量的变换 为了建立模型的便利,经常要对现有的变量 进行某种形式的变化。这里总结出以下几个类型 的单变量变换方法。
指标变量获取
是相对而言,分析中经常需要把一个连续取值变换为离散的分级变量 以使业务上更好理解。连续变量向离散变量的转化可以完全基于业务 来考虑,比如对客户的年龄分群,有些企业就是把18~40岁算作他们 的青年客户。如果从统计学角度考虑,连续型变量向离散型变量转换 主要是进行分箱变换,可以分为三种: ①、按照等距离进行分箱 ②、按照等数量进行分箱 ③、按照分布进行分箱。 例如把数据分为3段,小于平均数-3个标准差为第一段;大于平均 数-3个标准差且小于平均数+3个标准差为第二段;大于平均数+3个标 准差为第三段。
指标变量获取
3、趋势类指标 对时间序列变量来说,一个重要的方面是看趋势。例如在这个 案例中,我们特别关注每个客户的通话时长等指标的趋势,是变多, 变少,还是随机性的波动?我们有理由猜测,如果一个客户的通话 时长趋势是变少,那么这个客户流失的可能性会更大。但是如何衡 量趋势呢?最朴素的想法是用最后一个月的取值除以第一个月的取 值看增长率,但是这样会丢失很多中间月份的数据信息。我们还可 以使用下面的方法来查看趋势。即建立变量与时间的回归模型(例 如在这个案例中,自变量为月份,因变量为通话时长),将自变量 的回归系数作为趋势(也可以使用标化回归系数作为趋势),这个值 大于0,则趋势是变多;这个值小于0,则趋势是变少。趋势的计 算公式如下(以x作为月份,y代表通话时长,n代表月份数量),则:
最大值 最小值 波动值 平均值
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
案例背景
现在假设你是电信企业的一个数据分析经理,发现最 近电信市场又在血拼,竞争对手不断挖公司的墙角,公司 的高端客户这个月又流失了不少。 公司打算组织一个市场营销活动来遏止这种趋势,可 是这个客户挽留活动毕竟只是公司众多市场活动中的一个, 预算也有限。 看看数据仓库里积累了那么多数据,能不能挖挖这些 数据, ①、看看哪些客户可能会流失? ②、这些客户都有些啥特征? ③、做这样的市场活动大概会有啥投资汇报?
连续变量向离散变量的转化。一个变量取值是大是小,往往只
指标变量获取
离散变量向连续变量的转化。
对于有些分级类型的离散变量,可以将它理解为对连 续变量做处理和建立模型。例如:对于二分的标志变量, 也可以将它们转化为连续变量,即将标量的一个取值记为 1,另一个取值记为0。这样,如果将1理解为1.0,将0理解 为0.0。则这个标志变量可以理解为是分布在0.0~1.0之间 的一个连续变量,只不过这个连续变量比较特殊,在观察 到数据中只有0.0和1.0两个取值。
指标变量获取
连续变量向连续变量的转化。连续变量的变换通 常有这样几种情况:
①使数据便于计算和比较进行的变化,例如由单位是分变为 单位是元、入网时间(时间型号变量)向在网时长的转化 ②为了修正数据的分布对数据进行适当的变化,例如对数变换、 倒数变换等 ③使不同量纲和数量级的数据具有可比性的变化,即标准化 变化。标准化变换通常有两种形式:一种是 (原值-平均 值)/标准差Hale Waihona Puke Baidu另一种是(原值-最小值)/(最大值-最小 值),这种变换后取值范围在0~1之间。
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
数据理解
套餐数据
字段名称 套餐类型 固定费用 免费时长 高峰时费率 低谷时费率 周末时费率 国际费率 语音信箱 短信服务
指标解释 每月需支付固定费用 每月提供免费(国内)时长 高峰时期每分钟话费(超过免费时长部分) 低谷时期每分钟话费(超过免费时长部分) 周末时期每分钟话费(超过免费时长部分) 国际长途电话每分钟话费 语信信箱收费(未用) 短信服务收费(未用)
希望全面使用以上4个类别的客户数据,但实际项目中有些数据或者由于 获取成本太高,或者由于数据库系统中没有记录,导致分析时无法使用。 最终可能发现,真正能用于作为数据挖掘的预测自变量只剩下客户基本信 息和客户行为数据两类,甚至这两个类别中包含的变量也只有在数据理解 阶段完成数据质量审核后才能决定是否可用。
离散变量向离散变量的转化。
当离散变量的类别数特别多时,可以对它们适当的 归并,例如将个数特别少的类别统一归为其它就是典型的 一种。另外,一个多分的离散变量也可以变为多个二分的 标志变量,比如有一个离散变量是X,它有a,b,c三个取值, 那么完全可以把它变为Xa,Xb,Xc三个变量,每个变量有1和 0两个取值,而当X取值为a时,对应的情况是Xa取值为1, 而Xb,Xc的取值都为0。
商业理解
我们可以把流失问题归结为如下3个问题: ①、预测哪些客户(尤其是哪些高价值的客 户)可能会流失 ②、可能流失客户的特征是什么 ③、市场挽留活动的预计收益是多少
商业理解
如何定义流失 经过与业务人员的充分沟通,最终定 义: ①、销号 ②、欠费超过3个月(后付费客户) ③、3个月无通话行为(预付费客户) 变量值记为1,否则为不流失,变量记 为0。
趋势值
n xy x y n x 2 ( x) 2
指标变量获取
4、波动类指标 对时间序列变量来说,趋势只反映了大致 方向,但是这个方向的过程是一帆风顺,还是惊 淘骇浪呢?可以使用波动指标来进行度量。简单 地,可以使用标准差或变异系数来衡量波动,也 可以使用如下公式计算波动:
商业理解
哪些变量可用于预测流失 ①、客户基本信息数据:包括客户的年龄,性别,入网时间等 ②、客户行为数据:主要是客户使用电信产品和服务情况的数据。 比如客户的通话详单记录,客户订阅,使用,退订增殖服务情 况等,这部分数据容易获得,存放在业务系统中,一般数据质 量较好。 ③、客户交互数据:包括客户投诉、业务咨询以及客户对电信的 市场营销活动等响应情况等数据,尤其是客户拨打客服电话的 的情况。 ④、客户态度数据:包括客户对电信服务的满意程度、意见和建 议、客户流失的真正原因(是被竞争对手挖角,搬家,对产品 或服务不满意,还是特别喜欢特定手机终端)等。这部分数据 需要通过市场调查获得,但获得成本过高,往往不在我们考虑 的范围之内。
数据理解:接口1
客户基本信息表(custinfo.csv) 变量名称 Customer_ID Gender Age L_O_S 变量标签 客户编号 性别 年龄 在网时长 变量类型 离散 离散 连续 连续 男,女 12~82 9.53~58.2 CAT50,CAT100,CAT200,Play100,P lay300 ASAD170,ASAD90,BS110,BS210,CA S30,CAS60,S50,S80,SOP10,SO P20,WC95 变量取值(范围)
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
商业理解
• 通信业是一个竞争异常激烈的行业,如何
对客户进行有效的管理,尽可能的减少客 户的流失和跳网是一个紧迫的问题。这里 将介绍数据挖掘在移动通信业关于客户流 失研究中的应用。
• 数据挖掘技术将提供功能强大的模型,可
以回答诸如“哪些客户最可能流失?”和 “为什么这些客户会流失?”等问题。
商业理解
流失与哪些因素相关 顾客年龄?性别?收入?行业?话费水平? 话务质量? 确定数据挖掘目标
① 对客户进行分群,寻找高流失的客户群 ② 建立规则,描述那些可能流失的客户特征 ③ 建立打分模型,对客户流失可能性进行评 价
预测自变量时间窗口
间隔
预测目标变量时间窗口
商业理解
如何从分析结果中获取实际收益 得到了流失预测结果,如何使用?如何事先预估市场 挽留活动的收益?通过数据挖掘得到流失分析的结果往往有 两类: 一类是流失客户的特征描述 另一类是针对每一个客户的流失评分。 流失客户的特征描述可用来帮助市场部业务人员在制订 挽留性营销策略时参考,从而制订出有针对性的挽留策略; 而流失评分结合其它变量(例如客户价值)可以帮助业务人 员决定应该对哪些客户进行挽留。经过与市场业务人员的讨 论,我们得知针对特定客户的挽留措施往往是给他们一定折 扣或者优惠政策,这样就大体上得到了预估市场挽留活动预 期收益的数据公式: 预期收益=流失客户预期收入-流失客户挽留预期成本 其中,流失客户预期收入可以用流失客户过去若干个月的 总花费或者平均花费来表示,流失客户挽留预期成本包括: 电信公司进行时常挽留活动的总体策划、宣传成本;针对客 户的集体折扣或优惠成本。
客户流失分析
(数据挖掘-案例分析1)
上海****通信技术有限公司 Mr Jim(seniordba@sina.com) 2014-02
培训大纲
一、统计知识 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
CRISP-DM
CRISP-DM(即跨行业数据挖掘标准流程”的缩写),是 一种业界认可的用于指导数据挖掘工作的方法。
指标变量获取
2、衍生变量 为了更清晰的说明衍生变量的生成,我们把数据分为 两类:一类是横截面数据(指某一时点上收集到的数据), 另一类是时间序列数据,一条记录代表一个时间点或者时 间段上的取值,通常会有一个表示时间的变量。 对横截面数据的衍生变量来说有以下一些常用的生成 衍生变量的方法: ①、强度相对指标:有一个联系的两个指标之间相比 的结果得到的指标。例如平均通话时长=总通话时长/总通 话次数 ②、比例相对指标:用来反映总体中各组成部分所占 比例的一个指标。
商业理解
定义分析用数据的时间窗口 如何定义预测的输入变量(自变量)和预测变量(因变量)的时间窗口。 对自变量窗口来说,进行流失分析的目的显然是希望在客户流失之前发 现他,而在业务系统中,客户行为是连续发生的,那么在分析时应该取 多长时间的数据呢?取的时间过短,可能客户的行为受随机因素影响太 大,不具有代表性;取的时间过长,历史太久远的数据不能反映客户最 新的趋势。综合考虑数据的可获取性和有效性以后的结果,我们这里取 6个月的历史数据。 对因变量(是否流失)的数据窗口来说,为了使得到的预测结果既 具有前瞻性,又能给营销部门充分的营销时间,我们考虑流失定义的时 间窗口与自变量的定义窗口间隔一个月(通常需要3~7天的数据处理时 间),再考虑到如前述流失定义需要3个月的观察期(欠费与无通话行 为情形),具体预测自变量和目标变量(因变量)的时间窗口如下图所 示:
指标变量获取
2、衍生变量 对时间序列数据有以下一些常用的生成衍生变量的方 法: ①、滞后类指标:对于时间序列数据,各条记录之间 联系更加紧密,我们通常会取上一条记录(例如代表上月 取值)及上年同期(例如去年同月),与当前记录相比得 到环比增长率(例如本月值/上月值)和同比增长率(例如 本月值/上年同期值);为了消除波动,有时我们还对多个时 间段数值进行求和、平均等操作。例如股市中常用的股价 5日平均值,这类指标可以被归结为滞后类指标。 ②、汇总类指标: 汇总类指标:求和,平均值,最小值,最大值,标 准差,记录数等。
数据理解与数据准备
在数据理解与数据准备阶段,我们将 对数据做初步探索性分析,了解数据质量 状况,考察数据的大致分布情况,此外还 要将各方面的数据进行合并,整理成可以 进行数据挖掘的宽表形式(即行代表记录, 列代表变量的二维表),并进一步根据业 务上的考虑,生成一些有业务含义的衍生 变量。在实际的数据挖掘项目中,我们会 发现,数据理解和数据准备的时间经常会 占到整个项目周期的60%~70%,甚至更多。
指标变量获取
从业务系统中取出的数据都是根据业务的需 要考虑设计的,但往往不能达到取得良好数据挖掘 结果的目的.这时需要对数据进行各种变换或者生 成相关的衍生变量。下面介绍一些数据的常用变 换形式和衍生变量生成的常用方法。 1、单变量的变换 为了建立模型的便利,经常要对现有的变量 进行某种形式的变化。这里总结出以下几个类型 的单变量变换方法。
指标变量获取
是相对而言,分析中经常需要把一个连续取值变换为离散的分级变量 以使业务上更好理解。连续变量向离散变量的转化可以完全基于业务 来考虑,比如对客户的年龄分群,有些企业就是把18~40岁算作他们 的青年客户。如果从统计学角度考虑,连续型变量向离散型变量转换 主要是进行分箱变换,可以分为三种: ①、按照等距离进行分箱 ②、按照等数量进行分箱 ③、按照分布进行分箱。 例如把数据分为3段,小于平均数-3个标准差为第一段;大于平均 数-3个标准差且小于平均数+3个标准差为第二段;大于平均数+3个标 准差为第三段。
指标变量获取
3、趋势类指标 对时间序列变量来说,一个重要的方面是看趋势。例如在这个 案例中,我们特别关注每个客户的通话时长等指标的趋势,是变多, 变少,还是随机性的波动?我们有理由猜测,如果一个客户的通话 时长趋势是变少,那么这个客户流失的可能性会更大。但是如何衡 量趋势呢?最朴素的想法是用最后一个月的取值除以第一个月的取 值看增长率,但是这样会丢失很多中间月份的数据信息。我们还可 以使用下面的方法来查看趋势。即建立变量与时间的回归模型(例 如在这个案例中,自变量为月份,因变量为通话时长),将自变量 的回归系数作为趋势(也可以使用标化回归系数作为趋势),这个值 大于0,则趋势是变多;这个值小于0,则趋势是变少。趋势的计 算公式如下(以x作为月份,y代表通话时长,n代表月份数量),则:
最大值 最小值 波动值 平均值
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
案例背景
现在假设你是电信企业的一个数据分析经理,发现最 近电信市场又在血拼,竞争对手不断挖公司的墙角,公司 的高端客户这个月又流失了不少。 公司打算组织一个市场营销活动来遏止这种趋势,可 是这个客户挽留活动毕竟只是公司众多市场活动中的一个, 预算也有限。 看看数据仓库里积累了那么多数据,能不能挖挖这些 数据, ①、看看哪些客户可能会流失? ②、这些客户都有些啥特征? ③、做这样的市场活动大概会有啥投资汇报?
连续变量向离散变量的转化。一个变量取值是大是小,往往只
指标变量获取
离散变量向连续变量的转化。
对于有些分级类型的离散变量,可以将它理解为对连 续变量做处理和建立模型。例如:对于二分的标志变量, 也可以将它们转化为连续变量,即将标量的一个取值记为 1,另一个取值记为0。这样,如果将1理解为1.0,将0理解 为0.0。则这个标志变量可以理解为是分布在0.0~1.0之间 的一个连续变量,只不过这个连续变量比较特殊,在观察 到数据中只有0.0和1.0两个取值。
指标变量获取
连续变量向连续变量的转化。连续变量的变换通 常有这样几种情况:
①使数据便于计算和比较进行的变化,例如由单位是分变为 单位是元、入网时间(时间型号变量)向在网时长的转化 ②为了修正数据的分布对数据进行适当的变化,例如对数变换、 倒数变换等 ③使不同量纲和数量级的数据具有可比性的变化,即标准化 变化。标准化变换通常有两种形式:一种是 (原值-平均 值)/标准差Hale Waihona Puke Baidu另一种是(原值-最小值)/(最大值-最小 值),这种变换后取值范围在0~1之间。
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
数据理解
套餐数据
字段名称 套餐类型 固定费用 免费时长 高峰时费率 低谷时费率 周末时费率 国际费率 语音信箱 短信服务
指标解释 每月需支付固定费用 每月提供免费(国内)时长 高峰时期每分钟话费(超过免费时长部分) 低谷时期每分钟话费(超过免费时长部分) 周末时期每分钟话费(超过免费时长部分) 国际长途电话每分钟话费 语信信箱收费(未用) 短信服务收费(未用)
希望全面使用以上4个类别的客户数据,但实际项目中有些数据或者由于 获取成本太高,或者由于数据库系统中没有记录,导致分析时无法使用。 最终可能发现,真正能用于作为数据挖掘的预测自变量只剩下客户基本信 息和客户行为数据两类,甚至这两个类别中包含的变量也只有在数据理解 阶段完成数据质量审核后才能决定是否可用。
离散变量向离散变量的转化。
当离散变量的类别数特别多时,可以对它们适当的 归并,例如将个数特别少的类别统一归为其它就是典型的 一种。另外,一个多分的离散变量也可以变为多个二分的 标志变量,比如有一个离散变量是X,它有a,b,c三个取值, 那么完全可以把它变为Xa,Xb,Xc三个变量,每个变量有1和 0两个取值,而当X取值为a时,对应的情况是Xa取值为1, 而Xb,Xc的取值都为0。
商业理解
我们可以把流失问题归结为如下3个问题: ①、预测哪些客户(尤其是哪些高价值的客 户)可能会流失 ②、可能流失客户的特征是什么 ③、市场挽留活动的预计收益是多少
商业理解
如何定义流失 经过与业务人员的充分沟通,最终定 义: ①、销号 ②、欠费超过3个月(后付费客户) ③、3个月无通话行为(预付费客户) 变量值记为1,否则为不流失,变量记 为0。
趋势值
n xy x y n x 2 ( x) 2
指标变量获取
4、波动类指标 对时间序列变量来说,趋势只反映了大致 方向,但是这个方向的过程是一帆风顺,还是惊 淘骇浪呢?可以使用波动指标来进行度量。简单 地,可以使用标准差或变异系数来衡量波动,也 可以使用如下公式计算波动:
商业理解
哪些变量可用于预测流失 ①、客户基本信息数据:包括客户的年龄,性别,入网时间等 ②、客户行为数据:主要是客户使用电信产品和服务情况的数据。 比如客户的通话详单记录,客户订阅,使用,退订增殖服务情 况等,这部分数据容易获得,存放在业务系统中,一般数据质 量较好。 ③、客户交互数据:包括客户投诉、业务咨询以及客户对电信的 市场营销活动等响应情况等数据,尤其是客户拨打客服电话的 的情况。 ④、客户态度数据:包括客户对电信服务的满意程度、意见和建 议、客户流失的真正原因(是被竞争对手挖角,搬家,对产品 或服务不满意,还是特别喜欢特定手机终端)等。这部分数据 需要通过市场调查获得,但获得成本过高,往往不在我们考虑 的范围之内。
数据理解:接口1
客户基本信息表(custinfo.csv) 变量名称 Customer_ID Gender Age L_O_S 变量标签 客户编号 性别 年龄 在网时长 变量类型 离散 离散 连续 连续 男,女 12~82 9.53~58.2 CAT50,CAT100,CAT200,Play100,P lay300 ASAD170,ASAD90,BS110,BS210,CA S30,CAS60,S50,S80,SOP10,SO P20,WC95 变量取值(范围)
培训大纲
一、指标变量获取 二、案例背景 三、商业理解 四、数据理解与数据准备 五、建立模型与模型评估 六、模型应用 七、总结
商业理解
• 通信业是一个竞争异常激烈的行业,如何
对客户进行有效的管理,尽可能的减少客 户的流失和跳网是一个紧迫的问题。这里 将介绍数据挖掘在移动通信业关于客户流 失研究中的应用。
• 数据挖掘技术将提供功能强大的模型,可
以回答诸如“哪些客户最可能流失?”和 “为什么这些客户会流失?”等问题。
商业理解
流失与哪些因素相关 顾客年龄?性别?收入?行业?话费水平? 话务质量? 确定数据挖掘目标
① 对客户进行分群,寻找高流失的客户群 ② 建立规则,描述那些可能流失的客户特征 ③ 建立打分模型,对客户流失可能性进行评 价