数据挖掘的步骤及实例(客户流失模型)

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)客户基本数据中的学历、职业等字段中有大量的缺值, 而且正确性难以保证,可以去掉,不参加建模。
2)有些客户的通话数据可能存在异常,可以删除这些客 户。
3)有些属性之间相关性较大,可进一步选择。
3 数据准备
时间窗口选择:
客户流失与时间有关。因此,需要选择时间窗口。例如,时间窗 口为3,就是取3个月的通话等相关数据。
3)性能与计算复杂度。
4)处理连续数据或离散数据的能力、处理高维数据的能力等。
常见的算法都可对部分参数进行调整。 实际问题中,可使用多个算法对同一个问题进行建模。
4 挖掘算法与挖掘软件的选择
典型数据挖掘软件介绍:
1)SAS公司的Enterpride Miner软件。为SAS统计软件的一个模块。
2) IBM公司Intelligent Miner软件、 Clementine软件(原SPSS公 司)。
客户“类标签”的确定:
在电信客户流失中,主要有三类流失:
1)主动流失:客户客户主动去营业厅要求销户 2)变动流失:因欠费,被电信公司关闭账户。 3)自然流失:因各种原因停止使用手机号码,有时可能还有少量通话。
前两类由系统自动标记,第三类形成比较复杂,可通过消费额的变化, 予以标记。
3 数据准备
数据清理:
0 数据挖掘的步骤
数据挖掘中的数据变换过程
解释/评估
数据挖掘
预处理 及变换
变换后的数据
数据清理筛选
目标数据
数据
1 需求分析
第一步:需求分析。明确挖掘目标和要求。
方法: 1)调查、访谈。 2)头脑风暴。头脑风暴会议应在充分的材料准备基础上, 在轻松的环境中进行,以充分发挥与会人员的才智。
任务: 1) 数据挖掘应完成哪一类任务:关联、分类、回归、聚
类? 2)如何展示和应用挖掘结果。 3)挖掘系统部署后,对业务有哪些提升?
1 需求分析
手机客户流失预测需求分析:
发展一个新客户的成本远远高于保持一个老客户。所以, 保持老客户就十分重要。
一个电信企业在运营过程中,不可避免地要流失部分客 户。所以,可以建立客户流失模型。从大量的与客户相关的 数据中,挖掘出流失客户的共同特征。从而对初显流失客户 特征的客户采取必要的措施。
2-5 数据挖掘过程及实例(手机客户流失预测)
0 数据挖掘的步骤
第一步:需求分析。明确挖掘目标和要求。
第二步:数据理解。了解目前的数据状况。 第三步:数据准备:选择挖掘的数据并进行预处理 第四步:挖掘算法与挖掘软件的选择。
第五步:构建硬件、软件、数据平台,确定相关参数, 并具体挖掘。
第六步:结果展示与评价、导出。
长途 通话 时长
IP电 话通 话时 长
分时 段通 话时 长
分天 通话 时长
主、 被叫 市话 的个 数
主、 被叫 长话 的个 数
….
短信详单可聚集出类似的变量。投诉信息可统计出投 诉次数等。
3 数据准备
数据采样:
客户流失模型研究的目标是为了挽留客户。研究价值低的客户得不偿 失。因此,应选择满足一定价值标准的客户。例如,积分或历史消费数据 应大于某个标准。
2 数据理解
通话详单如下:
手机 号码
呼叫 类型
漫游 类型
长途 类型
目标 通话 号码
通话 开始 时间
通话 持续 时间
….
主叫 被叫
短信详单与上面类似。
2 数据理解
投诉数据:
客户 号码
投诉 投诉 时间 类型
投诉 小类
投诉 处理 情况
客户 满意 度
…..
交费数据: 对后付费客户,主要是交费是否及时,对预付费客户,
主要是充值时间、金额等。
3 数据准备
第三步:数据准备。按要求准备好需要挖掘的数据。
按照挖掘要求,通过抽取数据,转换,聚集以及数据预处理技术, 将数据整理成适合挖掘的形式。(宽表)
数据预处理的主要内容
1)数据归约:在保持数据完整性和有效性的前提下,将庞大的数据量
压缩到可接受的范围。
2)数据清理:填充空缺值,识别孤立点,消除噪音。 3)离散化处理:有些数据的属性呈连续值,不利于数据挖掘。应对这
4 挖掘算法与挖掘软件的选择
第四步:挖掘算法与挖掘软件的选择。
主要考虑因素: 1)算法的有效性:即算法对要解决的问题是否有效。数据集的特征是千变万化
的。目前,每个算法都对数据集有潜在假设。没有一种算法在所有类型的数 据集上都表现良好。因此,数据集的特征应与算法的假设比较吻合。
2)模型的可理解性:模型可解释,可增加人们对模型的信任度。例如,用决策 树算法生成的模型易于解释,而神经网络算法生成的模型则难以解释。
3)Oracle公司的Oracle Data Mining软件。为Oracle数据库管理系 统新增的模块,与数据库管理软件紧密集成。
客 手号

户 机码套款
号 号品餐方
码 码牌

入客
网户 渠类

道型
第1
个月 各项 数据
第2 第3
个月 个月 各项 各项 数据 数据
流失 情况
流失 正常
3 数据准备
时间窗口的叠加:
为了提高模型的适应性,可使用不同的时间窗口的数据进行叠加。
4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3 4 5 6 7 8 9 10 11 12 1 2 3
手机客户流失预测数据理解: 预测需要的数据:客户数据、通话详单、短信详单、
投诉数据、交费数据等。
客户数据:
客 户 代
客 户 姓
性 别
年 龄
学 历
职 业
单 位
收 入

手 机 号
号 码 品
套 餐
付 款 方
入 网 渠
客 户 类

码名
码牌
式道型
客户级别数据按月提供,每个客户一条记录。客户的年龄、职业、 学历、收入等数据准确性较低。
手机客户的特征:自然特征+行为特征
2 数据理解
第二步:数据理解。即了解目前的数据状况。
1. 需要的数据及含义
2. 数据的分布情况: 需要的数据都分布在哪些系统(数据库、表)中,有多
少数据。
3. 数据的质量: 1)关键数据是否能够获取。 2)缺失值或无效值数量如何? 3)是否有足够的历史数据。
2 数据理解
些连续值,采用不同粒度进行离散化采样处理;
4)概念提升:有些属性值域很大(可能的取值数量很多),对于过于
密集的离散值,用更概括的值取代。例如年龄属性可以概括为青年、中年、 老年等。
3 数据准备
将详单数据聚集为月度数据:
ห้องสมุดไป่ตู้客户 号码
月通 话总 长
月通 话次 数
月呼 出时 长
月呼 出次 数
漫游 通话 时长
相关文档
最新文档