潜在流失客户的发掘模型探讨

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
表 1 用于分类的训练数据集 ID Joblessຫໍສະໝຸດ BaiduBought G ender ∃ Ag e Sav ings Granted 1 Yes CD Female ∃ 20 1K No 2 No Jew el M ale ∃ 35 56K Yes 3 No Car Female ∃ 42 80K Y es ∃ ∃ ∃ ∃ ∃ ∃ ∃ ∃ 820 Y es TV M ale ∃ 27 5K No
的水平, 企业也许会忽视这样的情况. 这说明仅仅 依靠客户业务量变化 来判断客户流 失是不全面 的. 因此我们采取偏差分析来综合考虑各种情况. 2. 1 偏差分析 事实上, 有很多指标能够反映客户忠诚度. 应 用多元指标集合可以产生更全面和可靠的结果. 基于数据库中关于客户过去表现的历史数据, 建 立一个时间序列模型来预测客户的指标期望值, 采取偏差分析方法来分析客户行为的异常变化. 数据库中的数据常有一些异常记录, 从数据 库中检测这些偏差很有意义[ 4] . 偏差包括很多潜 在的知识 , 如分类中的反常实例、 不满足规则的特 例、 观测结果与模型预测值的偏差、 量值随时间的 变化等. 偏差分析通过发现异常, 可以引起人们对 特殊情况的加倍注意 . 异常包括如下几种模式: 不 满足常规类的异常例子 ; 出现在模式边缘的特异 点; 与父类或兄弟类有显著不同的类; 在不同时刻 发生了显著变化的某个元素或集合; 观察值与模 型推算出的期望值之间有显著的差异的事例. 偏 差分析方法在数据挖掘中广泛运用, 在实时数据 库中大量具有潜在意义的变化发现少量真正重要 和相关的偏差 . 偏差计算公式如下 : t = ( Et - A t ) / E t , 式中, A t 为指标 的真实值 ; E t 为指 标的 期望值 ( 基于时间序列 ) . 如果分析检测到某个偏差 t 超 过指定的最小阈值 min ( 如 t > min ) , 表示数据库 中发生了一个明显的偏差 , 系统会自动产生异常 报告 . 2. 2 时间序列模型 在管理科学中有两类预测模型 : 时间序列模 型和因果模型 . 在时间序列模型中 , 基于一段时间 的历史行为可以预测将来一系列的特征行为; 而 因果模型基于一些能够影响将来特征行为的已知 和可计量因素. 因为可以利用客户数据库中大量 的历史数据作为模型训练和调整的基础 , 所以采 取时间序 列模型 比较 合适, 任何月 份的 期望值 E t = A S t , 式中, A 是当前估计的基础指标; S t 是 周期指数( 定义为某个周期的真实值与当年的平 均值之比 ) , S t > 1 表明该周期的期望值大于基础 指标 A , 反之亦然 . 考虑 到某些时 间段 ( 如节假 日) 对模型有影响, 加入变化趋势斜率 B . 这样计 算公式如下: E t = ( A + Bt ) S t , 式中, E t 为月 t 的预测 值 ( t = 1, 2, ∃, 12) ; A 为基础指标 ; B 为变化趋势斜率 ; S t 为月 t 的周 期指数.
摘要 : 提出了一个基于数据挖掘技术的解决方案 , 首先运用 C4. 5 决策 树算法识别客户的客观指标集合 , 然后 对这些客观指标进行偏差分析 , 建立时间序列模 型预测流失客户 . 关 键 词 : 客户保持 ; 偏差分析 ; 数据挖掘 ; 客户流失 文献标识码 : A 文章编号 : 1671 4512( 2003) 09 0028 03 中图分类号 : F274; T P 311
个较大的平滑常数( 如 0. 7 ) 可以在一个短时间内 使用 . 一旦这种特殊情况恢复正常 , 用户应该还是 使用以前较小的平滑指数 . 数据库中对每个指标的训练预测模型的数据 量随着时间不断增长 , 因此预测标准值的准确性 可以不断提高 . 采取的方案有以下优点 : 根据时间 序列中的周期模式使用周期指数来调整预测值, 并考虑了当前的环境因素 , 使用指数平滑方法采 纳更新的数据 . 在得到客户各指标的预测值后 , 偏差分析可 以检查出那些表现明显偏差(
的目的 .
1 客户客观指标的采集
在企业的客户数据库中, 储存着大量的客户 资料 , 而每位客户的个人资料有很多指标, 首先是 确定一系列能够准确反映客户资料的客观指标. 选择客观指标可以归结为特征选择的一个分类问 题, 对相关属性的列表值进行识别 , 观察其是否能 够影响客户忠诚度和流失可能性的分类 . 预测的 准确性很关键, 客观指标的列表值可以作为下一 阶段 识别潜在流失客户模型的输入. 对于每 个客观指标 , 通过偏差分析来量度客户的实际经 济指标和由历史数据得到的预测值之差异. 显然, 需要首先去识别一系列相关指标, 客户的这些客 观指标能够有效代表客户忠诚度和流失可能性. 传统方法是企业的领域专家依赖自己的判断 建立一系列 的客观指标. 这样存在 几个缺点: 首 先, 人们的分析和模式识别能力在鉴别有关分类 结果方面非常有限 , 因此由专家制定的客观指标 集合在某种程度上不确定和不完整 . 其次, 在一个 处于动态变化的时期中 , 指标集合对于目标类的 影响会逐步变化, 也许专家不能发现这些细微的 变化 . 因为这样的动态变化, 企业会错过一些重要 的更新指标. 并且经过长时间的积累, 企业的数据 库变得越来越庞大 , 而其中有大量的数据指标对 于目标类是非相关或者多余的, 这样巨大的原始
min 一定的范围,
则数
据仓库会自动产生一份异常报告.
2 潜在流失客户的预测模型
通过第 1 节中的方法得到有关能够反映客户 忠诚度以及客户流失性的客观指标集合 , 完成了 预测潜在流失客户的初步工作. 对这些指标进行 偏差分析, 建立时间序列模型识别有流失倾向的 客户 . 识别流失客户的传统方法是跟踪客户一段时 间的表现, 市场分析人员会提供一份周期性的报 告( 比如每周、 每月或每年 ) , 这份报告记载了每一 位主要客户的相对于上个周期的业务量变化. 通 过这样的报告, 将客户忠诚度的量度与其相对的 业务量变化联系起来 . 在某些时候 , 这种方法确实 能识别一部分的流失客户 . 然而, 这样的简单分析 还需要改进 . 其主要缺陷在于基于业务量的客户 忠诚度的比较应该只是相对的. 即使客户和企业 保持稳定的业务量水平, 客户仍有可能流失. 比如 说, 客户的总业务量在增长, 但是他决定更换一家 供应商 , 于是他将增长的那部分业务量转向了新 供应商, 同时维持与原供应商的业务量水平. 经过 一段时间, 客户最终和新供应商建立了比较稳定 的关系, 将全部业务量都转移到新供应商. 还有这 样一种情况, 在经济繁荣时期 , 所有的用户业务量 都在增长, 而有些客户的业务量仍然维持在原来
本文探讨如何 运用数据挖掘技 术[ 1] 对客户 资料和已流失客户模式进行分析, 建立有效的流 失客户预测模型 , 以达到客户保持
[ 2]
数据集难以进行有效和高效的监控 . 所以, 我们首 先必须识别相关指标集合 , 基于高度准确性的要 求, 采取了 C4. 5 决策树算法来进行分类. 分类是数据挖掘中一种很重要和频繁使用的 技术 . 分类是一种数据分析形式, 用于提取描述重 要数据类的模型或预测未来的数据趋势 . 分类是 一个两步过程 , 第一步, 建立一个模型, 描述预定 的数据集或概念集 . 通过分析由属性描述的数据 库元组来构造模型 [ 3] . 假定每个元组属于一个预 定义的类, 由一个称作类标号属性 ( class label at t ribut e) 的属性确定 . 第二步 , 使用模型进行分类. 首先评估模型( 分类法) 的预测准确率 . 如果认为 模型的准确率可以接受 , 就可以用它对类标号未 知的数据元组或对象进行分类 . 分类规则对于各种任务都具有高度预测准确 性. a. C4. 5 能够对 将来含有未知分类结果的数 据进行分类预测. 比如说 , 银行经理在审核一份申 请表单时, 他可以根据由历史数据得到的分类模 型来判断这份申请是否合乎要求 . b. 这些分类规 则中的属性对最终的分类结果具有影响 , 用户能 够较好地理解每个目标类的特性. 这在现实应用 中尤其有意义, 因为用户往往需要得到特定的分 类结果. 使用决策树来识别客观 指标, 应 用 C4. 5 决 策树算法于表 1 中的数据 , 得到以下分类规则 : IF( Jobless = No! ) ∀ ( Boug ht = jewel! ) ∀ ( Saving > 20K) # Granted = Yes! [ 90 % ] . 显示在分类规则中的属性是客观指标 , 因为 他们对目标概念 Granted! 具有影响力 . 比如说,
收稿日期 : 2002 09 11.
作者简介 : 马辉民 ( 1972 ) , 男 , 副教授 ; 武汉 , 华中科技大学管理学院 ( 430074) . 基金项目 : 国家自然科学基金资助项目 ( 70071011) .
第9期
马辉民等 : 潜在流失客户的 发掘模型探讨
29
从上 面 的 分 类 规 则, 可 以 推 断 属 性 Jobless !, Bought!, and Saving! 对目标类 Grnted! 是有影 响和 相 关 的 , 然 而 其 他 的 属 性 如 Married !, Age! , Gender! 则不是 .
30







报 ( 自然科学版 )
第 31 卷
为了得到准确的预测结果 , 时间序列模型采 用了三种类型的数据集合 : 实验数据、 训练数据和 预测数据. 首先, 实验数据集 ( 在一定范围内选择 的历史数据 ) 用来计算初始的基础指标 A , 变化 趋势斜率 B 以及月 t 的周期指数 . 接着, 从下个 周期时间段里没有用于实验的数据中选择训练数 据集, 这一步使用当前参数 A , B 和 S t 来推断预 测值 E t , 而计算的预测 值 E t 和真实值之间的差 异可以通过指数平滑来调整参数 A , B 和 S t . 这一 步很关键, 因为它根据观察真实值和预测值之间 的波动适当地调整了第一步中用于预测的三个参 数. 最后, 选择训练集之后的未来周期数据来组成 预测数据集合 , 根据训练集 调整后的 参数 A , B 和 S t , 可以准确得到未来某个周期的预测值 E t . 指数平滑可以不断地改正某个时期的错误而 在下个时期纠正 , 从而提高下个时期的预测水平. 在比较预测值 E t 和真实 值的基础上 , 这种方法 通过调整各自的平滑常数 , , !和计算参数 A , B 和 S t 的更新估计值 , 从而保持预测的准确性 . 假设从历史 数据中获 得估 计值 A = 10 000 将用于预测 1999 年的实际成果 . 但由于 1999 年 整个经济处于繁荣时期, 实际的成果是 11 000. 因 此预测误差使 11 000- 10 000= 1 000. 考虑到随 机波动 , 调整对于 1996 年的参数 A , 通过判断参 数 A 的真实变化来得到预测误差百分比. 可以指 定这个百分比( 0. 00 % ~ 100 % ) 为平滑指数的形 式. 比如说, 如果 a 设定为 0 . 1 , 则实际上将当前 预测误差的 10% 归于实际的变化 , 而 90% 的预测 误差是随机产生的 . 通常, 平滑指数越接近于 1, 实际变化在预测误差所占的影响越大. 一般, 这些 平滑常数留给最终用户在动态环境里控制 , 虽然 实证表明平滑指数在 0. 10 和 0. 30 之间能够保证 可靠的预测结果. 但若用户预料到将来会产生某 种特殊的环境导致的估计值变化水平较大 , 则一
通过关联规则 , 能够客观识别对目标类目前 最具有影响力的指标集合 , 用来和领域专家主观 确定的指标集合比较 . 作为客观识别和主观判断 交叉验证过程的结果 , 显然在量度客户忠诚度和 流失可能性时更具有时效性且更可靠 . 在数据仓 库中对这些客观指标进行监控, 若客户的某个指 标值超过了最小偏差阈值
第 31 卷 第 9 期 2003 年 9月







报 ( 自然科学版 )
V ol. 31 Sep.
No. 9 2003
J. Huazhong U niv . of Sci. & T ech. ( N ature Science Edition)
潜在流失客户的发掘模型探讨
马辉民 尹汉斌 华中科技大学 管理学院 郭 潇 西华师范大学 数学系
相关文档
最新文档