电子商务客户流失三阶段预测模型_朱帮助
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
客户。描述客户活跃 程度的变量是客 户活跃度, 用 P ( alive)表示。
客户信息 X = ( x, t, T )。令客户的初始交易时 间 t0 = 0, 客户信息 X 表示该客户从初始交易 t0 到 时间 T, 共交易 x 次, 其中最近一次交易发生在时 间 t。此时, 客户活跃度可表示为 P ( alive |X )。
一 、引言 客户流失是指企业原来的客户中止继续购买
企业商品或接受企 业服务, 转而接 受竞争对手的 商品或服务 [ 1] 。最近 十多年, 互联 网技术与应用
收稿日期: 2009- 11- 16 修回日期: 2010- 04- 21 基金项目: 国家自然科学基金项目 ( 70471074) ; 广东省自然科学基金项目 ( 9452902001004060) ; 国家博士后科学基金 ( 20100470008) 。 作者简介: 朱帮助 ( 1979- ) , 男, 江苏宿迁人, 北京理工大学管理与经济学院博士后, 五邑大学 经济管理学院 副教授, 研究方向: 复杂系 统分析与建模、CRM 建模、智能信息处理理论与应用。
这些大量的解释变量信息来提高 SMC 模型在个体 层次上的客户流失预测精度。作为新型数据挖掘
技术, 最 小二乘支 持向量 机 ( least squares support vector m ach ines, L SSVM ) 正是处理这种大量解释变 量的有效方法。
在上述背景下, 综合集成 SMC 和 LSSVM 应该 是一种有效的策略。然而, 目前关于这方面的研究 文献尚很罕见。本文的研究目的在于借鉴相关学科 研究成果[ 11- 12] , 把 SMC 模型仅依赖少数关键变量 的鲁棒性和 LSSVM 擅长捕捉大量解释变量间非线 性映射关系的建模能力结合起来, 构建以 SMC为核 心、LSSVM 为辅助手段的电子商务客户流失预测模 型, 以提高个体层次上客户流失预测的精度。
电子商务客户流失预测问题具有特殊性, 即 企业无法准确判断客户是否真的流 失, 导致预 测 的复杂程 度大大 增加, 传 统的 经验 时间阈 值法、 RFM 法等均 难以奏效 [ 3] 。 D av id C Schm ittlein 等 于 1987 年 和 1994 年 提 出 了 著 名 的 SMC 模 型 [ 3- 4] , 通过预测客户的活跃程度, 较好地解决了 客户流失预测问题, 被誉为 首个真正意义上的客 户行为预测模型 [ 5] 。
SM C模型建立在以下 5个假设之上:
( 1)泊松购买。活跃客户随机发生购买, 并且 其交易过程服从泊松分布。用 表示个体客户的
长期交易率, 在客户活跃的情况下, 某一个体客户
在时间 t 内发生 x 次交易的概率为
P [ x = x | ( t), t] = e( - , t) x
(
t)
x
,
x=
0,
中国软科学 2010年第 6期
电子商务客户流失三阶段预测模型
朱帮助 1, 2, 张秋菊 2
( 1. 北京理工大学 管理与经济 学院, 北京 100081; 2. 五邑大学 经济管理学院, 广东 江门 529020)
摘 要: 采用某网上商场的 2525名客户样本, 构建了基于 SM C和最小二乘支持向量机 ( LSSVM )的电子商务客户流失 三阶段预测模型。首先应用 SM C模型计算出客户活跃度, 以 0. 5为阈值判断出客户流失状态, 识别出正判客户和错判 客户; 其次将训练样本送入 LSSVM 进行训练和学习, 进而对测试样本的客户流失状态进行判别, 然后将误判客户样本 输入最近邻分类器进行再判断。结果表明, 与 SM C模型、BP 神经网络模型、LSSVM 模型相比, 三阶段模型对测试样本 预测精度更高, 是一种更有效和实用的分类方法, 可为电子商务企业客户关系管理提供一个新的方法。 关键词: 电子商务客户流失预测; 三阶段模型; SM C; 最小二乘支持向 量机; 最近邻法 中图分类号: F 270 文献标识码: A 文章编号: 1002- 9753( 2010) 06- 0186- 07
( 1. S chool of M anag em ent and Econom ics, B eijing Ins titute of T echnology, Beijing 100081, China; 2. School of Econom ics and M anagem ent, W uy i Un ivers ity, J iangm en 529020, China)
Abstrac t: T ak ing 2525 custome rs in an e - shop as sam ples, this paper proposes a three- step integrated mode l of SM C and least squares suppo rt v ector m ach ines ( L SSVM ) for E- business custom er churn prediction. F irstly, custom ers 'ac tive probabilities are obtained by using SM C m ode l to identify custom er churn sta tus w ith the thresho ld o f 0. 5. The tra in ing and testing samp les a re formed by the co rrectly identified custome rs and inco rrectly identified custom ers respective ly. T hen L SSVM tra ined w ith tra in ing sam ples is used to iden tify custom er churn status o f testing sam ples. F ina lly, the in correct custom ers of testing sam ples are re- identified w ith a nea rest ne ighbor c lassifier. Em pir ica l resu lts show that, compared w ith SM C, BP neura l netwo rk and LSSVM m ode ls, th ree- step integration model is an effic ient and practical tool for E- business custom e r churn pred ic tion o f testing samp les, and supplies E - business enterpr ises a new m ethod in custom er relationsh ip m anagem ent. K ey word s: E - bus iness custom er churn pred ic tion; three - step integ ra tion mode;l SM C; least squa res support vector m ach ines; nearest ne ighbor a lgor ithm
作为一个经过实证检验的概 率模型, SMC 模 型提供了一个基础, 在这个基础 上可以加入其 他 解释变量建立专用模型, 以便于考查它们的影 响 [ 4] 。近年来, 如何在 SMC 模型中引入解释变量
开始受到学者越来 越多的关注, 并 取得了一定应 用效果 [ 9- 10] 。事实上, 电子商务企业通常具有大 量的解释变量 ( 如客户属性和市场活动 ) 随着交易 行为信息一同存储下来。一个自然的想法是利用
二、三阶段模型的理论基础
(一 ) SM C模型 SMC 模型在客户流失行为无法观察的情况下, 描述客户的未来交易行为: 它假设客户在流失之前, 交易率是稳定的, 一段时间之后, 他们会变得不活 跃, 即流失了。 SM C模型涉及到以下几个概念 [ 8] :
活跃客户 ( active custom ers)、不活跃客户 ( in act ive custom ers)、客户 活跃度。活跃客 户是指与 供应商有较强交易愿望的客户, 反之, 即为不活跃
SMC 模型现已 在许多行业 得到了验 证 [ 3- 8] 。 然而, SMC 模型仅 用了 3 个客户交易行为统计 量 信息: X = ( x, t, T ), 忽略了大量的客户解释变量信 息。对于具有相同信息 X 的客户, SMC 模型估 计 出来的客户在 T 时刻的活跃度是相同的。这不是 一个令人满意的结果, 因为事实 上这些客户有 的 还会回来, 有的 永远 消失, 他们 的活 跃度 并不 相 同。因此, SMC 模 型在总体层次和典型客户上 对 客户流失预测是有效的, 但在个 体层次上预测 效 果还不够理想, 有大量客户无法 区分出其活跃 度 的差异。而这正是电子商务企业制定 一对一 精 细化营销策略所更加关心的问题, 因此, 迫切需要 提高 SM C模型在个体层次上对客户流失预测的准 确性。
E- bu siness Cu stom er Churn Pred iction Based on Three- step In tegration of SM C and Least Square Support V ectorM ach ine
ZHU Bang- zhu1, 2, ZHANG Q iu- ju2
18 6
理论 方法与案例 电子商务客户流失三阶段预测模型
的快速 发展不 仅给企 业业务 流程带 来了 巨大 改 变, 也对消费者行为模 式产生了深 刻影响。 2009 年全球互联网用户总数已突破 10亿人, 我国约占 17. 8% [ 2] 。网上商场越来越成为大量互联网用户 光顾的场所, 其最大优势是能以 极低的代价接 触 潜在客户, 最大劣 势是转 换率极 低 ( 通常 只有 约 2% 的潜在客户转化为客户 ) 和流失率奇 高 ( 80% 左右的客户只购买一次就不 再购买 )。面对新 的 机遇和挑战, 电子商务企业的一 个重要任务是 识 别出哪些客户可能会流失, 进而采取相应措施, 尽 量减少损失, 实现 利益最大化 [ 1] 。由此电子商 务 客户流失预测研究成为目前国际电子商务与商务 智能研究的重大课题之一。
当 > 时:
p [ > T |r, , s, , X = x, t, T ] =
1+
r
+
s x
+
s
+ T r+ x + T s
+t
+ T F (a1, b1; c1; z1 ( t) ) -
+T s
-1
+ T F ( a1, b1; c1; z1 (T ) )
其中, a1 = r + x + s; b1 = s + 1; c1 = r + x + s + 1;
z1 (y ) =
+
y,
F ( a,
b;
ቤተ መጻሕፍቲ ባይዱc;
z )为高斯超几何函数
( Gauss hyper- geom etric function)。
布, 即
s
g [ | s, ] =
s- 1 e- , s, > 0
( s)
( 5)客户交易率 和流失率 独立。
在上述假设条件下, SMC 模型有:
( 1) 个体客户在时刻 T 的活跃度模型:
根据参数 、 的大小关系情况, P [ > T |r, ,
s, , X = x, t, T ] 有不同的计算模型。
1,
2
x!
1 87
中国软科学 2010年第 6期
( 2)个体客户生存时间服从指数分布。假 设
客户的流失率为 , 则其密度函数为:
f [ t | ] = e- t
( 3)不同客户的购买率 服从 ( Gamm a) 分
布, 即
r
f [ |r, ] =
r - 1 e- , r, > 0
(r)
( 4)不同客户的流失率 服从 ( Gamm a) 分