数据挖掘应用案例:RFM模型分析与客户细分
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘应用案例:RFM模型分析与客户细分
分茨:数据挖掘|标签:市场研尤数据挖掘RFM模型
2012-01・2 1 21: 3 9 阅渎16854)评论(9 ) WB Insight 这里,我先给各位朋友
拜年,祝大家新春快乐!
兔年就要过去了,本命年的最后一天再不更新博客有点对不住大家!正好刚帮某电信行业完成一
个数据挖掘工作,苴中的RFM模型还是有一泄代表性,就再把数据挖掘RFM模型的建模思路细肖与大家分享一下吧!手机充值业务是一项主要电信业务形式,客户的充值行为记录正好满足RFM模型的交易数据要求。
根据美国数拯库营销研究所Arthur Hug h e s的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency).消费频率(F requen cy)、消费金额(Monetary)o
我早期两篇博文已详述了RFM思想和IBM Modele r操作过程,有兴趣的朋友可以阅读!
RFM模型:R(R e cency)表示客户最近一次购买的时间有多远,F (Frequ ency) 表示客户在最近一段时间内购买的次数,M (Monetary)表示客户在最近一段时间内购买的金额。一般原始数据为3个字段:客户ID、购买时间(日期格式)、购买金额,用数据挖掘软件处理,加权(考虑权重)得到RFM得分,进而可以进行客户细分,客户等级分类,C u st o mer Leve I Valu e得分排序等,实现数据库营销!
本次分析用的的软件工具:IBN4 SPSS Statist i cs 1 9 , IBM SPSS Modeled 4.1, T a b I eau 7 o 0 , E XCEL 和PPT
因为RFM分析仅是项目的一个小部分分析,但也而临海量数据的处理能力,这一点对计算机的内存和硬盘容量都有要求。
先说说对海量数据挖掘和数据处理的一点体会:(仅指个人电脑操作平台而言)
・一般我们拿到的数拯都是压缩格式的文本文件,需要解压缩,都在G字节以上存储单位,一般最好在外巻电源移动硬盘存储:如果客户不告知,你大槪是不知道有多少记录和字段的;
・Modeler挖掘软件默认安装一般都需要与C盘进行数据交换,至少需要100G空间预留,否则读取数据过程中将造成空间不足
・海量数据处理要有耐心,等待3 0分钟以上运行出结果是常有的现象,特别是在进行抽样、合并数据、数据重构、神经网络建模过程中,要有韧性,否则差一分钟中断就悲剧了,呵
呵:
・数据挖掘的准备阶段和数据预处理时间占整个项目的70%,我这里说如果是超大数据集可能时间要占到90%以上。一方而是处理费时,一方面可能就只能这台电脑处理,不能几台电脑同时操作;
・多带来不同,这是我一直强调的体验•所以海量数据需要用到抽样技术,用来査看数据和预操作,记住:有时候即使样本数据正常,也可能全部数据有问题。建议数据分隔符采用T存储;
•如何强调一个数据挖掘项目和挖掘工程师对行业的理解和业务的洞察都不为过,好 的数据挖掘一泄
是市场导向的,当然也需要1T 人员与市场人员有好的沟通机制;
・ 数据挖掘会面临数据字典和语义层含义理解,在Met a Dat a 元数据管理和理解上下 功夫会
事半功倍,否则等数据重构完成发现问题又要推倒重来,悲剧;
・每次海量大数据挖掘工作时都是我上微博最多的时侯,它真的没我算的快,只好上微 博等它,
哈哈!
传统RFM 分析转换为电信业务R FM 分析主要思考:
模型
R(fiS) F (确 M(fM®
茗户最近一次
茗户一定时期 言户一定时期 传统的RFM 模型
购买距离分析 内购买该企业 内购买该企业
点的时间
产品的次数 产品的总金额
客户最后一次
客户一定时期 客户一定时期 电信业RFM 模型
交费距离分析 内交费的次数
内的交费总额
点的时间
http ;//
Uy.SDhlLLDHJ
这里的R F M 模型和进而细分客户仅是数据挖掘项目的一个小部分,假宦我们拿到一个月 的客户充值行为数据集(实际上有六个月的数据),我们们先用1 BM Mod e ler 软件构建 一个分析流:
全满足RFM 分析要求,一个月的数据就有3千万条交易记录!
dmjopup.201106.txt Table
Type
ijctpi/yjh
oy-3 uh 山
数据纟吉构
兄
Tobk {4 10.000 reccrde)刘
Tatsle Arnotaions Q Fie 二 Ed«t O Generate 30402097 记录
dn
2195435X83 2011-06-01 recharoe 1000
矶
3 2193493569
4 229血瓶。
5 2ni2V294 0 2295W/704 7 219618^264 8 21953M295 9 219814932
6 10 219® 驱 2 11 2141799119 12 2183SM651 13 2197059121 14 2151174629 15 2292217714 16 2293052923 仃
21MMW992
18
2191555676 19 2197132802 20 2195511229
21
21954)3548 22
21 頸2M262 23 _____ 2295775465 24 21 <)41^848 26
26 2191145732 27
2295235 姑 6 28 2106226660
29 2193315169 30
2192675086 31 2193449695 32 2292378554 33 2194OS1194 2291%)也6 2011-0C-O1 2011-OC-O1 2O11-W-O1 2011-0C-01 2Q11-00-01 2011-M-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01 n V
o o o 300
需 00
E E E E
E E E E E
E E
E E E E E .
2011-06-01 1000
2011-06.01 1000 皿2011-06-01 1000
(si 白 2011-06-01 1300 :2 20110601 1000 isi Ei 2011-06-01 1000
2011-06-01 1000 :0 £ 2011-06-01 1300 :彳$ 2011-06-01 1000 ⑻E! 1000 isi E<
2011-06-01 1000 2011-06-01 2011-06-01 2011-06-01 2011-06-01 2011-06-01
艸F 我们先用挖掘工具的RF 何模型的RFM 汇总卩•点和 RFM 分析节点产生 R (Recen cy)> F ( F requency) > M (Monetary);
d 化!ODUQ_201106:W
2011X)7-01
'a Table (4 Gelds. 10,000 r^cordv *2
【耳 回
dn
;R ♦wr o F r9 2191846 M2 1 4 8CO3 Z 一 21916从 303 3 $ 3 2191646M5 1 u fiCODO 4 2101G4G30Q 10 2 2CODO 5 2 2代躬打0 14 1 [C 回 4工一 21916463*1 t5 1 250^0 7 2191WWW 1 2 21916453T8 1 33 37030 g 2191646320 4 4 4CODO ia 7佃丸 17 1 it 2191645323 7 2 2830 仃 2191G463?4 ? 4 35030 13 2191646327 ta 2CO30 14 219i€4$331 17 45030 15 2i9朮妨妁6 1 畑)0 1G 2191646338 i*i 2 12030 17 11 5 is 7191C4-:1 7 3330 w 219164SM5 1 24 1紳0 2d KHU 畑 9 2 ZttOO s 轴CM hirpi/ /-h^rj?J^Dl^D-hj-hlug ;-Li?JLLrr J rrj 接着我们采用R F M 分析肖点就完成了 RFM 模型基础数拯重构和整理: