基于IBM SPSS Modeler 14.2的数据挖掘
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于IBM SPSS Modeler14.2的数据挖掘
对某公司销售记录进行分析。
该公司在2012.7.13-2010.8.17进行了发放优惠劵活动,产生了1291条记录,9个字段,每个字段的意义如表1所示。
数据可以到下面地址下载:http://61.129.34.202/BIweb/eBay_business_case_v3.0.xlsx。
表1 记录中字段的意义
字段名字段类型字段意义
Cmpgn_name 标志活动名,均为Coupon campaign name
Control_yn 标志购买者类型: 控制:'c', 测试:'t'
Redeemer_YN 标志是否为重复购买者: 是:'y', 否:'n'
USER_ID 连续购买者ID
Gender 名义购买者性别: 女:'F',男:'M', 未知:'U'
sge 连续购买者年龄, age=-99 意味着信息丢失
CK_DATE 连续购买日期
BUY_QTY 连续购买商品数量
GMB 连续购买金额(美元)
下面利用IBM SPSS Modeler 14.2进行决策树、聚类分析、关联分析和回归分析。
(1)决策树分析
启动IBM SPSS Modeler 14.2,导入文件。
在工作平台上,添加一个Excel源节点。
双击该节点,文件类型设为“Excel 2007,2010(*.xlsx)”,导入文件为源Excel文件的路径,按名称DATA选择工作表,其他默认设置,如图15.87所示。
图15.87 导入文件
查看源数据。
添加一个“表”节点,运行该表节点。
如图15.88所示,共有9个字段,1291条记录。
图15.88源数据
下面首先利用C5.0算法进行决策树分析,探讨客户的年龄、性别、单次购买量、单次购买金额与购买者是否重复购物的关系。
添加“类型”节点。
在数据源节点后添加一个类型节点,把gender、age、BUY_QTY和GMB的角色设为数据流的输入,redeemer_yn的角色设为目标,其他的角色设为无,如图15.89所示。
图15.89 字段类型设置
添加C5.0节点,双击C5.0节点,采用默认设置。
如图15.90所示。
图15.90 C5.0节点设置
点击图15.90中的“运行”按钮,生成C5.0模型,右键浏览,如图15.91所示。
可以看到生成的决策树,从中可以转化为一些规则,例如当GMB<=19时,购买者不是重复购买者。
但是从业务角度来讲,更加关注哪些客户是重新购买者。
可以看出,当每次购买金额GMB
超过19,且年龄在61且性别为男或未知时,顾客为重复购买者。
图15.91 C5.0决策树
预测变量重要性的情况如图15.92所示,可以看到年龄、GMB、gender、BUY_QTY对建
模的影响是逐渐降低的。
图15.92 预测变量重要性
在生成模型之后添加一个分析节点,运行可以得到图15.93所示的结果。
可以看出,决策树的正确率为95.35%。
图15.93 分析决策树模型的质量
(2)聚类分析
下面再利用两步聚类算法对源数据进行分析,选择购买者的年龄、性别、单次购买量、购买金额、是否为重复购买者等字段作为聚类的属性。
在数据源节点后添加一个类型节点,把redeemer_yn、gender、age、BUY_QTY和GMB 的角色设置为输入,其他字段的角色设为无,如图15.94所示。
图15.94 类型节点设置
在类型节点后添加一个“两步”节点,双击该节点,如图15.95所示,采用默认设置。
图15.95 两步节点设置
点击图15.9中的“运行”按钮,生成两步模型,右键浏览该模型。
两步模型的概要和聚类质量如图15.96所示,聚类质量比较好(值为0.7)。
图15.96 模型概要和聚类质量
两步聚类算法得到的4个聚类所占总记录的百分比为44.0%、43.0%、9.3%和3.7%,最大聚类与最小聚类的比值为11.83,如图15.97所示。
图15.97 两步模型聚类大小
两步模型各个字段的重要性如图15.98所示,其中每个字段重要性如下:Redeemer(1.0)、gender(0.96)、BUY_QTY(0.54)、GMB(0.09)和age(0.02)。
图 15.98 预测变量重要性
图15.99显示了聚类结果的详细信息,不仅可以看到每个聚类的大小,也能够看到每个字段对聚类的作用。
图15.99 聚类结果
(3)关联分析
下面利用Apriori算法对购买者的年龄、性别以及是否为重复购买者进行关联分析。
在数据源节点之后,添加一个“类型”节点,把redeemer_yn、gender和age的角色设置为两者,其他字段设为无,如图15.100所示。
图15.100 字段类型角色设置
在源数据中,存在着性别不确定的记录,对gender取值不确定的记录进行清除。
在字段节点后添加一个“选择”节点,双击该节点,选择模式为“丢弃”,条件设置为gender=‘U’,如图15.101所示。
图15.101 选择节点设置
添加一个Apriori节点,双击该节点,设置最低支持度为5.0最小规则置信度为10.0,最大前项数为5,其他采用默认设置,如图15.102。
图15.102 Apriori节点设置
点击图15.102中的“运行”按钮,生成Apriori模型,右键浏览,如图15.103所示。
可以看到,当redeemer_yn为‘y‘时,gender=M的支持度为9.373,置信度为63.636。
当redeemer_yn为‘y’时,gender=F的支持度为9.373,置信度为36.364。
当gender=M时,redeemer_yn为‘y’的支持度为51.278,置信度为11.631。
图15.103 生成关联规则
(4)回归分析
回归分析使用的数据为某企业销售数据,共1168个记录,包含BUY_QTY_Sum、BUY_QTY_Mean、GMB_Sum、GMB_Mean、Record_Count、redeemer_yn、gender、age等字段,分别表示客户购买商品总数量、客户单次购买商品平均数量、客户购买商品总金额、客户单次购买商品平均金额、客户购买次数、客户是否为重复购买者、客户性别和客户年龄。
下面利用IBM SPSS Modeler14.2分别进行线性回归和Logistic回归分析。
回归分析主要
挖掘客户相关数据与GMB_Sum(客户购买商品总金额)之间的关系。
客户相关数据包括age (客户的年龄)、gender (性别)、BUY_QTY_Sum (客户购买商品总数量)、BUY_QTY_Mean (客户单次购买商品平均数量)、GMB_Mean(客户单次购买商品平均金额),如图15.104所示。
图15.104 回归分析字段角色设置
预处理后的数据可到http://61.129.34.202/BIweb/syjj.htm下载,回归分析的数据流如图15.105所示。
图15.105 回归分析的数据流
(1)预测变量重要性。
回归分析模型预测变量的重要性如图15.106所示,其中GMB_Mean重要性的值为0.86,BUY_QTY_Sum重要性值为0.14,其余变量对GMB_Sum 影响不大。
图15.106 预测变量重要性
(2)回归方程如图15.107所示。
图15.107 回归方程
(3)模型概要。
从图15.108中可以看出,R方检验值为0.845,调整后的R方检验值为0.845,标准误差为101.426689。
回归分析建立的模型质量可以接受。
图15.108 模型概要
(4)系数分析。
图15.109为模型的系数分析,根据显著性可以知道,除age变量没通过显著性检验外,其他自变量均符合要求,且age变量对模型重要性较低。
因此,可以得到回归分析得到的模型质量是较好的。
图15.109 模型系数分析
(5)回归模型分析。
利用分析节点对回归模型分析的结果如图15.110所示。
可以看出,线性相关度为0.919。
本次分析的数据量较大,误差值域为[-678.294,2817.485])也是可以接受的。
图15.110 回归模型分析
Logistic回归分析主要分析客户是否重复购买redeemer_yn与客户相关数据的关系。
客户的相关数据包括gender、age、BUY_QTY_Sum和GMB_Sum,如图15.111所示。
图15.111 Logistic回归分析变量角色设置
Logistics回归分析的数据流与回归分析相似,如图15.112所示。
图15.112 Logistics回归分析数据流程
Logistic回归分析预测变量重要性如图15.113所示。
变量的重要性由BUY_QTY_Sum、GMB_Sum、gender和age逐渐递减,重要性的值为分别为0.56、0.17、0.16和0.11。
图15.113 预测变量重要性
得到的Logistic回归方程如图15.114所示。
图15.114 Logistic回归方程
图15.115为Logistic回归模型的记录处理汇总信息。
可以看到,记录中的重复购买者数量为11,占总数的9%,非重复购买者数量为1157,男客户数量为585,占总数50.1%等信息。
图15.115 记录处理汇总
从图15.116所示的模型拟合信息可见,模型的显著性值为0.000<0.005,通过显著性检验。
图15.116 模型拟合信息
准判定系数是因变量变异的比例,Cox and Snell、Nagelkerke和Mcfadden等参数分别为0.078、0.775、0.765,如图15.117所示。
可见除Cox and Snell外,其他两个参数值是较大的,即Logistic回归分析的模型质量较好。
图15.117准判定系数
参数分析主要分析各个参数的质量,如图15.118。
其中B是指回归系数β的假设检验,
Std.Error是各个字段的标准差,Wald是参数的Wald检验值,主要是检验方程显著性水平,Sig为显著性水平。
可以看到,常量(Intercept)、BUY_QTY_Sum和GMB_Sum的显著性值均小于0.05,age的显著性值为0.170,[gender=F]显著性值为0.358。
尽管以上两个参数的显著性大于0.05,但是根据预测变量重要性可以,这两个参数在模型建模中较为不重要。
因此, Logistic回归模型模拟质量是可以接受的。
图15.118 参数分析
利用分析节点对模型分析得到的结果如图15.119。
可以看出,Logistic回归分析模型与能够准确预测1163条记录,预测错误的记录有5条,准确率达99.57%。
图15.119 模型分析
最后,再利用RFM模型分析用户购买的情况,为目标营销提供决策支持。
RFM模型是一种根据顾客在某段时间内购买情况,确定顾客价值的方法。
其中R(recency)表示顾客最近一次购买的时间(距某个时间点),F(frequency)表示顾客在最近一段时间内购物的频率,M (monetary)表示顾客在最近一段时间内购物的金额。
下面采用IBM SPSS Modeler 14.2中的RFM模型,对顾客数据(下载地址http://61.129.34.202/BIweb/eBay_business_case_v3.0.xlsx)进行分析,找出目标营销顾客。
在此基础上,采用k-means方法进行聚类,分析每类顾客的特点。
首先读入数据,选择用户标签(user_id)、购买日期(CK_DATE)和购买额(GMB)作为分析字段。
转换日期格式,添加一个填充节点,把CK_DATE字段转为data类型,如图15.120所示。
图15.120 转换日期类型
添加一个RFM汇总节点,如图15.121所示进行设置。
在RFM汇总节点后添加一个表节点,如图15.122所示。
图15.122 查看RFM汇总信息
选择RFM分析节点。
本次分析的数据时间间隔较短,这里把频数、顾客的消费金额的权
重设置大些:近因、频数和货币的权重分别设置为10.0,40.0和20.0,如图15.123所示。
图15.123 RFM分析设置
在RFM节点后添加一个表节点,结果如图15.124所示,得到每一个顾客的近因、频数和货币得分,计算加权求和得到RFM得分。
根据近因、频数和货币得分的情况,可以看出当客户在分析时间范围内重复购买时,顾客的频数得分较高;近因得分和货币得分与顾客最近一次购买时间和购买金额相关。
根据RFM得分情况,可以把得分比较高的一些顾客作为目标
营销的对象。
图15.124 RFM分析结果
进一步地,把顾客的基本信息(年龄、性别等)以及由RFM分析得到的近因得分、频数得分、货币得分等作为k-means聚类算法的输入,如图15.125所示。
图15.125 设置k-means聚类角色
k-means聚类的结果如图15.126所示。
可以看出,对于聚类1,货币得分为5、性别为男(M)、频数得分为1和近因得分为5,分别占该聚类总数的61.3%、100%、77.9%和35.7%,年龄均值为44.21。
其他类别也可以进行类似的分析。
可以对不同类别的顾客进行不同的促
销活动。
图15.126 k-means聚类分析上述数据挖掘的数据流如图15.127所示。
图15.127 数据流。