数据挖掘应用20个案例分析之电子商务网站中的商品推荐

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
比较常用的与推荐相关的数据挖掘技术有关联规则、贝叶斯网络技术、聚类技术和最邻 近技术等。本系统采用的是关联规则中效率较高的 FP-Growth 算法来得到满足最小支持度 和置信度要求的关联规则。由 Han Jiawei 等人提出的 FP-Growth 算法,没有采用 Apriori 算 法的框架,而是采取了分而治之的策略:在经过了第一次扫描之后,把数据库中的频繁集压 缩进一棵频繁模式树( FP-tree ) ,同时依然保留其中的关联信息。随后再将 FP-tree 分化 成一些条件库,每个库和一个长度为 1 的频繁集相关。然后再对这些条件库分别进行挖掘。 当原始数据库很大的时候,也可以结合划分的方法,使得一个 FP-tree 可以放入主存中。
依据。一对一的营销思想,要求企业能够了解每个客户的爱好、需求,针对客户的个人特点
进行营销,和客户建立起长久稳定的关系。长久以来,这一策略只能依靠营销人员与用户个
人保持联系而完成。辅助统计分析工具只能了解客户群体宏观层次上表现出来的一些特性。
现在,基于数据挖掘工具,可以把客户划分成更加细小的、其消费行为存在较大相似性的微
教育
类别 1
类别 2
类别 49
客户编号 性别 年龄

程度
购买量
购买量
购买量
20120001 男 30-40 大专
0
17

61
20120002 女 20-30 本科
23
1

0








然后对表使用聚类算法进行挖掘。聚类算法分为基于划分的方法、基于层次的方法、基
于密度的方法、基于网格的方法、基于模型的方法等几大类,本案例中选择基于划分 的
小群体。虽然,还不可能细化到表现每个人的全部个性的程度;而且由于客户群体的宠大,
每个细分群包括的客户数目事实上也相当可观,离一对一营销还很远。但是这样的细分,能
够表现某些群体的消费行为共性,对企业制定营销策略己经具有很大的指导意义。
客户群细分变量可以采用一般人口统计学变量(如年龄、性别、收入、教育背景和职业
成数据项空缺。对于空缺的数据项,要视情况排除或填入缺省值,例如对于数值型数据来说
可以取平均值作为缺省值。抽取得到的表中数据的类型和挖掘算法需要的类型不一定一致。
此时还需要做一些转换工作。例如 ID3 分类算法需要离散的源数据;C4.5 等算法虽可由程
序自动寻找离散化方法,但是有时数据自动分段的边界显得不够自然,不符合人们的一般习
案例八 电子商务网站中的商品推荐
温馨提示: • 需支持,找广州太普技术:www.tipdm.com • 要建模,上数据挖掘在线平台:www.tipdm.cnwenku.baidu.comwww.tipdm.com.cn • 有问题,找太普问库:wenku.tipdm.com • 想兼职,找数据挖掘创业联盟:518.tipdm.com • 寻合作(科技申报、高校教学、企业咨询),请联系:40068-40020
决策树等分类算法易于理解,但受样本划分准确度的影响;聚类算法有时也可以发现营销人
员没有发现的一些事实。所以,在本案例中我们使用聚类算法进行客户群的细分。系统客户
群细分所需要的客户信息和交易信息与客户忠诚度分析大致相仿,分别存放在客户表、商品
类别表、订单表以及订单明细表等多个表内。数据预处理过程主要将这些表内反映客户身份
在网站的商品推荐中,关联规则部分所需要的客户交易数据分别存放在网站数据库的订 单表和订单明细表中。表中我们关心的只有订单编号、商品编号等少数几个属性。我们根据 订单号到订单明细表中去寻找一次交易购买商品的编号,对于空缺的值将其排除。
仿真过程 本案例采用 TipDM 数据挖掘在线建模平台(www.tipdm.cn;www.tipdm.com.cn)中的 ID3 决策树、k-Means 聚类分析等算法进行模型构建。
等),也可以采用客户的购买行为特征变量(如客户购买量、购买的产品类型结构和购买频
率等)。在本子系统中,我们采用了后者。通过分析客户的购买行为,我们使用数据挖掘技
术将具有相似消费特征的顾客归为同一类。当某顾客在购买商品时,网站可以利用挖掘结果
向该客户推荐他所在客户群的其他客户购买的商品。例如:客户甲经常光顾网站购买录音带,
而客户乙经常光顾网站购买 CD ,可见甲和乙对音像制品都很感兴趣,都是音乐爱好者。那
么通过客户群细分,可以认为甲和乙是同一类客户。当甲再次进入网站购物时,我们可以向
他推荐购买 CO ,从而为客户提供个性化服务。客户群细分可以使用分类或聚类来实现。区
别如前所述,分类需要已经由营销人员分好类的样本,聚类则自主的对客户群体进行分类。
背景、购买兴趣度等相关信息提取出来,并加以清理,除去噪声数据,对信息不完全的数据
填入缺省值或舍去,进行必要的离散化变换。购买兴趣度信息是根据客户对各个商品的购买
情况统计得出的,记录了客户对系统提供的 49 个商品类别的购买量。最终形成的表包含的
属性如表 2_58 所示。
表 2_58 客户兴趣度表 interest_matrix
数据挖掘技术及工程实践系列丛书之
数据挖掘应用 20 个案例分析
(V01.00.000)
广州太普信息技术有限公司
地址: 广州市经济技术开发区科学城 232 号 网址: http://www.tipdm.com 邮箱: 5iai2008@gmail.com 热线: 40068-40020 邮编: 510663 电话: (020)85661483/85666585
客户群细分是根据公共属性将客户划分成为同类群体的过程,细分的目的是按照客户之
间的密切关系或相似程度将客户划分到事先已经定义好的各个客户群中,为营销人员与客户
之间的交流提供了一个有效的平台,从而使得公司可以更好地识别不同的客户群体,区别对
待不同客户,采取不同的客户战略,达到最优化配置客户资源的目的。
在客户群细分的基础止,通过建立客户行为模型,可以作为营销人员进行一对一营销的
2-4
800-1000
0
20120002 女 20-30 本科 …
10-20
0-2
0-500
1

…………




本案例采用基于信息论的 ID3 决策树分类算法进行客户忠诚度分析。该算法根据离散
属性集的集合来做出一系列判断将数据分类。它的输入数据是己分好类的样本数据,输出一
棵代表分类规则的二叉树或多叉树。
我们为“易购 365 ”设计了结合多种方法的商品推荐方案:首先,利用统计方法在网 站的首页醒目位置列出销售量处于前 10 名的热销商品,为访问者和新注册的用户提供最普 通的推荐服务;其次,对于已注册并有购买纪录的顾客,当他登录网站的时候,将享受到级 别更高的推荐服务。该推荐分为两部分:利用客户群细分的结果,将同一个类中其他用户购 买最多的 N 个商品或与这些商品同类的新商品推荐给顾客;利用数据挖掘中的关联规则技 术,列出目标客户最感兴趣的 N 个商品的推荐列表。相比以往的商品推荐,这样的方案既 弥补了系统无法为新客户提供有效推荐服务的缺点,同时也弥补了未获得足够销售量的新商 品不易被推荐出去的缺陷,有效地提高了对客户的推荐精度。
挖掘目标的提出 当今的商业竞争日趋激烈,获得一个新客户的成本越来越高,保持原有顾客也就显得越 来越重要。营销实践表明:争取一个新客户的花费常常可以达到留住一个老客户花费的 5 到 10 倍。客户忠诚是客户在较长的一段时间内,对于企业产品或服务保持的选择偏好与重复 性购买。忠诚的客户不仅会增加购买量,而且往往会为企业介绍新客户。与传统的商务相比 较,电子商务的客户忠诚度更重要。 影响客户忠诚度的因素非常多,有客户自身方面的原因,企业方面的原因,还有客户和 企业以外的其他因素如社会文化、国家政策等。但除了企业自身外,其他都属于不可控因素。 从这点出发,企业可以从自身寻找一下影响客户忠诚度的原因。比如某个客户的忠诚度下降 是因为他常买的某类商品的质量出现问题或价格过高,导致该客户转向了企业的竞争对手。 对于这种情况,企业需要一种方法来对客户信息和营销数据的分析,找出哪些原因导致了客 户的忠诚度下降,并且针对这些原因采取措施,挽回那些即将变为不忠诚的客户.数据挖掘 技术可以建立客户忠诚度分析模型,了解哪些因素对客户的忠诚度有较大影响,从而采取相 应措施。因此基于数据挖掘技术的客户忠诚度分析具有重要的应用价值。 电子商务网站实现了一个网上超市,用户可以通过网站进行在线购物,实现电子商务方 便快捷的优势。网站的整个操作流程如图所示。
以最大限度地提高推荐效果。另外,与客户的实时交互也对算法的效率提出了较高的要求。
有许多方法可以实现推荐任务。最简单的就是以编辑推荐或专家推荐的形式,比如定期推出 的专题,汇集一系列围绕某主题的商品目录,这些目录都是由编辑手工编写的。一些简单的 统计数据也可以作为推荐的手段,如销售排行榜,放在网页的醒目位置,对于新的来访者相 当有效。另一些推荐方式则较为复杂,大部分工作需要计算机来完成。通常前者被称为“人 工式推荐系统”, 而后者称为“自动式推荐系统”。要真正地实现针对每一个客户的个性化 服各必须借助于自动式推荐系统,它可以充分考虑每位客户的特点,在与用户的实时交互过 程中动态地产生推荐结果。但两者并不相互排斥,实际的系统经常会综合多种推荐方法,互 补长短。
惯。这里由分析人员按照一般的统计划分经验来对属性值进行分段,实现离散化。下表为离
散化变换后的结果如表 2_57。 表 2_57 经离散变换后的客户信息表 Loyalty
教育 客户编号 性别 年龄
程度
距最近一次 月均购买

购买时间
频率
已消费 金额
忠诚度 级别
20120001 男 30-40 大专 …
0-10
图 2_39 电子商务网站操作流程
分析方法与过程 在电子商务系统中,忠诚度分析所需要的客户信息和交易信息分别存放在网站数据库的 客户表,订单表及订单明细表中。因此必须去除这些表中不需要的信息(例如用户电话、传 真、身份证号码、联系方式之类的信息),抽取需要的信息。抽取信息时应注重抽取能够反 映客户个人身份背景、学历等方面的信息以及反映其交易心理的相关信息。并将抽取出来的 数据整理成为能被挖掘算法所利用的表格,放入数据仓库中。在计算客户忠诚度的时候,将 客户的忠诚度分为四个等级:O,忠诚;1,由忠诚变为不忠诚:2,由不忠诚变为忠诚:3, 不忠诚。如果客户本月的消费额比本月之前半年内每月平均消费额减少达到 50%以上,则忠 诚度等级降低一级;如果客户本月的消费额比本月之前半年内平均消费额增加达到 20%以 上,则忠诚度等级升高一级。最后生成的新表格如表 2_56。
术在帮助了客户的同时也提高了顾客对网站的满意度,换来对商务网站的进一步支持。
商品推荐的主要任务是回答这样一个问题:当前访问网站的这位客户最可能想要的是哪
些商品?对于推荐任务的实现,首先要求结果的准确性,总是向客户推荐其不想要的商品只
会导致客户不满而转向其他网站;其次推荐的商品应尽可能多地覆盖用户实际喜欢的范围,
表 2_56 经抽取而成的客户信息表 Loyalty 客户编号 性别 年龄 教育 … 距最近一次 月均购 已消费 忠诚度
20120001 男
程度 40 大专 …
购买时间 (天)
5
买频率 3.4
金额 级别
801.6
0
20120002 女 28 本科 …
11
1.9
246.3
1

…………




所得到的用户数据很难做到完整全面,用户在注册时可能选择不填注册信息的几项,造
K-Means 算法。
客户群细分主要是为下面将介绍的商品推荐做准备的,它的结果将被写入数据仓库的
user cluster 和 cluster info 表中。user cluster 表记录客户属于哪个类,共有 2 个字
段,分别为客户编号和类编号。cluster info 表记录每一个客户类别中所有顾客的商品购
买统计信息,共有 3 个字段,分别为类编号,商品编号和购买量。
商品推荐是电子商务网站用来向访问网站的顾客提供商品信息和建议,并模拟销售人员
帮助顾客完成购买过程。它是利用数据挖掘技术在电子商务网站中来帮助顾客访问有兴趣的
产品信息。推荐可以是根据其他客户的信息或是此客户的信息,参照该顾客以往的购买行为
预测未来的购买行为,帮助用户从庞大的商品目录中挑选真正适合自己需要的商品。推荐技
表 2_59 ID3 决策树建模参数
相关文档
最新文档