数据挖掘应用案例

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Walmart派出市场调查人员和分析师对这一数据挖掘结果
进行调查分析。经过大量实际调查和分析,揭示了一个隐
藏在“尿布与啤酒”背后的美国人的一种行为模式:在美 国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的
父亲前去购买尿布。父亲在购买尿布的同时,30%~40%的
人往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布 这两件看上去不相干的商品经常会出现在一个货篮的现象。
特定情况下,“啤酒”与“尿布”两件看上去毫无关系的
商品会经常出现在同一个货篮中,这种独特的销售现象引 起了管理人员的注意。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
这是数据挖掘技术对历史数据进行分析的结果, 反映数据内在的规律。那么这个结果符合现实情况吗? 是否是一个有用的知识?是否有利用价值?于是
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
1991年,Walmart年销售额突破400亿美元,成 为全球大型零售企业之一。据1994年5月美国《财富》 杂志公布的全美服务行业分类排行榜,1993年 Walmart销售额高达673.4亿美元,比上一年增长118
亿美元,超过了1992年排名第一位的西尔斯
(Sears),雄踞全美零售业榜首。1995年, Walmart销售额持续增长,并创造了零售业的一项世 界纪录,实现年销售额936亿美元,在《财富》杂志
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
美国最大企业排行榜上名列第四。事实上,Walmart 的年销售额相当于全美所有百货公司的总合,而且至 今仍保持着强劲的发展势头。至今,Walmart已拥有 2133家Walmart商店、469家山姆会员商店和248家
5
橙汁
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
将表4.1整理后得到购买记录转换后的二维表4.2。
项目 纸尿片 橙汁 牛奶 啤酒 卫生纸 纸尿片 4 1 1 2 1 橙汁 1 2 1 0 0 牛奶 1 1 1 0 0 啤酒 2 0 0 2 0 卫生纸 2 0 0 1 2
第四章 数据挖掘应用案例
(Confidence)”作为主要商品相关性分析指标,为
了强化说明关联关系,往往会运用兴趣度(Lift)指标。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
(1)支持度 在货篮分析中,支持度指的是多个商品同时出现 在同一个货篮中的概率。比如,尿布与啤酒同时出现
在货篮中的概率是20%,称尿布与啤酒的支持度是
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
支持度计算在所有交易集中,既有纸尿片又有啤 酒的概率。在5条记录中,既有纸尿片又有啤酒的二级 路有2条,则此条规则的支持度=2/5=0.4。现在这个规
则可表述为:如果一个顾客购买了纸尿片,则有50%
的可能购买啤酒。而这样的情况(及购买了纸尿片有 购买了啤酒)会有40%的可能发生。 再来考虑下述情况:
Walmart购物广场,分布在美国、中国、墨西哥、加
拿大、英国、波多黎各、巴西、阿根廷、南非、哥斯 达黎加、危地马拉、洪都拉斯、沙尔瓦多、尼加拉瓜 14个国家。它在短短几十年中又如此迅猛的发展,不 得不说是零售业的一个奇迹。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
2、Walmart货篮数据挖掘内容 Walmart关注客户的货篮。因为Walmart认为商品销 售量的冲刺只是短期行为,而零售企业的生命力取决于货 篮。一个小小的货篮体现了客户的真实消费需求和购物行
4.1 案例一:零售商系统货篮数据挖掘(续)
为了能够准确了解顾客在其门店的购买习惯, Walmart对其顾客的购物行为进行货篮分析,想知道顾客 经常一起购买的商品有哪些。商品相关性分析是货篮分析 中最重要的部分,Walmart数据仓库里集中了其各门店的
具体原始交易数据。在这些原始交易数据的基础上,
Walmart利用NCR数据挖掘工具对这些数据进行了分析和 挖掘。Walmart发现了一个令人难以理解的现象:在某些
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
项 纸尿片 啤酒 支持度 0.45 0.42
卫生纸
纸尿片and啤酒 纸尿片and卫生纸 啤酒and卫生纸 纸尿片,啤酒and卫生纸
0.4
0.25 0.2 0.15 0.05
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
买尿布的前提下,才会考虑购买啤酒,因此在购买尿 布的父亲中有35%购买了啤酒,不代表购买了啤酒的 父亲有35%购买了尿布,因为这是两类不同的消费行 为,商品之间的因果关系也会不同,因此这个故事不
能反过来讲。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
要看商品之间是否具有相关性,在计算商品之间 的支持度时,需要反过来计算进行验证,看看两个商 品之间的相关性具有多少的信任度,从而寻找商品之
20%,按照国际命名规则表示为: 啤酒Implies尿布=20%
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
“尿布与啤酒”不等于“啤酒与尿布”——相关 性的单向性,是代表商品之间的相关性具有单向性。 “尿布与啤酒”代表了一种因果关系。在“尿布与啤
酒”的故事中,年轻的父亲去的目的是购买尿布,在
并很快地完成购物;而Walmart也可以让这些客户一 次购买两件商品,而不是一件,从而获得了很好的商 品销售收入。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
当然“尿布与啤酒”的故事必须具有技术方面的 支持。1993年,美国学者Agrawal提出通过分析货篮 中的商品集合,来找出商品之间关联关系的关联算法, 并根据商品之间的关系,找出客户的购买性为。
时出现在货篮中概率进行反复运算,因此这是衡量商
品相关性的主要指标。 (3)兴趣度 兴趣度又称为提升度,是对支持度、信任度全面 衡量的指标,很多时候在衡量商品关联关系时只采用
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
这一个指标,可见这个指标的重要性。当兴趣度指标 大于1.0时,则表明商品之间可能具有真正的关联关系。 兴趣度数据越大,则商品之间的关联意义越大。如果
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
以Walmart为代表的美式货篮分析的目标一般是 面积巨大(通常都是上万平方米)商品种类繁多(大 多在10万种以上)的卖场,所以要通过货篮分析找出 淹没在不同区域商品之间的关联关系,并将这些关联
关系用于商品关联陈列、促销等具体工作中,是很难
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
如果这个年轻的父亲在卖场只能买到两件商品之一, 则他很有可能会放弃购物而到另一家商店,直到可以 一次同时买到尿布与啤酒为止。Walmart发现了这一 独特的现象,开始在卖场尝试将尿布与啤酒摆放在相
同的区域,让年轻的父亲可以同时找到这两件商品,
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘
4.2 案例二:通信用户满意度指数评测
4.3 案例三:城市环境质量评价
第四章 数据挖掘应用案例
数据挖掘是从海量数据中发现有趣知识的而过程, 这些知识是隐含的、事先未知的潜在有用信息,挖掘的 知识表示形式为概念、规则、规律和模式等,是建立在 数据仓库基础上的高层应用。结合领域知识和数据分析 技术,数据挖掘为许多特定领域提供解决方案,包括金 融、零售和通信、科学与工程、入侵检测和防护等。同 时也会影响人们购物、工作、搜索信息、使用计算机、 保护隐私和数据安全,以及休闲、健康和幸福等日常生 活。随着数据挖掘技术的广泛应用,由此所带来的影响 也将继续。
以上情况可得到下述规则:
规则 if 啤酒 and 卫生纸 then 纸尿片 if 纸尿片 and 卫生纸 then 啤酒 信任度 0.05/0.15*100%=33.33% 0.05/0.20*100%=25%
if 纸尿片 and 啤酒 then 卫生纸
0.05/0.25*100%=20%
第四章 数据挖掘应用案例
如何从大型数据库中挖掘关联规则呢?关联规则的挖
掘有以下两步: 1)根据最小支持度找出事务数据库D中所有的频繁项
目集。
2)有频繁项目集合最小支持度产生强关联规则,也可 以使用附加的兴趣度来对规则进行度量。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
以支持度、信任度、兴趣度三项指标表现的商品 关联规则。一个正规的货篮分析报表应该采取三个指 标数字,才可以准确地衡量商品是否真的存在关联关 系:采取“支持度(Support)-信任度
兴趣度小于1.0,则表明商品之间不可能具有真正的关
联关系。 在某些情况下,兴趣度会出现负值,此时商品之 间很可能具有相互排斥的关系,体现在wk.baidu.com篮中,就是 这些商品从来不会出现在同一个货篮中。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
假如有表4.1的购买记录。
顾客 1 2 3 4 项目 纸尿片、啤酒 牛奶、纸尿片、橙汁 纸尿片、卫生纸 纸尿片、卫生纸、啤酒
间的因果关系。由于商品之间关联关系具有单向性,
在零售业也会采取这种表示商品关联关系的方式: 尿布=>啤酒,即尿布与啤酒之间具有关联关系, 方向是从尿布到啤酒。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
(2)信任度 信任度是对支持度进行衡量的指标,用于衡量支 持度的可信度及数据强度。由于这项指标是将商品同
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘
1、Walmart简介 Walmart百货有限公司由美国零售业的传奇人物 山姆.沃尔顿先生于1962年在阿肯色州成立。经过50多 年的发展,Walmart公司已经成为美国最大的私人雇
主和世界上最大的连锁零售企业。目前,Walmart在
全球15个国家开设了超过8000家商场,下设53个品牌, 员工总数210多万人,每周光临Walmart的顾客为2亿 人次。
为,每一只货篮里都蕴藏着太多的额客户信息。零售业的
宗旨是服务客户,Walmart认为商店的管理核心应该是以 货篮为中心的顾客经营模式,商店排名只能体现商店自身
的表现,而货篮可以体现客户的购买行为及消费需求,关
注货篮可以使门店随时掌握客户的消费动向,从而使门店 始终与客户保持一致。
第四章 数据挖掘应用案例
通过人工完成的。比如,啤酒在酒类区域,尿布在婴 儿用品区域,两个商品陈列区域相差几十米,甚至可 能是“楼上、楼下”的陈列关系,用肉眼很难发现尿 布与啤酒存在关联关系的规律。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
把找出货篮中商品之间关系的方法称为“美式货篮” 分析法,这种方法适合应用于类似Walmart这样的大卖场, 用于找出不同陈列区域商品之间的关系。 4、关联规则挖掘过程
助数据挖掘技术对大量数据进行挖掘分析,Walmart是
不可能发现数据内在的这一有价值的规律的。 3、Walmart货篮数据挖掘的关联分析过程 研究商品关联关系的方法就是货篮分析,Walmart 强调找出商品之间的关联关系,比如啤酒与尿布。换句 话说,Walmart重点是分析货篮内商品之间的关联关系。
4.1 案例一:零售商系统货篮数据挖掘(续)
表4.2中行和列数字表示同时购买这两种商品的额 交易条数。如购买有纸尿片的交易条数为4,而同时购 买纸尿片和啤酒的交易数位2.
信任度表示了这条规则在多大程度上可信。计算
“如果纸尿片则啤酒”的信任度。由于在含有纸尿片 的4条交易中,仅有2条交易含有啤酒,所以其置信度 为0.5。
Agrawal从数学及计算机算法角度提出了商品关联关
系的计算方法——Aprior算法。Walmart从20世纪90 年代尝试将Aprior算法引入POS机数据分析中,并获 得了成功,于是产生了“尿布与啤酒”的故事。
第四章 数据挖掘应用案例
4.1 案例一:零售商系统货篮数据挖掘(续)
按常规思维,尿布与啤酒风马牛不相及,若不是借
相关文档
最新文档