数据挖掘与应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(五)个性服务
根据客户的订单纪录,系统可以向客户显示那些可能引起客户特殊兴趣的新商品。当客户注意到一件特殊的商品时 ,系 统会建议一些在购买中可以增加的其他商品。使用数据挖掘技术可以使推荐更加个性化。 (六)资源优化
节约成本是企业盈利的关键。通过分析历史的财务数据、库存数据和交易数据,可以发现企业资源消耗的关键点和主要 活动的投入产出比例,从而为企业资源优化配置提供决策依据,例如降低库存、提高库存周转率、提高资金使用率等。
?
数据可视化分析
真正利用用户画像的一步,在此步骤中一般是针对群体的分析。
4. NBA教练如何布阵以提升获胜机会?
美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。想象你是NBA的教练,你靠什么带 领你的球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练 又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他 们的战术组合。例如Scout就因为研究了魔术队队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。 系统分析显示魔术队先发阵容中的两个后卫安佛尼.哈德卫(Anfernee Hardaway)和伯兰.绍(Brian Shaw)在前两场中被评为-17 分,这意味着他俩在场上,本队输掉的分数比得到的分数多17分。然而,当哈德卫与替补后卫达利尔.阿姆斯创(Darrell Armstrong)组合时,魔术队得分为正14分。 在下一场中,魔术队增加了阿姆斯创的上场时间。此着果然见效:阿姆斯创得了21分,哈德卫得了42分,魔术队以88比79获胜 。魔术队在第四场让阿姆斯创进入先发阵容,再一次打败了热队。在第五场比赛中,这个靠数据挖掘支持的阵容没能拖住热队 ,但Advanced Scout毕竟帮助了魔术队赢得了打满5场,直到最后才决出胜负的机会。 Advanced Scout是一个数据分析工具,教练可以用便携式电脑在家里或在路上挖掘存储在NBA中心的服务器上的数据。每一场 比赛的事件都被统计分类,按得分、助攻、失误等等。时间标记让教练非常容易地通过搜索NBA比赛的录像来理解统计发现的 含义。例如:教练通过Advanced Scout发现本队的球员在与对方一个球星对抗时有犯规纪录,他可以在对方球星与这个队员“ 头碰头”的瞬间分解双方接触的动作,进而设计合理的防守策略。 Advanced Scout的开发人,因德帕尔.布罕德瑞,开发该应用时他正在IBM的ThomasJ.Watson研究中心当研究员,他演示了一 个技术新手应该如何使用数据挖掘。布罕德瑞说:“教练们可以完全没有统计学的培训,但他们可以利用数据挖掘制定策略”
行决策
二、数据挖掘的实际应用(电子商务)
1、数据挖掘在电子商务中的作用
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛 的使用价值。电子商务是商业领域的一种新兴商务模式,是指利用电子信息 技术开展一切商务活动。当电子商务在企业中得到应用时,企业信息系统将产 生大量数据,这些海量数据使数据挖掘有了丰富的数据基础,同时高性能计算 机和高传输速率网络的使用也给数据挖掘技术提供了坚实的保障。因此数据 挖掘技术在电子商务活动中有了更大的用武之地。
三、应用一:用户画像
(一)用户画像的形成 1、收集用户数据 2、挖掘数据 3、分析数据工具 4、完善数据精确性 5、形成用户画像
形 成 流 程
收集用户数据
挖掘数据 分析数据工具
完善数据精 确性
形成用户画像
1、数据收集
网络行为数据:活跃人数、页面浏览量、访问时长、社交数据
服务内行为数据:浏览路径、页面停留时间、访问深度
2、具体应用
(一)客户细分 通过对电子商务系统收集的交易数据进行分析,可以按各种客户指标(如自然属性、收入贡献、交易额、价值度等)对客 户分类,然后确定不同类型客户的行为模式,以便采取相应的营销措施,促使企业利润的最大化。 (二)客户获得 利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如 何,有什么爱好,是什么职业等等。也许很多因素表面上看起来和购买该种商品不存在任何联系,但数据挖掘的结果却证明它 们之间有联系。在采用了数据挖掘后,针对目标客户发送的广告的有效性和回应率将得到大幅度的提高 ,推销的成本将大大 降低。 (三)客户保持 数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。 (四)交叉销售 交叉销售可以使企业比较容易地得到关于客户的丰富的信息,而这些大量的数据对于数据挖掘的准确性来说是有很大帮 助的。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定他下一个购买行为的关键,甚至 决定因素。这个时候数据挖掘的作用就会体现出来,它可以帮助企业寻找到这些影响他购买行为的因素。
2、课件定义
技术层面:
商业层面
数据挖掘就是从大量数据中提取 潜在有用的信息和知识的过程。
数据挖掘就是一种商业信息处 理技术,其主要特点是对大量业 务数据进行抽取,转换、分析和 建模处理,从中提取辅助商业解 决的关键性数据。
1、哪些商品放在一起比较好卖? 2、如何预测库存?
3、如何预设股票?
PS:保证追踪用户时用户ID的唯一性和用户注册信息的准确性
3、数据工具
YBY:协作的地图平台,用户可以画点、多边行和地区。
MIRDOR:提供大型数据库的可视化工具,通过可视化的基本结构,确定解 释变量的群体。
Dimple API:用于在D3上进行商业分析,使任何人都可以开发令人惊叹的 三维图效果
4、挖掘数据
挖掘数据中反应的内在规律,提供预测性的信息
数据清理(消除不一致的数据)
数据集成(组合多种数据源的数据) 数据选择(提取相关数据) 数据变换 数据挖掘(使用智能方法提取数据,如聚类算法)
模式评估(根据某种兴趣度度量,识别提供知识的真正有用的模式)
知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
析是一种解决方案。它能够准确预测哪些商店位置应该保持哪些产品。
使用 Microsoft(R) SQL Server(TM) 2005 中的 Analysis Services 以及 SQL Server 数据仓库,采用数据挖掘技术 可以为产品存储决策提供准确及时的信息。SQL Server 2005 Analysis Services 获得的数据挖掘模型可以预测在 未来一周内一本书是否将脱销,准确性为 98.52%。平均来说,预测该书是否将在未来两周内脱销的准确性为 86.45%。 3. 股票预设 预测一支股票的走势几乎是不可能,但是通过相关分析,可以找出一支股票的走势与另一只股票走势的潜在规律 ,比如数据挖掘曾经得到过这个结论:“如果微软的股票下跌4%,那么IBM的股票将在两周内下跌5%”。
用户偏好数据:收藏内容、评论内容、互动内容、品牌偏好 交易数据:回头率、流失率、客单率 (收集的数据并不完全正确,需要进行建模补充判断)
2、数据渠道
用户数据:用户自然特征(性别、年龄、地域等)、兴趣特征(品牌偏好、 产品偏好)、社会特征(婚姻状况、家庭情况)、消费特征(收入状况、 购买渠道偏好、购买频次) 商品数据:(手机:品牌、颜色、内存、价格等,笔记本:品牌、价格、 颜色) 渠道数据:信息渠道(微信、论坛、贴吧),购买渠道(电商、微店、卖场 )
另外,大家都知道在沃尔玛牙膏的旁边通常配备牙刷,在货价上这样放置,牙膏和牙刷才能都卖的很好。
2. 库存预测 过去零售商依靠供应链软件、内部分析软件甚至直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商 (从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分
5. 出了一个新产品,哪些老客户最可能购买?
蒙特利尔银行是加拿大历史最为悠久的银行,也是加拿大的第三大银行。在 20 世纪 90 年代中期,行业竞争
的加剧导致该银行需要通过交叉销售来锁定 1800 万客户。银行智能化商业高级经理 Jan Mrazek 说,这反映了
银行的一个新焦点--客户(而不是商品)。银行应该认识到客户需要什么产品以及如何推销这些产品,而不是等待 人们来排队购买。然后,银行需要开发相应商品并进行营销活动, 从而满足这些需求。 在应用数据挖掘之前,银行的销售代表必须于晚上 6 点至 9 点在特定地区通过电话向客户推销产品。但是,正 如每个处于接受端的人所了解的那样,大多数人在工作结束后对于兜售并不感兴趣。因此,在晚餐时间进行电 话推销的反馈率非常低。 几年前,该银行开始采用 IBM DB2 Intelligent Miner Scoring,基于银行账户余额、客户已拥有的银行产品以及 所处地点和信贷风险等标准来评价记录档案。这些评价可用于确定客户购买某一具体产品的可能性。该系统能 够通过浏览器窗口进行观察,使得管理人员不必分析基础数据,因此非常适合于非统计人员。 "我们对客户的财务行为习惯及其对银行收益率的影响有了更深入的了解。现在,当进行更具针对性的营销活动 时,银行能够区别对待不同的客户群,以提升产品和服务质量,同时还能制订适当的价格和设计各种奖励方案 ,甚至确定利息费用。" 蒙特利尔银行的数据挖掘工具为管理人员提供了大量信息,从而帮助他们对于从营销到产品设计的任何事情进
4、NBA教练如何布阵以提升获胜机会? 5、出现一个新产品,哪些老客户最可能购买?
数据挖掘的实际应用实例: 1. 哪些商品放在一起比较好卖? 这是沃尔玛的经典案例:一般看来,啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显 示,在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单,一般太太让先生下楼买尿布的时候,先生 们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系 统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。
5、完善数据精确性
对收集好的数据进行建模,以便抽出用户标签,对进行效果评估,完善产 品运营,提升服务质量
奢侈品 购买力较高 女性
江苏
用户画像基本成型
该阶段把用户的基本属性(年龄、地域)、购买能力、行为特征、兴趣特 征、心理特征大致地标签化 基本成型:因为用户画像永远无法 100%描述一个人,只能不断逼近,因此 ,用户画像的数据是需要不断修正的,又要根据已知数据来抽出新的标签 使用户画像越来越立体。
Baidu Nhomakorabea
。与此同时,另一个正式的体育联盟,国家曲棍球联盟,正在开发自己的数据挖掘应用NHL-ICE,联盟与IBM建立了一个技术
型的合资公司,去年11月推出一个电子实时的比赛计分和统计系统。在原理上是一个与Advanced Scout相似的数据挖掘应用, 可以让教练、广播员、新闻记者及球迷挖掘NHL的统计。当他们访问NHL的Web站点时,球迷能够使用该系统循环看联盟的比 赛,同时广播员和新闻记者可以挖掘统计数据,找花边新闻为他们的实况评述添油加醋。
数据挖掘与应用
邓云柯、万琼、伊雨彤、王晨语
整体思路
1
数据挖掘定义
数据挖掘的实际应用(应用于电子商务)
2
3
应用一:用户画像及其形成过程 应用二:电商推荐(实例演示)
4
一、数据挖掘定义
1、网络定义
数据挖掘( Data Mining , DM)又称数据库中的知识发现( Knowledge Discover in Database,KDD) 数据挖掘又称数据库中的知识发现(Knowledge Discover in Database,KDD),是 目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示 出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程, 它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化 地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略, 减少风险,做出正确的决策。