关联分析解析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
摘要关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。关联分析是从大量数据中发现项集之间有趣的关联和相关联系。在关联规则挖掘算法中,Apriori算法是最常用的,Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。
关键词关联分析 Apriori算法spss clementines12.0 相关性
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。在关联分析中,建立“关联规则模型”分析数据,了解事物之间的相关程度。比如,进行市场调查解决营销问题上,在海量数据中利用模型发现内在的规律性,从而找出解决方案。
A =>
B [ 支持度 =2%, 置信度 =60%]
式中A是规则前项(Antecedent),B是规则后项 (Consequent)。实例数表示所有购买记录中包含A的记录的数量。
支持度(Support)表示购买A的记录数占所有的购买记录数的百分比。
规则支持度(Rule Support)表示同时购买A和B的记录数占所有的购买记录数的百分比。
置信度(confidence)表示同时购买A和B的记录数占购买A记录数的百分比。
提升(Lift)表示置信度与已知购买B的百分比的比值,提升大于 1 的规则才是有意义的。
支持度 2% 意味着,所分析的记录中的 2% 购买了A。置信度 60% 表明,购买A的顾客中的 60% 也购买了B。如果关联满足最小支持度阈值和最小置信度阈值,就说关联规则是有意义的。这些阈值可以由用户或领域专家设定。就顾客购物而言,根据以往的购买记录,找出满足最小支持度阈值和最小置信度阈值的关联规则,就找到顾客经常同时购买的商品。
关联规则中的挖掘算法--Apriori算法
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。经典的关联规则数据挖掘算法Apriori 算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信息在决策制定过程中具有重要的参考价值。
本次试验将使用SPSS Clementine12.0自带的安装目录下的 Demos 文件夹下的BASKETS1n 数据。希望分析出哪些商品会和啤酒一起购买,以此来合理安排商品的摆放,进而提高啤酒的销量。
此数据属于表格格式数据,每条记录表示顾客的一次购物。记录的字段包括卡号、顾客基本信息、付款方式和商品名称(每个商品一个字段 , 该商品字段值为 T, 表示购买该商品 , 值为 F 表示未购买,具体可参考表 2, 表格格式数据)。商品名称都有 fruitveg(水果蔬菜),freshmeat(生鲜肉),dairy(奶制品),cannedveg(罐装蔬菜),cannedmeat(罐装肉),fozenmeal(冻肉),beer(啤酒), wine(酒类),softdrink(软饮),fish (鱼), confectionery(甜食)。
首先打开Clementine ,会出现一张空白的流界面,这时用户可以在里面创建自己的流。
第一步,为流添加一个数据节点,这里选择 Clementine自带的 Demo 数据。将界面下方选项卡的“数据源”选项中的“可变文件”拖放到空白界面中,双击打开,在文件选项卡中选择Clementine 自带的 Demo 数据BASKETS1n,如图所示。
第二步,为流添加类型节点,类型节点是显示和设置数据每个字段的类型、格式和角色。从界面下方的“字段选项”卡中,将“类型”节点拖放到界面中,接着将数据节点和类型节点连接起来,或者直接在“字段选项”卡中双击“类型”节点,将两者连接起来。这时双击打开“类型”节点,此时“类型”节点中显示了数据的字段和其类型,点击“类型”节点界面上的“读取值”按钮,这时会将数据节点中的数据读取过来。