关联分析—购物篮分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
9
Objectives
⏹Conduct an association analysis and interpret the
results.
⏹Distinguish between association analysis and
sequence analysis.
⏹Conduct a sequence analysis and interpret the results.
考虑下面的情形,一个商店想对客户数据库进行分析,了解在购物时哪些商品会一起购
买。为此,商店选择了对客户数据库样本进行购物篮分析。
使用的数据集合:SAMPSIO.ASSOCS
ASSOCS中的变量列表
数据集合ASSOCS包含了1001个客户所购买的食品,其中20种见下表:Code Product
1001个客户中,每个客户均购买了7个物品,因而总共有7007行。数据集中每一行也就代表了客户所购产品的一个组合。在大多数数据集合中,并不是所有客户都购买了相同数量的产品。
创建初始流
按下图样式建立流程图:
a.设置输入数据源(Input Data Source)节点
1 打开输入数据源Input Data Source)节点。
2 从文件夹SAMPSIO中选择数据集合ASSOCS。
3 点击变量(Variables)标签。
4 设置变量CUSTOMER的模型角色为身份(Id)
5 设置变量PRODUCT的模型角色为目标变量(target)。
6 设置变量TIME的模型角色序列(sequence)。
注:变量TIME用于识别购买食品的先后次序。此例中所有商品均在同时购买,因此在这儿的次序只表明商品在购买时的登记先后次序。当考虑这种先后次序时,关联分析就是所谓的序列分析。
7 关闭输入数据源(Input Data Source)节点并保存所做改变。
b.设置关联(Association)节点
8打开关联(Association)节点,按缺省变量(Variables)标签处于活跃状态。查看这一标签。
9选择综合(General)标签,这个标签可让你调整分析模式和设置所生成的关联规则数量。
领会并选择分析模式
仔细察看这个对话框所示分析模式。
分析模式的缺省设置是按上下文By Context。这种分析模式使用输入数据源(Input Data Source)节点中设定的信息确定合适的分析形式。如果输入数据集合包含:
⏹一个身份(ID)变量和一个目标(target)变量,节点自动执行关联分析。
⏹一个序列变量其状态为使用(use),节点则执行序列分析。序列分析要求模型中必须具有一个变量其模型角色是序列(sequence),关联分析忽略这种排序。
因为输入数据源里有一个序列变量,缺省分析模式将是序列分析。序列分析将在后面部分涉及,现在我们要做一个关联分析。
10把分析模式改为Association.
11关闭关联(Association)节点,在弹出对话框选择Yes保存改变。
General标签中其他可用的选项包括
支持关联的最小交易频数(Minimum Transaction Frequency to Support Associations)- 为物品集合间是否关联(同时出现在数据库中)设置最小判定标准。缺省设置是5%。
关联中物品集合的最大物品数(Maximum number of items in an association)-设定用于分析的物品集合包含物品的最大数量。缺省设置为4。
规则产生的最小可信度(Minimum confidence for rule generation)-设置产生规则的最小可信度。缺省值是10%。当执行序列分析时,此选项不可用。
在此例中,均使用缺省设置。关闭关联(Association)节点。既然没有作任何的改变,也
12从关联(Association)节点处运行流程图并查看输出结果。
首先给出的规则(Rules)标签显示如下:
规则(Rules)标签包含每条规则的信息。考虑商品A和B所组成的规则A=>B,并查看以下数据:
⏹规则A=>B的支持度(%)是所用客户中同时购买商品A和商品B的百分数。支持度是
数据库中一条规则发生的频繁程度的测度。
⏹规则A=>B的可信度是所用客户中同时购买商品A和商品B的人数和购买商品A的人
数的比率。
⏹规则A=>B的提升值是关联强度的测量。如果规则A=>B的提升值为2,那么当一个客
户随即选择商品时,购买商品A的可能性是商品B的两倍。
13右击Support(%)列,并选择
我们知道支持度(%)是拥有规则中所有相关服务的客户的比率。在1001名客户中同时购买crackers 和beer(规则1)的比率是36.56%,同时购买olives and herring(规则7)的比率是25.57%。
14 右击Confidence(%)并选择
可信度表示那些购买了左边(LHS)商品的客户中购买右边(RHS)商品客户的百分数。例如,在购买了crackers的客户中,有75%购买了beer(规则2 )。而购买了beer的客户,仅有61%购买了crackers(规则1)。
15 右击Lift并选择
提升值在关联规则上意味着两个可信度的比率。分子是一个规则的可信度,分母是在假定左边(LHS)和右边(RHS)相互独立的情况下该规则的可信度。从而,提升值是规则右边和左边关联性的测度。大于1 的正值表示LHS和RHS之间正向的关联关系。当其大小正好为1时,表示两者之间是独立的。而小于1的值则表明两者之间是一种负向相关关系。
规则1的提升度表明,一个已经购买了peppers和avocados的客户购买sardines 和apples 的几率是一个随机选择的客户购买sardines 和apples的几率的5.67倍。然而,不幸的是这个规则的支持度非常低,仅为8.99%,表明同时购买这4种商品的事件发生机会是相当少的。按缺省,只有提升值大于1的关联法则展示在结果里。你可以改变这一设置,方法是选择:View When Confidence > Expected Confidence.
16 选择Frequencies标签.