关联分析—购物篮分析

相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

9

Objectives

⏹Conduct an association analysis and interpret the

results.

⏹Distinguish between association analysis and

sequence analysis.

⏹Conduct a sequence analysis and interpret the results.

考虑下面的情形,一个商店想对客户数据库进行分析,了解在购物时哪些商品会一起购

买。为此,商店选择了对客户数据库样本进行购物篮分析。

使用的数据集合:SAMPSIO.ASSOCS

ASSOCS中的变量列表

数据集合ASSOCS包含了1001个客户所购买的食品,其中20种见下表:Code Product

1001个客户中,每个客户均购买了7个物品,因而总共有7007行。数据集中每一行也就代表了客户所购产品的一个组合。在大多数数据集合中,并不是所有客户都购买了相同数量的产品。

创建初始流

按下图样式建立流程图:

a.设置输入数据源(Input Data Source)节点

1 打开输入数据源Input Data Source)节点。

2 从文件夹SAMPSIO中选择数据集合ASSOCS。

3 点击变量(Variables)标签。

4 设置变量CUSTOMER的模型角色为身份(Id)

5 设置变量PRODUCT的模型角色为目标变量(target)。

6 设置变量TIME的模型角色序列(sequence)。

注:变量TIME用于识别购买食品的先后次序。此例中所有商品均在同时购买,因此在这儿的次序只表明商品在购买时的登记先后次序。当考虑这种先后次序时,关联分析就是所谓的序列分析。

7 关闭输入数据源(Input Data Source)节点并保存所做改变。

b.设置关联(Association)节点

8打开关联(Association)节点,按缺省变量(Variables)标签处于活跃状态。查看这一标签。

9选择综合(General)标签,这个标签可让你调整分析模式和设置所生成的关联规则数量。

领会并选择分析模式

仔细察看这个对话框所示分析模式。

分析模式的缺省设置是按上下文By Context。这种分析模式使用输入数据源(Input Data Source)节点中设定的信息确定合适的分析形式。如果输入数据集合包含:

⏹一个身份(ID)变量和一个目标(target)变量,节点自动执行关联分析。

⏹一个序列变量其状态为使用(use),节点则执行序列分析。序列分析要求模型中必须具有一个变量其模型角色是序列(sequence),关联分析忽略这种排序。

因为输入数据源里有一个序列变量,缺省分析模式将是序列分析。序列分析将在后面部分涉及,现在我们要做一个关联分析。

10把分析模式改为Association.

11关闭关联(Association)节点,在弹出对话框选择Yes保存改变。

General标签中其他可用的选项包括

支持关联的最小交易频数(Minimum Transaction Frequency to Support Associations)- 为物品集合间是否关联(同时出现在数据库中)设置最小判定标准。缺省设置是5%。

关联中物品集合的最大物品数(Maximum number of items in an association)-设定用于分析的物品集合包含物品的最大数量。缺省设置为4。

规则产生的最小可信度(Minimum confidence for rule generation)-设置产生规则的最小可信度。缺省值是10%。当执行序列分析时,此选项不可用。

在此例中,均使用缺省设置。关闭关联(Association)节点。既然没有作任何的改变,也

12从关联(Association)节点处运行流程图并查看输出结果。

首先给出的规则(Rules)标签显示如下:

规则(Rules)标签包含每条规则的信息。考虑商品A和B所组成的规则A=>B,并查看以下数据:

⏹规则A=>B的支持度(%)是所用客户中同时购买商品A和商品B的百分数。支持度是

数据库中一条规则发生的频繁程度的测度。

⏹规则A=>B的可信度是所用客户中同时购买商品A和商品B的人数和购买商品A的人

数的比率。

⏹规则A=>B的提升值是关联强度的测量。如果规则A=>B的提升值为2,那么当一个客

户随即选择商品时,购买商品A的可能性是商品B的两倍。

13右击Support(%)列,并选择

我们知道支持度(%)是拥有规则中所有相关服务的客户的比率。在1001名客户中同时购买crackers 和beer(规则1)的比率是36.56%,同时购买olives and herring(规则7)的比率是25.57%。

14 右击Confidence(%)并选择

可信度表示那些购买了左边(LHS)商品的客户中购买右边(RHS)商品客户的百分数。例如,在购买了crackers的客户中,有75%购买了beer(规则2 )。而购买了beer的客户,仅有61%购买了crackers(规则1)。

15 右击Lift并选择

提升值在关联规则上意味着两个可信度的比率。分子是一个规则的可信度,分母是在假定左边(LHS)和右边(RHS)相互独立的情况下该规则的可信度。从而,提升值是规则右边和左边关联性的测度。大于1 的正值表示LHS和RHS之间正向的关联关系。当其大小正好为1时,表示两者之间是独立的。而小于1的值则表明两者之间是一种负向相关关系。

规则1的提升度表明,一个已经购买了peppers和avocados的客户购买sardines 和apples 的几率是一个随机选择的客户购买sardines 和apples的几率的5.67倍。然而,不幸的是这个规则的支持度非常低,仅为8.99%,表明同时购买这4种商品的事件发生机会是相当少的。按缺省,只有提升值大于1的关联法则展示在结果里。你可以改变这一设置,方法是选择:View When Confidence > Expected Confidence.

16 选择Frequencies标签.

相关文档
最新文档