关联分析--SPSS例析

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关联分析(笔记)

事物之间的关联关系包括:简单关联关系、序列关联关系。

关联关系简单关联关系

序列关联关系

简单关联规则:属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构。Spss modeler 提供了APriori、GRI、Carma等经典算法。APriori和Carma属于同类算法。

序列关联:关联具有前后顺序,通常与时间有关。

SPSS Modeler 提供了sequence算法;

数据格式如下:按照事务表存储,同事需要时间变量。

简单关联规则要分析的对象是事务

事务的储存方式有事务表和事实表两种方式。

事实表

两种表均表明,顾客1购买了AD两种物品,顾客2购买了BD两种物品,顾客三购买了AC两种物品。关联规则有效性的测度指标

1、支持度support:所有购买记录中,A、B同时被购买的比例。

2、置信度confidence:在购买A的事务中,购买B的比例。

关联规则实用性的测度指标

1、提升度lift:(在购买A的事务中,购买B的比例)/(所有事务中,购买B的比例)

2、置信差

3、置信率、正态卡方、信息差等等简单关联关系实例

例1

数据格式:事实表算法:Apriori

所有购买项目均选入前项antecedent和后项consequent。

输出结果的最低支持度是10%;本例设定的划分频繁项集的标准大于最小支持度10%。

最小置信度是80%;

前项最多项目数:5

本例中,三项以上没有超过10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集大小是2。

结论解释:

实例:包含前项beer、cannedveg的样本有167个,在1000个样本中前项支持度为16.7%。

规则支持度:同时购买beer、cannedveg、frozenmeal三项的支持度为14.6%。

规则置信度:购买beer、cannedveg的客户中,87.425%的人有购买frozenmeal。

规则2下,购买frozenmeal的可能性比购买frozenmeal的支持度提高2.895倍。

例2

数据格式:事实表算法:Apriori

本例前项选择性别和家乡,旨在不同性别和地区客户的购买行为是否存在频繁项集。由于AGE是数据类型变量,所以前项不能选入AGE,可在GRI算法中选入AGE。

Sex=M

序列关联规则实例

例1

数据格式:事务表时间变量:time 算法:sequence

饮料=》啤酒:规则支持度66.7%,规则置信度100%。饮料=》香肠:规则支持度50%,规则置信度75%。

啤酒=》香肠:规则支持度50%,规则置信度60%。

将最下置信度调整为30%,结果为:

例2

本例是客访问网页的数据,包括浏览的内容和顺序等信息。模型旨在发现各类网页的浏览是否存在某种序列关系。

Customerguide:客户ID URKcategory:网页浏览内容sequenceID:浏览顺序,即时间顺序。

Flight=》hotel,表示浏览航班网页的网民,随后86.6%的将浏览宾馆住宿的网页,规则支持度为10.3%,规则置信度86.6%。

实例和支持度都是前项的数据。

相关文档
最新文档