《R语言数据挖掘(第2版)》教学课件—第十章R的关联分析:揭示数据
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
规则支持度:测度了简单关联规则应用的普适性, 定义为项目X和项目Y项同时出现的概率
前项支持度和后项支持度
简单关联规则及其测度
简单关联规则的有效性评价 一个有效的简单关联规则应具有较高的置信度和较 高的支持度 大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持 度与统计中的列联表密切相关
Apriori算法
Apriori算法包括 第一,搜索频繁项集 频繁项集是指:对包含项目A的项集C,其支持 度大于等于用户指定的最小支持度,称C(A)为 频繁项集
频繁1-项集、频繁k-项集、最大频繁k-项集
Apriori算法
Apriori算法包括 第一,搜索频繁项集 搜索频繁项集:采用迭代方式逐层找到上层的 超级,并在超级中发现频繁项集。如此反复, 直到最顶层得到最大频繁项集为止
事务标识是确定一个事务的唯一标识;项目集合简 称项集,是一组项目的集合
简单关联规则及其测度
简单关联规则
例:面包牛奶(S=85%,C=90%) 例:性别(女) ∩ 收入(>5000)品牌(A)(S=80%,C=85%)
简单关联规则及其测度
简单关联规则的有效性评价 规则置信度:是对简单关联规则准确度的测量,定 义为包含项目X的事务中同时也包含项目Y项的概 率,反映X出现条件下Y出现的可能性
序列关联分析(也称时序关联分析)研究的目的是要 从所收集到的众多事务序列中,发现某个事务序列连 续出现的规律,找到事务发展的前后关联性。这种前 后关联性通常与时间有关
序列关联分析
序列关联中的基本概念 序列关联研究的对象事务序列
序列关联规则:(X)Y(S=s%,C=c%)
序列关联分析
生成序列关联规则 第一,搜索频繁事务序列 频繁事务序列是指,事务序列的支持度大于等 于用户指定的最小支持度的序列 第二,依据频繁事务序列生成序列关联规则
SPADE算法
SPADE算法采用纵向id列表(Vertical id-list)形式组织事务 序列,基于对等类的候选序列组合,只需很少次的数 据集扫描即可得到频繁k-序列
纵向id列表
第十章
R的关联分析:揭示数据 关联性
学习目标
• 理论方面,理解简单关联和时序关联的含义,各种关 联算法的特点、核心原理和基本实现思路,掌握不同 方法的适用性和应用场景
• 实践方面,掌握R的各种关联算法实现、应用以及结 果解读,能够正确运用不同关联算法解决找到实际数 据中的各种关联性
关联分析
关联分析是揭示数据内在结构特征的重要手段 关联分析的目的就是基于已有数据,找到事物间的简
Apriori算法
Apriori算法包括 第一,搜索频繁项集,每次迭代均包含两个步骤 第一,产生候选集Ck 第二,修剪候选集Ck
Apriori算法
Apriori算法包括 第二,依据频繁项集合产生关联规则 从频繁项集中产生所有简单关联规则,选择置 信度大于用户指定最小置信度阈值的关联规则, 组成有效规则集合
单关联关系或序列关联关系 数据挖掘中,关联分析成果(即关联关系)的核心体
现形式是关联规则(Association Rule) 简单关联规则 序列关联规则
简单关联规则及ቤተ መጻሕፍቲ ባይዱ测度
理解简单关联规则的前提是理解事务和项集 简单关联分析的分析对象是事务(Transaction)。事务可理
解为一种商业行为,含义极为宽泛 事务通常由事务标识(TID)和项目集合X组成。
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE, by=排
序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类对项名
,confidence=0.8)
简单关联分析应用:商品推荐
发现连带销售商品 顾客选择性倾向对比
序列关联分析
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有实际意义 例:牛奶性别(男)(S=40%,C=40%)。 在最小置信度和支持度为20%时该规则是一条有 效规则
规则反映的是一种前后项无关联下的随机性 关联,没有提供更有意义的指导性信息
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有指导意义 例:成绩(优异)早餐(吃)(S=30%,C=60%), 在最小置信度和支持度为20%时该规则是一条有 效规则
Apriori算法的R实现步骤
建立事务数据集对象:事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式,cols=数
值或字符向量,sep=分割符)
Apriori算法的R实现步骤
搜索频繁项集,生成有效的简单关联规则
简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名,method="graph",control=list(main= 图形主标题))
可视化简单关联规则
plot(x=关联规则类对象名,method=图类型名,control=控制参 数)
Eclat算法
Eclat算法与Apriori算法的思路类似,特色在于:基于 对等类(equivalence class),采用上述自底向上的搜索策略, 只需访问很少次的数据集便可确定最大频繁项集 例:
规则没有指导意义
简单关联规则及其测度
简单关联规则的实用性评价 规则的提升度(Lift)定义为:规则置信度与后项支 持度之比
规则提升度反映了项目X的出现对项目Y(研究 项)出现的影响程度
有实用价值的简单关联规则应是规则提升度大 于1的规则,意味着X的出现对Y的出现有促进作 用。规则提升度越大越好
前项支持度和后项支持度
简单关联规则及其测度
简单关联规则的有效性评价 一个有效的简单关联规则应具有较高的置信度和较 高的支持度 大于最小置信度和支持度阈值的规则是有效规则
规则置信度、规则支持度、前项支持度和后项支持 度与统计中的列联表密切相关
Apriori算法
Apriori算法包括 第一,搜索频繁项集 频繁项集是指:对包含项目A的项集C,其支持 度大于等于用户指定的最小支持度,称C(A)为 频繁项集
频繁1-项集、频繁k-项集、最大频繁k-项集
Apriori算法
Apriori算法包括 第一,搜索频繁项集 搜索频繁项集:采用迭代方式逐层找到上层的 超级,并在超级中发现频繁项集。如此反复, 直到最顶层得到最大频繁项集为止
事务标识是确定一个事务的唯一标识;项目集合简 称项集,是一组项目的集合
简单关联规则及其测度
简单关联规则
例:面包牛奶(S=85%,C=90%) 例:性别(女) ∩ 收入(>5000)品牌(A)(S=80%,C=85%)
简单关联规则及其测度
简单关联规则的有效性评价 规则置信度:是对简单关联规则准确度的测量,定 义为包含项目X的事务中同时也包含项目Y项的概 率,反映X出现条件下Y出现的可能性
序列关联分析(也称时序关联分析)研究的目的是要 从所收集到的众多事务序列中,发现某个事务序列连 续出现的规律,找到事务发展的前后关联性。这种前 后关联性通常与时间有关
序列关联分析
序列关联中的基本概念 序列关联研究的对象事务序列
序列关联规则:(X)Y(S=s%,C=c%)
序列关联分析
生成序列关联规则 第一,搜索频繁事务序列 频繁事务序列是指,事务序列的支持度大于等 于用户指定的最小支持度的序列 第二,依据频繁事务序列生成序列关联规则
SPADE算法
SPADE算法采用纵向id列表(Vertical id-list)形式组织事务 序列,基于对等类的候选序列组合,只需很少次的数 据集扫描即可得到频繁k-序列
纵向id列表
第十章
R的关联分析:揭示数据 关联性
学习目标
• 理论方面,理解简单关联和时序关联的含义,各种关 联算法的特点、核心原理和基本实现思路,掌握不同 方法的适用性和应用场景
• 实践方面,掌握R的各种关联算法实现、应用以及结 果解读,能够正确运用不同关联算法解决找到实际数 据中的各种关联性
关联分析
关联分析是揭示数据内在结构特征的重要手段 关联分析的目的就是基于已有数据,找到事物间的简
Apriori算法
Apriori算法包括 第一,搜索频繁项集,每次迭代均包含两个步骤 第一,产生候选集Ck 第二,修剪候选集Ck
Apriori算法
Apriori算法包括 第二,依据频繁项集合产生关联规则 从频繁项集中产生所有简单关联规则,选择置 信度大于用户指定最小置信度阈值的关联规则, 组成有效规则集合
单关联关系或序列关联关系 数据挖掘中,关联分析成果(即关联关系)的核心体
现形式是关联规则(Association Rule) 简单关联规则 序列关联规则
简单关联规则及ቤተ መጻሕፍቲ ባይዱ测度
理解简单关联规则的前提是理解事务和项集 简单关联分析的分析对象是事务(Transaction)。事务可理
解为一种商业行为,含义极为宽泛 事务通常由事务标识(TID)和项目集合X组成。
apriori(data=transactions类对象名, parameter=NULL,appearance=NULL)
size(x=关联规则类对象名) sort(x=关联规则类对象名, decreasing=TRUE/FALSE, by=排
序依据)
筛选关联规则
subset(x= 关联规则类对象名,subset=条件)
R函数
eclat(data=transactions类对象名, parameter=NULL) ruleInduction(x=频繁项集对象名,transactions=事务类对项名
,confidence=0.8)
简单关联分析应用:商品推荐
发现连带销售商品 顾客选择性倾向对比
序列关联分析
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有实际意义 例:牛奶性别(男)(S=40%,C=40%)。 在最小置信度和支持度为20%时该规则是一条有 效规则
规则反映的是一种前后项无关联下的随机性 关联,没有提供更有意义的指导性信息
简单关联规则及其测度
简单关联规则的实用性评价 简单关联规则应具有指导意义 例:成绩(优异)早餐(吃)(S=30%,C=60%), 在最小置信度和支持度为20%时该规则是一条有 效规则
Apriori算法的R实现步骤
建立事务数据集对象:事实表和事务表
transactions类对象 read.transactions(file=文本文件名, format=组织形式,cols=数
值或字符向量,sep=分割符)
Apriori算法的R实现步骤
搜索频繁项集,生成有效的简单关联规则
简单关联的可视化R实现
可视化频繁项集
plot(x=频繁项集类对象名,method="graph",control=list(main= 图形主标题))
可视化简单关联规则
plot(x=关联规则类对象名,method=图类型名,control=控制参 数)
Eclat算法
Eclat算法与Apriori算法的思路类似,特色在于:基于 对等类(equivalence class),采用上述自底向上的搜索策略, 只需访问很少次的数据集便可确定最大频繁项集 例:
规则没有指导意义
简单关联规则及其测度
简单关联规则的实用性评价 规则的提升度(Lift)定义为:规则置信度与后项支 持度之比
规则提升度反映了项目X的出现对项目Y(研究 项)出现的影响程度
有实用价值的简单关联规则应是规则提升度大 于1的规则,意味着X的出现对Y的出现有促进作 用。规则提升度越大越好