医药信息分析与决策-关联规则 ppt课件
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• K项频繁集候选集:每个项都有K个元素,用C表示K项频繁集:每一 项都满足最小支持度的项,每个项中有K个元素,用L表示。
2. 产生频繁项集的过程
1. 连接步
C1(1-项频繁集候选集):扫描数据库,对每个单独的项进行计数得到C1。 L1(1-项频繁集):从C1中删除支持度小于sup的项得到L1。 Ck+1(K+1项频繁集候选集):CK+1由Lk与自身连接得到,即CK+1=Lk*Lk连接的条件
2.利用频繁项目集生成所需要的关联规则。 对每一频繁项目集 ,找到其所有非空子集 ,如果比 率: 称为强关联规则。
8.2.2 Apriori算法
• 1.Apriori算法基本思想。 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持 度,发现所有的频繁项集从而生成关联规则。Apriori 算法 使用称为 逐层收索的迭代方法,首先寻找1-项频繁集的集合,集合 记做L1, L1用于寻找两项频繁集合L2,L2 用于寻找L3,如此下去,直到不能 找K项频繁集合
则称 为频繁项目集,否则,称 为非频繁项目集。
8.1.2 基本概念与规则度量
• 强关联规则: 关联规则称为强关联规则, 必须
且
同时成立,否
则称为弱关联规则。
8.1.2 基本概念与规则度量
• 性质1. 设X 和 Y是数据集 中的项目子集
(1)若
,则support (X )
support (Y)
(2)若
,且 X是非频繁项目集,则
Leabharlann Baidu
Y也是非频繁项目集,即任意弱项目集的超集都是
弱项集。
(3)若
,如果 Y是频繁项目集,则
X也是频繁项目集,即任意大项集的子集都是大
项集。
8.2 关联规则算法
• 8.2.1关联规则挖掘过程
关联规则挖掘问题可分解为以下两个子问题:
1.找频繁项目集:找出事务数据库 中所有大于或等于用户指定最小支持度的项目集 (itemset),即频繁项目集。本章中项目集的支持度可简单地用包含该项目集的数目来 表示。
是,参与连接的两个K项集合前k-1项相同,第k项不同。
2. 产生频繁项集的过程
2. 剪枝步
从CK+1删除K项子集不在LK中的项、并利用以下性质删除支持度小于sup的项。 Apriori 性质: 任何K+1项频繁集的任意K项子集必须是频繁的 支持度计算
C为CK中的一项,T是事务集中的一条事务,如果C∈T,C的支持度加1,遍历 整个数据库,可以得到C的支持度 例:C1={I1,I2},T2={I1,I2,I3} c.sup++
表示。项目的集合称为项目集,简称项集。设集合
是项
集, I中项目的个数为 n ,则集合 称为 n -项集。例如,集合{啤酒,
尿布,牛奶}是一个3-项集。
8.1.2 基本概念与规则度量
• 事务与事务集: 设
是由数据库中所有项目构成的集合
,一次处理所含项目的集合用 表示,是 I 的子集,称为一个事务。
事务的集合
第8章 关联规则
主要内容
• 关联规则概述 • 关联规则算法 • 关联规则应用案例
精品资料
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你
是否会认为老师的教学方法需要改进? • 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我
包括 k 个事务,称为事务集。
8.1.2 基本概念与规则度量
• 关联规则: 关联规则是形如
的蕴含式,其中事务 X, Y 分别是
I 的真子集,并且
。 X称为规则的前提, Y称为规则的结果。
关联规则反映 X中的项目出现时, Y中的项目也跟着出现的规律。
8.1.2 基本概念与规则度量
• 关联规则的支持度(support):关联规则的支持度是事务集中同时包
笨,没有学问无颜见爹娘 ……” • “太阳当空照,花儿对我笑,小鸟说早早早……”
8.1 关联规则概述
8.1.1啤酒与尿布
• 在美国沃尔玛超市的货架上,尿片和啤酒赫然地摆在一起出售。
为啥…?
• 每逢周末,啤酒和尿片的销量都很大 • 有孩子的家庭中,太太经常嘱咐丈夫下班后要买尿片,而丈夫们在买
完尿片以后又顺手买啤酒
8.1.1啤酒与尿布
• 搞清原因后,沃尔玛的工作人员打破常规,尝试将啤酒和尿片摆在一 起,结果使得啤酒和尿片的销量双双激增,为商家带来了大量的利润
• 在顾客同一次购物活动中,对其所购买商品组成的相关性进行研究的 方法学
8.1.2 基本概念与规则度量
• 项目与项集:数据库中不可分割的最小信息单位,称为项目,用符号 i
• (5) 根据最小支持度,由候选( k+1 )-项集的集合Ck+1,产 生频繁( k+1 )-项集的集合Lk+1;
含X 和Y的事务数与所有事务数之比,记为support (
),即:
support ( ) = support
=
。
• 支持度反映了 X和 Y中所含项在事务集中同时出现的频率。
8.1.2 基本概念与规则度量
• 关联规则的置信度(confidence):关联规则的置信度是事务集中包含
X和 Y 的事务数与所有包含X的事务数之比,记为confidence(
阈值(minsupport)和最小置信度阈值(mincontinence)。其中,
minsupport描述了关联规则的最低重要程度,minconfidence规定了
关联规则必须满足的最低可靠性。
8.1.2 基本概念与规则度量
• 频繁项集: 设
为项目的集合,且
, ,对
于给定的最小支持度minsupport,若 的支持度support minsupport,
3.Apriori算法的主要步骤
• (1) 扫描全部数据,产生候选1-项集的集合C1; • (2) 根据最小支持度,由候选1-项集的集合C1产生频繁1-项
集的集合L1; • (3) 对k>1,重复执行步骤(4)、(5)、(6);
• (4) 由Lk执行连接和剪枝操作,产生候选(k+1)-项集的集 合Ck+1;
)
,
即:
• 置信度反映了包含X 的事务中,出现Y 的条件概率。
8.1.2 基本概念与规则度量
• 最小支持度与最小置信度: 用户为了达到一定的要求,需要指定规则
必须满足的支持度和置信度阈值,当support (
) 、confidence(
) 分别大于等于各自的阈值时,认为 是有价值的,被称为最小支持度
2. 产生频繁项集的过程
1. 连接步
C1(1-项频繁集候选集):扫描数据库,对每个单独的项进行计数得到C1。 L1(1-项频繁集):从C1中删除支持度小于sup的项得到L1。 Ck+1(K+1项频繁集候选集):CK+1由Lk与自身连接得到,即CK+1=Lk*Lk连接的条件
2.利用频繁项目集生成所需要的关联规则。 对每一频繁项目集 ,找到其所有非空子集 ,如果比 率: 称为强关联规则。
8.2.2 Apriori算法
• 1.Apriori算法基本思想。 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持 度,发现所有的频繁项集从而生成关联规则。Apriori 算法 使用称为 逐层收索的迭代方法,首先寻找1-项频繁集的集合,集合 记做L1, L1用于寻找两项频繁集合L2,L2 用于寻找L3,如此下去,直到不能 找K项频繁集合
则称 为频繁项目集,否则,称 为非频繁项目集。
8.1.2 基本概念与规则度量
• 强关联规则: 关联规则称为强关联规则, 必须
且
同时成立,否
则称为弱关联规则。
8.1.2 基本概念与规则度量
• 性质1. 设X 和 Y是数据集 中的项目子集
(1)若
,则support (X )
support (Y)
(2)若
,且 X是非频繁项目集,则
Leabharlann Baidu
Y也是非频繁项目集,即任意弱项目集的超集都是
弱项集。
(3)若
,如果 Y是频繁项目集,则
X也是频繁项目集,即任意大项集的子集都是大
项集。
8.2 关联规则算法
• 8.2.1关联规则挖掘过程
关联规则挖掘问题可分解为以下两个子问题:
1.找频繁项目集:找出事务数据库 中所有大于或等于用户指定最小支持度的项目集 (itemset),即频繁项目集。本章中项目集的支持度可简单地用包含该项目集的数目来 表示。
是,参与连接的两个K项集合前k-1项相同,第k项不同。
2. 产生频繁项集的过程
2. 剪枝步
从CK+1删除K项子集不在LK中的项、并利用以下性质删除支持度小于sup的项。 Apriori 性质: 任何K+1项频繁集的任意K项子集必须是频繁的 支持度计算
C为CK中的一项,T是事务集中的一条事务,如果C∈T,C的支持度加1,遍历 整个数据库,可以得到C的支持度 例:C1={I1,I2},T2={I1,I2,I3} c.sup++
表示。项目的集合称为项目集,简称项集。设集合
是项
集, I中项目的个数为 n ,则集合 称为 n -项集。例如,集合{啤酒,
尿布,牛奶}是一个3-项集。
8.1.2 基本概念与规则度量
• 事务与事务集: 设
是由数据库中所有项目构成的集合
,一次处理所含项目的集合用 表示,是 I 的子集,称为一个事务。
事务的集合
第8章 关联规则
主要内容
• 关联规则概述 • 关联规则算法 • 关联规则应用案例
精品资料
• 你怎么称呼老师? • 如果老师最后没有总结一节课的重点的难点,你
是否会认为老师的教学方法需要改进? • 你所经历的课堂,是讲座式还是讨论式? • 教师的教鞭 • “不怕太阳晒,也不怕那风雨狂,只怕先生骂我
包括 k 个事务,称为事务集。
8.1.2 基本概念与规则度量
• 关联规则: 关联规则是形如
的蕴含式,其中事务 X, Y 分别是
I 的真子集,并且
。 X称为规则的前提, Y称为规则的结果。
关联规则反映 X中的项目出现时, Y中的项目也跟着出现的规律。
8.1.2 基本概念与规则度量
• 关联规则的支持度(support):关联规则的支持度是事务集中同时包
笨,没有学问无颜见爹娘 ……” • “太阳当空照,花儿对我笑,小鸟说早早早……”
8.1 关联规则概述
8.1.1啤酒与尿布
• 在美国沃尔玛超市的货架上,尿片和啤酒赫然地摆在一起出售。
为啥…?
• 每逢周末,啤酒和尿片的销量都很大 • 有孩子的家庭中,太太经常嘱咐丈夫下班后要买尿片,而丈夫们在买
完尿片以后又顺手买啤酒
8.1.1啤酒与尿布
• 搞清原因后,沃尔玛的工作人员打破常规,尝试将啤酒和尿片摆在一 起,结果使得啤酒和尿片的销量双双激增,为商家带来了大量的利润
• 在顾客同一次购物活动中,对其所购买商品组成的相关性进行研究的 方法学
8.1.2 基本概念与规则度量
• 项目与项集:数据库中不可分割的最小信息单位,称为项目,用符号 i
• (5) 根据最小支持度,由候选( k+1 )-项集的集合Ck+1,产 生频繁( k+1 )-项集的集合Lk+1;
含X 和Y的事务数与所有事务数之比,记为support (
),即:
support ( ) = support
=
。
• 支持度反映了 X和 Y中所含项在事务集中同时出现的频率。
8.1.2 基本概念与规则度量
• 关联规则的置信度(confidence):关联规则的置信度是事务集中包含
X和 Y 的事务数与所有包含X的事务数之比,记为confidence(
阈值(minsupport)和最小置信度阈值(mincontinence)。其中,
minsupport描述了关联规则的最低重要程度,minconfidence规定了
关联规则必须满足的最低可靠性。
8.1.2 基本概念与规则度量
• 频繁项集: 设
为项目的集合,且
, ,对
于给定的最小支持度minsupport,若 的支持度support minsupport,
3.Apriori算法的主要步骤
• (1) 扫描全部数据,产生候选1-项集的集合C1; • (2) 根据最小支持度,由候选1-项集的集合C1产生频繁1-项
集的集合L1; • (3) 对k>1,重复执行步骤(4)、(5)、(6);
• (4) 由Lk执行连接和剪枝操作,产生候选(k+1)-项集的集 合Ck+1;
)
,
即:
• 置信度反映了包含X 的事务中,出现Y 的条件概率。
8.1.2 基本概念与规则度量
• 最小支持度与最小置信度: 用户为了达到一定的要求,需要指定规则
必须满足的支持度和置信度阈值,当support (
) 、confidence(
) 分别大于等于各自的阈值时,认为 是有价值的,被称为最小支持度