医药信息分析与决策-第8章关联规则

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
8.2 关联规则算法
8.2.2 Apriori算法
1.Apriori算法基本思想。 Apriori算法的基本思想是通过对数据库的多次扫描来计算项集的支持度，发现所有的频繁项集从而生成关联规则。Apriori 算法使用称为逐层收索的迭代方法，首先寻找1-项频繁集的集合，集合记做L1， L1用于寻找两项频繁集合L2，L2 用于寻找L3，如此下去，直到不能找K项频繁集合
图 8.3 完成关联并建立浏览模型
图 8.4 药品间的强关联规则
8.3 关联规则应用案例
图 8.5 提取的频繁项集
图 8.6 依据强关联规则的系统网
8.3 关联规则应用案例
思考题
思考题答案
携手共进，齐创精品工程
Thank You
世界触手可及
2. 产生频繁项集的过程
2. 剪枝步 ➢ 从CK+1删除K项子集不在LK中的项、并利用以下性质删除支持度小于sup的项。 ➢ Apriori 性质：任何K+1项频繁集的任意K项子集必须是频繁的 ➢ 支持度计算 C为CK中的一项，T是事务集中的一条事务，如果C∈T，C的支持度加1，遍历整个数据库，可以得到C的支持度例：C1={I1,I2}，T2={I1,I2,I3} c.sup++
1) 第一次扫描
表8.2 候选1-项集C1
项集
支持度
{I1}
6
{I2}
7
{I3}
6
{I4}
2
{I5}
2
表8.3 频繁1-项集L1
项集 {I1} {I2} {I3} {I4} {I5}
支持度 6 7 6 2 2
2）第二次扫描
表8.4 候选2-项集C2
项集 {I1，I2} {I1，I3} {I1，I4} {I1，I5} {I2，I3} {I2，I4} {I2，I5} {I3，I4} {I3，I5} {I4，I5}
K项频繁集候选集：每个项都有K个元素，用C表示K项频繁集：每一项都满足最小支持度的项，每个项中有K个元素，用L表示。
2. 产生频繁项集的过程
1. 连接步 ➢ C1(1-项频繁集候选集):扫描数据库,对每个单独的项进行计数得到C1。 ➢ L1(1-项频繁集):从C1中删除支持度小于sup的项得到L1。 ➢ Ck+1(K+1项频繁集候选集)：CK+1由Lk与自身连接得到，即CK+1=Lk*Lk连接的条件是，参与连接的两个K项集合前k-1项相同，第k项不同。
c o n fid e n c e (A B ) P (A |B ) s u p p o r t_ c o u n t( A B ) s u p p o r t_ c o u n t( A )
其中，support_count(A∪B)是包含A∪B的事务数，support_count(A)是包含项集A的事务数。
{I1，I2}
4
{I1，I3}
4
{I1，I5}
2
{I2，I3}
4
{I2，I4}
2
{I2，I5}
2
3）第三次扫描
表8.7 候选3-项集C3 项集
{I1，I2，I3} {I1，I2，I5} {I1，I3，I5} {I2，I3，I4} {I2，I3，I5} {I2，I4，I5}
4. Apriori算法的举例
药品卡吗西平片丙戊酸纳缓释片奥卡西平片茴拉西坦分散片奥卡西平片丙戊酸纳口服液丙戊酸纳缓释片奥卡西平片茴拉西坦分散片丙戊酸纳缓释片奥卡西平片丙戊酸纳缓释片奥卡西平片卡吗西平片
8.3 关联规则应用案例
图 8.1 按照关联向导选择数据表图 8.2 选择关联规则的相关参数
8.3 关联规则应用案例
6.由频繁项集产生关联规则
support_count(l)min_conf support_count(s)
6.由频繁项集产生关联规则
6.由频繁项集产生关联规
8.2.3 关联规则分类
8.2.3 关联规则分类
8.2.3 关联规wenku.baidu.com分类
8.3 关联规则应用案例
表8.10癫痫病药方
病人编号 11000 11000 11001 11001 11002 11002 11003 11003 11003 11004 11004 11005 11005 11005
4. Apriori算法的举例
表8.1 数据库的事务集
事务
项目
T001 T002 T003
I1，I2，I5 I2，I4 I2，I3
T004
I1，I2，I4
T005
I1，I3
T006 T007 T008
I2，I3 I1，I3 I1，I2，I3，I5
T009
I1，I2，I3
4. Apriori算法的举例
4. Apriori算法的举例
表8.5 剪枝后的C2
项集 {{I1，I2} {I1，I3} {I1，I4} {I1，I5} {I2，I3} {I2，I4} {I2，I5} {I3，I4} {I3，I5} {I4，I5}
支持度 4 4 1 2 4 2 2 0 1 1
表8.6 频繁2-项集L2
项集
支持度
医药信息分析与决策-第8章关联规则
8.1 关联规则概述
8.1.1啤酒与尿布
8.1.1啤酒与尿布
8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
8.1.2 基本概念与规则度量
3.Apriori算法的主要步骤
(1) 扫描全部数据，产生候选1-项集的集合C1； (2) 根据最小支持度，由候选1-项集的集合C1产生频繁1-项集的集合L1； (3) 对k>1，重复执行步骤(4)、(5)、(6)； (4) 由Lk执行连接和剪枝操作，产生候选（k+1）-项集的集合Ck+1； (5) 根据最小支持度，由候选（ k+1 ）-项集的集合Ck+1，产生频繁（ k+1 ）-项集的集合Lk+1； (6) 若L≠Φ，则 k=k+1 ，跳往 (4)；否则, 跳往步骤(7)； (7) 根据最小置信度，由频繁项集产生强关联规则，结束。
表8.8 剪枝后的C3
项集
支持度
表8.9 频繁3-项集L3
项集
支持度
{I1，I2，I3}
2
{I1，I2，I5}
2
{I1，I2，I3}
2
{I1，I2，I5}
2
4. Apriori算法的举例
5.Apriori算法的优缺点
6.由频繁项集产生关联规则
一旦由数据库D中的事务找出频繁项集，由它们产生强关联规则是直接了当的（强关联规则满足最小支持度和最小置信度）。对于置信度可以用下式，其中条件概率用项集支持度计数表示。