Apriori算法及应用
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
• 关联规则:是形如A→B的蕴涵表达式,A 和B都是属于数据集集合I,并且A∩B为空。 • 支持度(support):是数据集中包含 A∪B(即A和B二者)的百分比。 • 置信度(confidence):是数据集中包含A 事务同时包含B事务的百分比。
Support(A→B)=support_count(A∪B)/N Confidence(A→B)=support_count(A∪B)/ support_count(A)
关联规则挖掘算法可分为两个步骤:
⑴产生频繁项集:发现满足最小支持度阈值 的所有项集,即频繁项集。
⑵产生规则:从上一步发现的频繁项集中提 取大于置信度阈值的规则,即强规则。
Apriori算法
基于Apriori算法的单维布尔数据流 程图
Apriori算法应用(1)
问题的形式化描述: 设:I={i1,i2…im}是全部项的集合; 数据集D是事务的集合,包含N个事务; D中每个事务T是项的集合,使得T包含于 I; 每个事务有一个标识符,称为TID。
Apriori算法应用(2)
政务问答数据集D
Apriori算法应用(3)
频繁项集的发现过程
Apriori算法应用(4)
关联规则的生成
Apriori算法应用(5)
• • • • • 商业领域 网络安全领域 学生管理系统 移动通信领域 ……
Apriori算法及应用
关联分析ຫໍສະໝຸດ Baidu的一些基本概念
• 项集(itemset):包含0个或多个项的集合 • K-项集:一个包含K个数据项的项集 • 支持度计数(support count):一个项集的 出现次数就是整个数据集中包含该项集的 事务数。(支持度) • 频繁项集:若一个项集的支持度大于等于 某个阈值