关联规则基本概念-Read
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则基本概念
设I={i 1,i 2,…i m }是项的集合。设任务相关的数据D 是数据库事务的集合,其中每个事务T 是项的集合,使得I T ⊆。每个事务有一个标识符,称作TID 。设A 是一个项集,事务T 包含A 当且仅当T A ⊆。关联规则是诸如A ⇒B 的蕴涵式,其中I A ⊂,I B ⊂,并且φ=⋂B A 。
(1)支持度与置信度
规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性。规则A ⇒B 在事务级中D 中成立,具有支持度s ,其中s 是D 中事务包含B A ⋃(即A 和B 二者)的百分比,它是概率)(B A P ⋃。规则A ⇒B 在事务集中具有置信度c ,其中D 中包含A 的事务同时也包含B 的百分比是c 。这是条件概率)(A B P 。即是
)()(sup B A P B A port ⋃=⇒ (7.21)
即:关联模式的支持度是模式为真的任务相关的元组(或事务)所占的百分比。对于关联规则 A ⇒B (其中A 和B 是项目的集合),支持度定义为:
元组总数
的元组数和包含)支持度(B A =⇒B A )()(A B P B A confidence =⇒ (7.22)
即:每个发现模式都应当由一个表示其有效性或“值得信赖性”的确定性度量。对于关联规则A ⇒B (其中A 和B 是项目的集合),其确定性度量置信度定义为:
()的元组数
包含的元组数和包含置信度A B A B A =⇒ 同时满足最小支持度阈值(min_sup )和最小置信度阈值(min_conf )的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。
如果我们想象全域是商品的集合,则每种商品有一个布尔变量,表示该商品的有无。每个篮子则可用一个布尔向量表示。可以分析布尔向量,得到反映商品频繁关联或同时购买的购买模式。这些模式可以用关联规则的形式表示。例如,购买计算机也趋向于同时购买财务管理软件可以用以下关联规则表示:
computer ⇒financial_management_software[support=2%,confidence=60%]
上面关联规则的支持度2%意味分析中的全部事务的2%同时购买计算机和购买财务管理软件,置信度60%以为购买计算机的顾客60%也购买财务管理软件。如果关联规则满足最小支持度阈值和最小值信度阈值,则这个关联规则被认为是有趣的。这些阈值可以由用户或领域专家设定。
(2)期望可信度(c e )
设D 中有e%的事务支持项集B ,e%称为关联规则A ⇒B 的期望可信度。期望可信度描述了在没有任何条件影响时,项集B 在所有事务中出现的概率有多大。如果某天共有1000个顾客到商场购买商品,其中有200个顾客购买了冰箱,则上述的关联规则的期望可信度就是20%。
(3)作用度(lift )
作用度是置信度与期望可信度的比值。作用度描述项集A 的出现对项集B 的出现有多大的影响。因为项集B 在所有事务中出现的概率是期望可信度;而项集B 在项集A 出现的事务中出现的概率是置信度,通过置信度对期望可信度的比值反映了在加入“项集A 出现”的这个条件后,项集B 的出现概率发生了多大的变化。在上例中,如果购买微波炉的顾客70%也购买冰箱,则所用度就是5.3%20%70=。
用P(A)表示事务中出现项集A 的概率,)(A B P 表示在出现项集A 的事务中出现B 的概率,则以上四个参数可用公式表示,如表7.7所示:
表7.7 各参数的含义及计算公式
置信度是对关联规则准确度的测量,支持度是对关联规则重要性的衡量。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。有些关联规则虽然置信度很高,但支持度却很低,说明关联规则实用的机会很小,因此也不重要。
期望可信度描述了在没有项集A 的作用下,项集B 本身的支持度;作用度描述了项集A 对项集B 的影响力的大小。作用度越大,说明项集B 受项集A 的影响越大。一般情况下,有用的关联规则的作用度都应该大于1,只有关联规则的置信度大于期望可信度,才说明了A 的出现对B 的出现有促进作用,也说明了它们之间某种程度的相关性,如果作用度不大于1,则此关联规则就没有意义了。
项的集合称为项集(itemset ),包含k 个项的项集称为k-项集。集合{computer, financial_management_software}是一个2-项集。项集的出现频率是包含项集的事务数,简称项集的频率、支持计数或计数。如果项集的出现频率大于等于min_sup 与D 中事务总数的乘积,项集满足最小支持度min_sup 。如果项集满足最小支持度,则称它为频繁项集。频繁k-项集的集合通常记作L 。
“如何由大型数据库挖掘关联规则?”关联规则的挖掘是一个两步的过程:
1)找出所有频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持度计数一样。
2)由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。
如果愿意,也可以使用附加的兴趣度度量。这两步中,第二步是在第一步的基础上进行的,工作量非常小。关联规则的总体性能由第一步决定。