习题3(第三章关联规则挖掘)

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

习题3(第三章 关联规则挖掘) 1.

给出一个小例子表明强关联规则中的项实际上可能是负相关的。 2.

对于下面的每个问题,提供一个与市场有关的关联规则的例子,并描述这种关联规则是否是人们感兴趣的。 (a) 一个具有高支持度和高置信度的关联规则; (b) 一个具有理论上高支持度但低置信度的关联规则; (c) 一个具有低支持度和低置信度的关联规则; (d) 一个具有支持度但是高置信度的关联规则; 3.

假定大型事务数据库DB 的频繁项集已经存储,讨论:如果新的事务集∆DB 加入,在相同的最小支持度阈值下,如何有效的挖掘全局关联规则? 4.

考虑下面的频繁-3项集的集合: {1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5} 假定数据集中只有5个项。 (a) 列出采用F K-1ⅹF 1合并策略,由候选产生过程得到的所有候选4-项集。 (b) 列出由Apriori 算法的候选产生过程得到的所有候选4-项集。 (c) 列出Apriori 算法候选剪枝步骤后剩下的所有候选4-项集。 5.

(a) 在item_category 粒度(例如,item 可以是“Milk ”),对于下面的规则模板:

∀X ∈transaction,buys(X,item 1)∧buys(X,item 2)⟹buys(X,item 3) [s,c]

对最大的k ,列出频繁k 项集和包含最大的k 项集的所有强关联规则(包含它们的支持度s 和置信度c)。

(b) 在brand-item_category 粒度(例如,item i 可以是“Sunset-Milk ”),对于下面的规则

模板:

∀X ∈customer,buys(X,item 1)∧buys(X,item 2)⟹buys(X,item 3)

对最大的k ,列出频繁k 项集(但不输出任何规则)。 6. 假设一个大型商店具有分布在4个站点的事务数据库。每个成员数据库中的事务具有相

同的格式T j :{ i 1,…,i m };其中,T j 是事务标识符,而i k (1≤i ≤k )是事务中购买的商品的标识符。提出一个有效的算法,挖掘全局关联规则(不考虑多层关联)。你可以给出算法的要点。算法不必将所有的数据移到一个站点,并且不造成过度的网络通信开销。

7. 关联规则常常产生大量规则。讨论可以用来减少所产生规则的数量并且仍然保留大部分

有趣规则的有效方法。

8. 下面的相依表汇总了超级市场的事务数据。其中,hot dogs 表示包含热狗的事务,

hot dogs ̅̅̅̅̅̅̅̅̅̅̅表示不包含热狗的事务,hamburgers 表示包含汉堡包的事务, hamburgers ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅表示

(a)25%,最

小置信度阀值50%,该关联规则是强关联规则吗?

(b)根据给定的数据,买hot dogs独立于买humburgers吗?如果不是,二者之间存在何

种相关关系。

9.Apriori算法用一个hash树数据结构有效地计算候选项集的支持度,考虑下面的候选3-

项集的hash树,

(a)现有一个事务包含(1,3,4,5,8),当寻找该事务的候选项集时,哪些叶子节点将被访

问?

采用(a)中找到的叶子节点确定包含在事务{1,3,4,5,8}中的候选项集。

10.证明从包含d个项的数据集提取的可能规则总数是:

R=3d-2d+1+1

提示:首先,计算创建形成规则左部项集的方法数;然后,对每个选定为规则左部的k 项集,计算选择剩下的d-k个项形成规则右部的方法数。

相关文档
最新文档