习题3(第三章关联规则挖掘)

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

习题3（第三章关联规则挖掘） 1.

给出一个小例子表明强关联规则中的项实际上可能是负相关的。 2.

对于下面的每个问题，提供一个与市场有关的关联规则的例子，并描述这种关联规则是否是人们感兴趣的。 (a) 一个具有高支持度和高置信度的关联规则； (b) 一个具有理论上高支持度但低置信度的关联规则； (c) 一个具有低支持度和低置信度的关联规则； (d) 一个具有支持度但是高置信度的关联规则； 3.

假定大型事务数据库DB 的频繁项集已经存储，讨论：如果新的事务集∆DB 加入，在相同的最小支持度阈值下，如何有效的挖掘全局关联规则？ 4.

考虑下面的频繁-3项集的集合： {1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5} 假定数据集中只有5个项。 (a) 列出采用F K-1ⅹF 1合并策略，由候选产生过程得到的所有候选4-项集。 (b) 列出由Apriori 算法的候选产生过程得到的所有候选4-项集。 (c) 列出Apriori 算法候选剪枝步骤后剩下的所有候选4-项集。 5.

(a) 在item_category 粒度(例如，item 可以是“Milk ”)，对于下面的规则模板：

∀X ∈transaction,buys(X,item 1)∧buys(X,item 2)⟹buys(X,item 3) [s,c]

对最大的k ，列出频繁k 项集和包含最大的k 项集的所有强关联规则(包含它们的支持度s 和置信度c)。

(b) 在brand-item_category 粒度(例如，item i 可以是“Sunset-Milk ”)，对于下面的规则

模板：

∀X ∈customer,buys(X,item 1)∧buys(X,item 2)⟹buys(X,item 3)

对最大的k ，列出频繁k 项集（但不输出任何规则）。 6. 假设一个大型商店具有分布在4个站点的事务数据库。每个成员数据库中的事务具有相

同的格式T j :{ i 1,…,i m }；其中，T j 是事务标识符，而i k (1≤i ≤k )是事务中购买的商品的标识符。提出一个有效的算法，挖掘全局关联规则(不考虑多层关联)。你可以给出算法的要点。算法不必将所有的数据移到一个站点，并且不造成过度的网络通信开销。

7. 关联规则常常产生大量规则。讨论可以用来减少所产生规则的数量并且仍然保留大部分

有趣规则的有效方法。

8. 下面的相依表汇总了超级市场的事务数据。其中，hot dogs 表示包含热狗的事务，

hot dogs ̅̅̅̅̅̅̅̅̅̅̅表示不包含热狗的事务，hamburgers 表示包含汉堡包的事务， hamburgers ̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅表示

(a)25%，最

小置信度阀值50%，该关联规则是强关联规则吗？

(b)根据给定的数据，买hot dogs独立于买humburgers吗？如果不是，二者之间存在何

种相关关系。

9.Apriori算法用一个hash树数据结构有效地计算候选项集的支持度，考虑下面的候选3-

项集的hash树，

(a)现有一个事务包含(1,3,4,5,8)，当寻找该事务的候选项集时，哪些叶子节点将被访

问？

采用(a)中找到的叶子节点确定包含在事务{1,3,4,5,8}中的候选项集。

10.证明从包含d个项的数据集提取的可能规则总数是：

R=3d-2d+1+1

提示：首先，计算创建形成规则左部项集的方法数；然后，对每个选定为规则左部的k 项集，计算选择剩下的d-k个项形成规则右部的方法数。