数据挖掘导论第六章中文答案

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第六章数据挖掘导论

1。对于每个下列问题,提供一个关联规则的一个例子

从市场购物篮域,满足下列条件。同样,

这些规则是主观地描述是否有趣。

(一)一个规则,具有较高的支持和高的信心。

答:牛奶?→面包。这种明显的规则往往是无趣的。

(b)规则,有相当高的支持,但信心不足。

答:牛奶?→金枪鱼。而出售金枪鱼和牛奶可能是

高于阈值,并不是所有的事务,包含牛奶

也包含金枪鱼。这种低规则往往是无趣的。

(c)一个规则,低的支持和信心不足。

答:食用油?→洗衣粉。如此低的信心规则

往往是无趣的。

(d)规则,低支持和高的信心。

答:伏特加?→鱼子酱。这样的规则往往是有趣的

2。考虑到数据集显示于表格。

(一)计算支持项集{ e },{ b、d },{ b、d、e }通过治疗

每个事务ID作为一个市场购物篮。

答:

(b) Use the results in part (a) to compute the confidence for the association

rules {b, d} ?→ {e} and {e} ?→ {b, d}. Is confidence a symmetric

measure?

c、重复部分(一)通过将每个客户ID作为一个市场购物篮。每个项目应被视为一个二进制变量(1如果一个项目出现在至少有一个交易购买的顾客,和0否则。)

d

e 没有明显关系s1,s2,c1和c2

所以c2有最低的置信度

4、

因为年代(A,B,C)≤年代(A,B)和max(s(一个),s(B),s(C))≥max(s(一个),s(B)), 因此ζ({ A、B })≥ζ({ A,B,C })。

(b)

因为s(A,B,C)≤s(A,B)和最小(s(A,B),s(A,C),s(B,C))≤min(s(一个),s(B),s(C))

≤min(s(一个),s(B))、η({ A,B,C })可以大于或小于η({ A、B })。

因此,这些措施是单调。

(一)的最大数量,可以提取关联规则

从这个数据(包括规则,零支持)?

答:有六项数据集。因此总

规则的数量是602。

(b)什么是频繁项集的最大大小,可以提取

(假设用来> 0)?

答:因为最长的事务包含4项,最大

频繁项集的大小是4。

(c)编写一个表达式最大数量的大小3项集,

可以源自这个数据集。

答:

(d)找到itemset(大小为2或更大),拥有最大的支持。

答:{面包、黄油}。

(e)找到一双项目,a和b,这样的规则{一}?→{ b }和

{ b }?→{一}有同样的信心。

答:(啤酒,饼干)或(面包、黄油)。

比例的频繁项集= 16/32 = %(包括null 设置)。

修剪比率的比例是N的总数量的项目集。因为的计数N = 11,因此修剪比例是11/32 = %。误警率的比值我总数量的项目集。因为计数的我= 5,因此误警率是5/32 = %。

相关文档
最新文档