电子科大数据挖掘作业1-6
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘课后习题
数据挖掘作业1——6
第一章绪论
1)数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。
1、关系数据库
2、数据仓库
3、事务数据库
4、高级数据库系统和数据库应用如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是 Web 数据信息。
实际生活的例子:
①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所开通的服务等,据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文学家发现其他未知星体。
③市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。
2)给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么
样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
以一个百货公司为例,它可以应用数据挖掘来帮助其进行目标市场营销。运用数据挖掘功能例如关联规则挖掘,百货公司可以根据销售记录挖掘出强关联规则,来诀定哪一类商品是消费者在购买某一类商品的同时,很有可能去购买的,从而促使百货公司进行目标市场营销。数据查询处理主要用于数据或信息检索,没有发现关联规则的方法。同样地,简单的统计分析没有能力处理像百货公司销售记录这样的大规模数据。
第二章数据仓库和OLAP技术
1)简述数据立方体的概念、多维数据模型上的OLAP操作。
●数据立方体
数据立方体是二维表格的多维扩展,如同几何学中立方体是正方形的三维扩展一样,是一类多维矩阵,让用户从多个角度探索和
分析数据集,通常是一次同时考虑三个维度。数据立方体提供数据
的多维视图,并允许预计算和快速访问汇总数据。
●多维数据模型上的OLAP操作
a)上卷(roll-up):汇总数据
通过一个维的概念分层向上攀升或者通过维规约
b)下卷(drill-down):上卷的逆操作
由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现
c)切片和切块(slice and dice)
投影和选择操作
d)转轴(pivot)
立方体的重定位,可视化,或将一个3维立方体转化为一个2维平面序列
2)OLAP多维分析如何辅助决策?举例说明。
OLAP是在多维数据结构上进行数据分析的,一般在多维数据上切片、切块成简单数据来进行分析,或是上卷、下卷来分析。OLAP要查询
大量的日常商业信息,以及大量的商业活动变化情况,如每周购买量的
变化值,经理通过查询变化值来做决策。
例如经理看到利润小于预计值是,就会去深入到各地区去查看产品利润情况,这样他会发现一些比较异常的数据。经过进一步的分析和追
踪查询可以发现问题并解决
3)举例说明OLAP的多维数据分析的切片操作。
切片就是在某两个维上取一定区间的维成员或全部维成员。
如用三维数组表示为(地区,时间,产品,销售额),如果在地区维度上选定一个维成员,就可以得到在该地区的一个切片(关于时间和产
品的切片)。
第三章数据预处理
1)假定用于分析的数据包含属性 age,数据元组中 age 的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35 ,36,40,45,46,52,70。
(a)使用按箱平均值平滑对以上数据进行平滑,箱的深度为 3。解释你的步
骤。评论对于给定的数据,该技术的效果。
已知数据元组中 age 的值如下(按递增序):
13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35, 35,35,35,36,40,45,46,52,70,
且箱的深度为 3,划分为(等频)箱:
箱 1: 13,15,16
箱 2: 16,19,20
箱 3: 20,21,22
箱 4: 22,25,25
箱 5: 25,25,30
箱 6: 33,33,33
箱 7: 35,35,35
箱 8: 35,36,40
箱 9: 45,46,52
箱 10: 70
用箱均值光滑:
箱 1: 15,15,15
箱 2: 18,18,18
箱 3: 21,21,21
箱 4: 24,24,24
箱 5: 27,27,37
箱 6: 33,33,33
箱 7: 35,35,35
箱 8: 37,37,37
箱 9: 48,48,48
箱 10: 70
(b)对于数据平滑,还有哪些其它方法?
(1)回归:可以用一个函数(如回归函数)拟合数据来光滑数据;
(2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直
观地,落在簇集合之外的值视为离群点。
2)使用习题1)给出的 age 数据,回答以下问题:
3)(a) 使用 min-max 规范化,将 age 值 35 转换到[0.0, 1.0]区间。
已知最大值为 70,最小值为 13,则可将 35 规范化为:
(b) 使用z-score规范化转换age值35,其中,age的标准偏差为12.94 年。
已知均值为 30,标准差为 12.94,则可将 35 规范化为:
(c) 使用小数定标规范化转换 age 值 35。
使用小数定标规范化可将 35 规范化为:
(d) 指出对于给定的数据,你愿意使用哪种方法。陈述你的理由。
对于给定的数据,你愿意使用 min-max 规范化。
理由是计算简单。
4)以下是一个商场所销售商品的价格清单(按递增顺序排列,括号中的数表示
前面数字出现次数)1(2)、 5(5)、 8(2)、 10(4)、 12、 14(3)、 15(5)、18(8)、 20(7)、 21(4)、 25(5)、 28、 30(3)。请分别用等宽的方法和等高的方法对上面的数据集进行划分。
(1) 等宽方法:划分为3个数据集,每个数据集的宽度为价格10。价
格在1—10之间出现次数为13;价格在11—20之间出现的次数为24;价格在21—30之间出现的次数为13。
(2) 等高方法:划分为2个数据集,每个数据集的高度为出现的次数 4。
出现次数1—4之间的价格为1、8、10、12、14、21、28、 30,共 8 个数据;出现次数5—8之间的价格为5、15、18、20、25,共5个数据。
第四章关联规则
1)考虑如下的频繁3-项集: {1, 2, 3}, {1, 2, 4}, {1, 2, 5}, {1, 3,
4}, {1, 3, 5}, {2, 3, 4},{2, 3, 5}, {3, 4, 5}。
(a)根据 Apriori 算法的候选项集生成方法,写出利用频繁 3-项集生成的
所有候选 4-项集。
{1,2,3,4}; {1,2,3,5}; {1,2,4,5}; {1,3,4,5}; {2,3,4,5}
(b)写出经过剪枝后的所有候选 4-项集.
{1,2,3,4}; {1,2,3,5};