数据挖掘作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据挖掘作业
作业⼀:
1. 给出⼀个例⼦,其中数据挖掘对于商务的成功是⾄关重要的。
该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
答:1)Yahoo!通过对⽤户使⽤⾏为的意外模式分析,发现在每次会话中,⼈们
阅读邮件和阅读新闻的⾏为之间存在很强的相关关系。
Yahoo!电⼦邮箱产品⼩组验证了这种关系的影响:在⼀组测试⽤户的邮箱⾸页上显⽰⼀个新闻模块,其中的新闻标题被醒⽬显⽰。
⽤户的流失率显著下降,实际上,在这次试验中,最弱的⼀组流失率下降了40%!于是Yahoo!⽴刻开发并完善了新闻模块,并嵌⼊Yahoo!电⼦邮箱的⾸页,到现在,上亿的消费者都可以看到并使⽤这种产品。
可见,数据挖掘对商务的成功是⾄关重要的。
2)该商务应⽤了关联规则数据挖掘功能。
3)⽤于数据或信息检索的数据查询处理不具有发现关联规则能⼒。
同样,简单的统计分析不能处理⼤量的数据。
2. 使⽤你熟悉的⽣活中的数据库,给出关联规则挖掘、序列模式分析、分类、聚类、孤⽴点分析等数据挖掘功能的例⼦。
答:关联规则挖掘的例⼦:如果顾客买了尿⽚与⽜奶,他很可能买啤酒。
把啤酒放在尿⽚的附近。
序列模式分析的例⼦:买了喷墨打印机的的顾客中,80%的⼈三个⽉后⼜买了墨盒。
分类数据挖掘功能的例⼦:信⽤卡发放
聚类数据挖掘功能的分析:⼈脸识别
孤⽴点分析的例⼦:信⽤卡公司需要检测⼤量的⽀付⾏为。
可以利⽤⽀付⾏为中的地点、⽀付类型以及⽀付频率等信息检测出孤⽴点。
3. 与挖掘少量数据相⽐,挖掘海量数据的挑战有哪些?
答:1)规模⼤
⾼效算法, 并⾏处理
2)⾼维特性
导致搜索空间指数级的增长,维度约减
3)过拟合
因过分强调对训练样本的效果导致过度拟合,使得对未知预测样本效果就会变差
4)动态、缺失、噪⾳数据
5)领域知识的运⽤
6)模式的可理解性
2.4 假设医院对18个随机挑选的成年⼈检查年龄和⾝体肥胖,得到如下结果:
(a) 计算age 和%fat 的均值、中位数和标准差。
(b) 绘制age 和%fat 的盒图。
(c) 绘制基于这两个变量的散点图和q-q 图。
答:
22222222)4656()4654())4654()4652()4650()4649()4647(-+-+-+-+-+-+-+94.174])4661()4660()4658()4658()4657(22222=-+-+-+-+-+
2222222)8.284.33()8.288.28()8.285.42()8.286.34()8.282.31()8.282.27()8.284.27(-+-+-+-+-+-+-
+6.85])8.287.35()8.282.41()8.289.32()8.281.34()8.282.30(22222=-+-+-+-+-+
(b)
age: Q 1=39 ,Q 3=57, IQR=57-39=18 1.5IQR=27, (39-27, 57+27)=(11, 84)
%fat: Q 1=26.5, Q 3=34.1, IQR=34.1-26.5=7.6 1.5IQR=11.4,
(26.5-11.4, 34.1+11.4)=(15.1, 45.5)
(c)
散点图:
q-q图:。