西安交大数据挖掘第一次作业
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第一次作业
Weihua Wang 1.给出一个例子,其中数据挖掘对于商务的成功是至关重要的。
该商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?
答: 亚马逊在线交易平台上的数据挖掘,显示出数据挖掘对于商务的成功是至关重要的。该商务需要统计交易用户的消费信息,对用户进行分类;
根据用户的历史消费信息,给出推荐广告,并定期往用户邮箱发送商品推荐邮件等等。
该商务应用了关联规则数据挖掘功能。
数据挖掘是一个非常重要且复杂的模块,要发现数据间的关联规则,不可能通过简单的数据查询处理或者简单的统计分析实现。亚马逊有非常大的数据库,然后也会有各种各样的数据分析包括会跟很多的出版社还有一些中间商建立合作,然后会帮助他们去做书籍的整理、销售,就是客户满意度。
所以,数据量很大,然后亚马逊还需要通过这些数据去挖掘一些对于客户,对于用户有指导性的数据,他们建立的复杂的系统去分析这些数据。
2.使用你熟悉的生活中的数据库,给出关联规则挖掘、序列模
式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。
1)关联规则挖掘
超市货架的商品摆放:方便面--->火腿肠(大部分人买方便面的同时会买火腿肠)。
2)序列模式分析
可口可乐公司根据往年月份销售额的分析,给出不同季节的生产量。
3)分类
移动公司根据用户的话费和缴费情况等信息,将用户分为不同的等级的
用户,给予不同的透支欠费额度。
4) 聚类
研究人员通过对全国各省份经济的分析,将全国经济大致划分为三种不同的经济类型。
5) 孤立点分析
税务部门根据纳税户的相关数据,重点调查孤立点的纳税情况。
3. 与挖掘少量数据相比,挖掘海量数据的挑战有哪些?
a) 规模大。需要高效算法, 进行并行处理。
b) 高维特征。导致搜索空间指数级增长,需要更好的算法进行维度约减。 c) 过拟合。因过分强调对训练样本的效果导致过度拟合,使得对未知预测
样本效果就会变差。
d) 动态、缺失、噪音数据的存在。
e) 领域知识的运用。
f) 模式的可理解性。
4. 假设医院对18个随机挑选的成年人检查年龄和身体肥胖,得
到如下结果:
a) 计算age 和%fat 的均值、中位数和标准差。
232272394147495052/184654256575826061AgeAve ⨯+⨯+++++++⎛⎫ ⎪⎝⎭
==⨯+++⨯++ 9.526.57.817.831.425.927.4%27.231.234.642.528.833.4/1828.8
30.234.132.941.235.7fatAve ⎛⎫ ⎪ ⎪ ++++++=++++++=+++++⎪⎝⎭
()5052/251AgeMid =+=
()
fatMid=+=
%30.231.2/230.7
AgeS==
=
13.23
b)绘制age和%fat的盒图。
age: Q1=39 ,Q3=57, IQR=57-39=18,1.5IQR=27,
(39-27, 57+27)=(12, 84)
%fat: Q1=26.5, Q3=34.1, IQR=34.1-26.5=7.6, 1.5IQR=11.4,
(26.5-11.4, 34.1+11.4)=(15.1, 45.5)
c)绘制基于这两个变量的散点图和q-q图。
散点图:
q-q图: