第6章大数据分析与挖掘习题答案

合集下载

相关主题

（1）请阐述什么是大数据分析。

大数据分析的主要任务主要有：第一类是预测任务，目标是根据某些属性的值，预测另外一些特定属性的值。

被预测的属性一般称为目标变量或因变量，被用来做预测的属性称为解释变量和自变量；第二类是描述任务，目标是导出概括数据中潜在联系的模式，包括相关、趋势、聚类、轨迹和异常等。

描述性任务通常是探查性的，常常需要后处理技术来验证和解释结果。

具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。

（2）大数据分析的类型有哪些？
大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。

（3）举例两种数据挖掘的应用场景？
（1）电子邮件系统中垃圾邮件的判断
电子邮件系统判断一封Email是否属于垃圾邮件。

这应该属于文本挖掘的范畴，通常会采用朴素贝叶斯的方法进行判别。

它的主要原理就是，根据电子邮件中的词汇，是否经常出现在垃圾邮件中进行判断。

例如，如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时，该邮件被判定为垃圾邮件的概率将会比较大。

（2）金融领域中金融产品的推广营销
针对商业银行中的零售客户进行细分，基于零售客户的特征变量（人口特征、资产特征、负债特征、结算特征），计算客户之间的距离。

然后，按照距离的远近，把相似的客户聚集为一类，从而有效地细分客户。

将全体客户划分为诸如：理财偏好者、基金偏好者、活期偏好者、国债偏好者等。

其目的在于识别不同的客户群体，然后针对不同的客户群体，精准地进行产品设计和推送，从而节约营销成本，提高营销效率。

（4）简述数据挖掘的分类算法及应用。

K-Means算法也叫作k均值聚类算法，它是最著名的划分聚类算法，由于简洁和效率使得它成为所有聚类算法中最广泛使用的。

决策树算法是一种能解决分类或回归问题的机器学习算法，它是一种典型的分类方法，最早产生于上世纪60年代。

决策树算法首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析，因此在本质上决策树是通过一系列规则对数据进行分类的过程。

KNN算法也叫作K最近邻算法，是数据挖掘分类技术中最简单的方法之一。

所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象，是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。

神经网络可以指向两种，一个是生物神经网络，一个是人工神经网络。

在这里专指人工神经网络。

它是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。

第6章 大数据分析与挖掘习题答案