数据挖掘第二讲作业
数据挖掘作业2
数据挖掘作业21. 引言数据挖掘是一种从大量数据中发现、提取和分析有用信息的过程。
本文旨在探讨数据挖掘作业2的相关内容,包括数据集选择、数据预处理、特征选择和模型建立等。
2. 数据集选择在数据挖掘作业2中,我们选择了一个涉及电子商务的数据集。
该数据集包含了用户的购买记录、产品信息、用户评价等多个维度的数据。
通过对该数据集的挖掘,我们希望能够发现用户的购买偏好、产品的销售趋势等有价值的信息。
3. 数据预处理在进行数据挖掘之前,我们需要对数据进行预处理,以确保数据的质量和可用性。
首先,我们对数据进行清洗,去除缺失值和异常值。
然后,我们对数据进行归一化处理,以消除不同特征之间的量纲差异。
最后,我们对数据进行采样,以减少计算复杂度并保持数据的代表性。
4. 特征选择特征选择是数据挖掘的重要步骤,旨在从原始特征中选择出最具有预测能力的特征。
在数据挖掘作业2中,我们采用了信息增益和相关系数等方法来评估特征的重要性,并选择出了与目标变量相关性较高的特征。
此外,我们还进行了特征的降维处理,以减少特征空间的维度。
5. 模型建立在数据挖掘作业2中,我们选择了决策树算法作为模型建立的方法。
决策树是一种基于树状结构的分类模型,通过对特征进行逐步划分,最终得到一个可以对新样本进行分类的模型。
我们使用了ID3算法来构建决策树模型,并通过交叉验证的方法对模型进行评估和调优。
6. 模型评估为了评估模型的性能,我们采用了准确率、召回率、F1值等指标来衡量模型的分类效果。
此外,我们还使用了混淆矩阵来展示模型的分类结果,并计算了ROC曲线下的面积(AUC)来评估模型的整体性能。
7. 结果分析通过对数据挖掘作业2的实验和分析,我们得到了一些有价值的结论。
首先,我们发现用户对某一类产品的购买意愿与其评价的积极程度呈正相关关系。
其次,我们发现某些产品的销售量与其价格呈负相关关系,即价格越高,销售量越低。
最后,我们通过决策树模型对用户的购买行为进行了预测,并取得了较好的分类效果。
数据挖掘作业2
数据挖掘作业2数据挖掘作业2:预测用户购买行为1. 引言在电子商务领域,了解用户的购买行为对于企业制定营销策略和提高销售业绩至关重要。
数据挖掘技术可以帮助企业从大量的用户数据中发现隐藏的模式和规律,进而预测用户的购买行为。
本文将使用数据挖掘技术,基于给定的用户购买历史数据,建立一个预测模型,以预测用户是否会购买某个产品。
2. 数据收集与预处理为了建立预测模型,我们首先需要收集用户的购买历史数据。
数据可以包括用户的基本信息(如性别、年龄、地区等)和购买记录(如购买时间、购买金额等)。
在收集到数据后,我们需要对数据进行预处理,包括数据清洗、数据集成、数据变换和数据规约等步骤。
数据清洗包括处理缺失值、异常值和重复值等;数据集成将多个数据源进行整合;数据变换可以对数据进行归一化、标准化或离散化处理;数据规约可以通过抽样或维度约简等方法减少数据的规模。
3. 特征选择与提取特征选择是从大量的特征中选择出对于预测目标有用的特征。
我们可以使用相关性分析、信息增益、卡方检验等方法进行特征选择。
特征提取是通过对原始数据进行变换,从中提取出新的特征。
常用的特征提取方法包括主成分分析、因子分析和独立成分分析等。
在本任务中,我们可以根据用户的购买历史数据提取出一些特征,如用户的购买频次、购买金额的平均值和方差等。
4. 模型选择与建立在数据预处理和特征提取完成后,我们可以选择适合的预测模型进行建立。
常用的预测模型包括决策树、支持向量机、神经网络和朴素贝叶斯等。
在本任务中,我们可以使用逻辑回归模型进行建模。
逻辑回归模型是一种分类模型,可以将输入特征映射到一个概率值,表示用户购买的可能性。
在建立模型时,我们需要将数据集分为训练集和测试集,用训练集训练模型,并用测试集评估模型的性能。
5. 模型评估与优化在模型建立完成后,我们需要对模型进行评估和优化。
常用的模型评估指标包括准确率、精确率、召回率和F1值等。
我们可以使用交叉验证方法对模型进行评估,通过调整模型的参数和特征,进一步优化模型的性能。
数据挖掘作业2
数据挖掘作业2一、任务背景数据挖掘是一种通过发现和分析大量数据中的模式和关联来提取有用信息的过程。
数据挖掘技术在各个领域中得到广泛应用,例如市场营销、金融风险管理、医疗诊断等。
本次数据挖掘作业2旨在通过使用机器学习算法对给定的数据集进行分析和预测,以解决一个实际问题。
二、任务描述本次数据挖掘作业2的任务是基于一个电信公司的客户数据集,构建一个客户流失预测模型。
客户流失是指客户停止使用某个产品或服务的情况,对于电信公司来说,客户流失可能导致业务下降和收入减少。
因此,通过预测客户流失,电信公司可以采取相应的措施来留住客户,提高客户忠诚度。
三、数据集介绍本次任务使用的数据集包含了一些客户的个人信息、合同信息、付款信息等。
数据集中的每一行代表一个客户的信息,每一列代表一个特征。
数据集中包含了以下特征:1. 客户ID:每个客户的唯一标识符。
2. 性别:客户的性别,可能取值为男或女。
3. 年龄:客户的年龄,以岁为单位。
4. 合作伙伴:客户是否有合作伙伴,可能取值为有或无。
5. 好友:客户是否有好友,可能取值为有或无。
6. 月租费:客户每月支付的费用,以美元为单位。
7. 总消费:客户总共支付的费用,以美元为单位。
8. 在网时间:客户使用该服务的时间,以月为单位。
9. 流失:客户是否已经流失,可能取值为是或否。
四、数据挖掘流程1. 数据预处理:a. 导入数据集:读取数据集,并查看数据的基本信息,如数据类型、缺失值情况等。
b. 数据清洗:处理数据中的缺失值、异常值等问题,确保数据的质量。
c. 特征选择:根据领域知识和特征相关性等方法,选择对预测客户流失有重要影响的特征。
d. 数据转换:对数据进行标准化、归一化等处理,以便于模型的训练和预测。
2. 模型训练:a. 划分数据集:将数据集划分为训练集和测试集,通常采用70%的数据作为训练集,30%的数据作为测试集。
b. 选择模型:根据任务的特点和需求,选择适合的机器学习算法,如逻辑回归、决策树、支持向量机等。
数据挖掘2
©Inner Tan,Steinbach, Kumar Mongolia University wei wu
Attrription
The values of a nominal attribute are just different names, i.e., nominal attributes provide only enough information to distinguish one object from another. (=, )
5 A B 7 C 8 3 2 1
D 10 4
E
15
5
©Inner Tan,Steinbach, Kumar Mongolia University wei wu
Introduction to Data Mining
4/18/2004
‹#› 2016
Types of Attributes
There are different types of attributes
Data Mining: Data
Lecture Notes for Chapter 2 Introduction to Data Mining
©Inner Tan,Steinbach, Kumar Mongolia University wei wu
Introduction to Data Mining
– Nominal
Examples: ID numbers, eye color, zip codes
Examples: rankings (e.g., taste of potato chips on a scale from 1-10), grades, height in {tall, medium, short} Examples: calendar dates, temperatures in Celsius or Fahrenheit. Examples: temperature in Kelvin, length, time, counts
数据挖掘作业2
数据挖掘作业2数据挖掘作业2:文本分类一、引言文本分类是数据挖掘中的一项重要任务,它的目标是将文本按照预定义的类别进行分类。
本文将介绍文本分类的背景和意义,并详细阐述文本分类的标准格式。
二、背景和意义随着互联网的发展,海量的文本数据被广泛应用于各个领域,如情感分析、垃圾邮件过滤、新闻分类等。
而文本分类作为文本数据处理的基础任务,具有重要的实际意义。
通过对文本进行分类,可以帮助人们快速获取所需信息,提高工作效率和决策能力。
三、文本分类的标准格式1. 数据准备在进行文本分类之前,需要准备好标注好类别的文本数据集。
数据集应包含两部分:文本内容和对应的类别标签。
文本内容可以是一段文字、一篇文章或一封邮件等。
类别标签可以是预定义的类别,如“体育”、“科技”、“娱乐”等。
2. 特征提取特征提取是文本分类的关键步骤。
通过将文本转化为可计算的特征向量,可以方便地进行后续的分类操作。
常用的特征提取方法有词袋模型、TF-IDF、词嵌入等。
在选择特征提取方法时,需要考虑文本的语言特点、数据集的规模和分类任务的要求。
3. 数据预处理在进行特征提取之前,需要对原始文本进行预处理。
预处理包括去除停用词、标点符号和数字,进行词干化或词形还原等操作。
预处理的目的是减少噪声和数据维度,提高分类的准确性和效率。
4. 模型选择选择合适的分类模型对文本进行分类。
常用的文本分类模型有朴素贝叶斯、支持向量机、深度学习模型等。
在选择模型时,需要考虑数据集的规模、特征的稀疏性、分类任务的复杂度等因素。
5. 模型训练和评估使用标注好的文本数据集对选择的模型进行训练,并评估模型的性能。
常用的评估指标有准确率、精确率、召回率、F1值等。
通过评估模型的性能,可以选择最优的模型或调整模型的参数,提高分类的准确性和泛化能力。
6. 模型应用将训练好的模型应用于未标注的文本数据进行分类。
通过模型的预测结果,可以对未知文本进行分类,实现自动化的文本分类任务。
四、总结文本分类是一项重要的数据挖掘任务,通过对文本进行分类,可以帮助人们快速获取所需信息。
数据仓库与数据挖掘习题课2
X 期中考 试 72 50 81 74 94 86 59 83 65 33 88 81
Y 期末考 试 84 63 77 78 90 75 49 79 77 52 74 90
解答6.14 解答6.14
(a)绘制数据图。X和Y看上去具有线性联系吗?
从散布图看有线性关系 (b)使用最小二乘法,求由学生的期中成绩预测学生的期末成绩的方 程式。 从数据中可以得到 |D|= 12; x = 866/12 = 72.167; y = 888/12 = 74. 使用公式(6.50) 和 (6.51), 得到w1 =0.5816 , w0 = 32.028. 因此,得到方程y = 32.028 + w1 , y 0.5816x,由学生的期中成绩就可以预测学生的期末成绩 (c)预测期中成绩为86分的学生的期末成绩。 使用(b)中得到的方程y = 32.028 + 0.5816x, 代入x=86得到y = 32.028 + (0.5816)(86) = 82.045. 因此预测期中成绩为86分的学生的期末成绩为82.045.
解答5.3 解答5.3
(ቤተ መጻሕፍቲ ባይዱ)
解答5.3(续) 解答5.3(续 5.3(
(a)
项头表 头表 Item frequency head k 5 e 4 m 3 o 3 y 3
解答5.3 (续) 解答5.3 (续
(a)
效率比较:Apriori算法的计算过程必须对数据库作多次 扫描,而FP-增长算法在构造过程中只需扫描一次数据库 ,再加上初始时为确定支持度递减排序的一次扫描,共 计只需两次扫描。由于在Apriori算法中的自身连接过程 产生候选项集,候选项集产生的计算代价非常高,而FP增长算法不需产生任何候选项。
数据挖掘第二章作业
数据挖掘第二章作业2.a)用AM和PM表示的时间离散的、定量的、区间的。
b)根据曝光表测出的亮度离散的、定量的、比率的。
c)根据人的判断测出的亮度连续的、定性的、序数的。
d)按度测出的0和360之间的角度离散的、定量的、比率的。
(可以是连续的,因为按度测出的角度值可以是实数值得属性)e)奥运会上授予的铜牌、银牌、和金牌离散的、定量的、比率的。
f)海拔高度连续的、定量的、比率的。
g)医院中的病人数离散的、定量的、比率的。
h)书的ISBN号(查找网上的格式)离散的、定性的、标称的。
i)用如下值表示的透光能力:不透明、半透明、透明离散的、定性的、序数的。
j)军衔离散的、定性的、序数的。
K)到校园中心的距离连续的、定量的、比率的。
l)用每立方厘米克表示的物质密度连续的、定量的、比率的。
m)外套寄存号码离散的、定性的、标称的。
14.用欧几里得度量来对这些大象进行比较或分组。
因为第一所有的属性测出的值都是数值性质的,并且根据取值规模的不同有很大的取值范围;其次同一对象的不同属性之间是没有什么关系的,所以不用相关性度量;再者在本题中每个对象的量值是重要的,而余弦相似度不考虑数据对象的量值;最后将属性值标准化成平均数为0,标准差为1后再应用欧几里得距离是适当的方法。
16.a)如果出现在一个文档中,tf’ij=tfij*log(m);如果出现在每个文档中,tf’ij=0;b)这个标准化反应了如果一个词出现在每一个文档中,那么就不能通过这个词来区分不同的文档,如果这个词出现的很少,那么就可以通过这个词来区分不同的文档。
18.a)x=010*******y=010*******汉明距离=3;f01=1; f10=2; f11=2;Jaccard相似度=2/(1+2+2)=0.4;b)汉明距离更相似于简单匹配系数,因为简单匹配系数=1—汉明距离/所有位数;Jaccard相似度更相似于余弦度量,因为他们都忽略了0-0匹配。
数据挖掘作业2
数据挖掘作业2数据挖掘是一种从大量数据中发现实用信息和模式的过程。
数据挖掘作业2旨在让学生运用数据挖掘技术,分析和挖掘给定数据集中的实用信息和模式。
本次数据挖掘作业2的任务是基于一个电子商务网站的用户行为数据集,通过分析和挖掘数据,了解用户的行为模式和购买意向,进而提供有针对性的推荐策略和市场营销方案。
首先,我们需要对数据集进行预处理。
这包括数据清洗、去除重复数据、处理缺失值等。
通过这些步骤,我们可以确保数据的准确性和完整性。
接下来,我们可以进行数据探索和可视化分析。
利用统计学和可视化工具,我们可以对数据集进行探索,了解用户的行为特征和购买习惯。
例如,我们可以通过绘制柱状图或者饼图来展示用户的购买类别偏好,或者使用散点图来展示用户的浏览时间和购买金额之间的关系。
在数据探索的基础上,我们可以应用数据挖掘技术来挖掘隐藏在数据中的模式和规律。
其中,常用的数据挖掘技术包括关联规则挖掘、聚类分析、分类算法等。
通过这些技术,我们可以发现用户之间的关联关系、不同用户群体之间的差异以及用户购买意向的预测等。
例如,我们可以利用关联规则挖掘算法,找出用户购买某一商品时,同时购买其他商品的规律。
这可以匡助电子商务网站进行交叉销售和推荐相关商品。
此外,我们可以利用聚类分析算法,将用户分成不同的群体,进而制定针对性的营销策略。
此外,通过分类算法,我们可以预测用户的购买意向,从而提前采取措施,增加用户的转化率。
最后,我们可以根据数据挖掘的结果,提出相应的推荐策略和市场营销方案。
这些策略和方案应该基于对用户行为的深入理解和数据挖掘的结果。
例如,我们可以通过个性化推荐系统,向用户推荐他们可能感兴趣的商品。
或者,我们可以通过优惠券、促销活动等方式,刺激用户的购买欲望。
综上所述,数据挖掘作业2旨在让学生通过对电子商务网站用户行为数据的分析和挖掘,了解用户的行为模式和购买意向,并提供有针对性的推荐策略和市场营销方案。
通过完成这个任务,学生可以提升数据挖掘和分析的能力,并将其应用于实际问题的解决中。
数据挖掘作业2
数据挖掘作业2一、任务背景与目的数据挖掘作业2旨在通过应用数据挖掘技术,从给定的数据集中发现有价值的信息和模式,以帮助决策者做出准确的决策。
本次作业的任务是基于一个电子商务网站的用户行为数据,分析用户购买行为,并构建一个预测模型,以预测用户是否会购买某个特定的产品。
二、数据集介绍本次作业使用的数据集包含了一段时间内的用户行为数据,包括用户的浏览、加购物车、购买等行为。
数据集中的字段包括用户ID、时间戳、产品ID、行为类型等。
数据集共有100万条记录。
三、数据预处理1. 数据清洗:对数据集进行清洗,去除重复记录、缺失值等异常数据。
2. 特征选择:根据业务需求和特征的相关性,选择合适的特征进行分析和建模。
3. 特征编码:对类别型特征进行编码,如使用独热编码将类别型特征转换为数值型特征。
4. 数据划分:将清洗和编码后的数据集划分为训练集和测试集,一般采用70%的数据作为训练集,30%的数据作为测试集。
四、数据分析与建模1. 数据可视化:通过绘制柱状图、折线图等方式,对用户行为数据进行可视化分析,了解用户行为的分布和趋势。
2. 关联规则挖掘:使用关联规则算法(如Apriori算法)挖掘用户行为之间的关联关系,发现用户购买某个产品的规律。
3. 用户分类:根据用户的购买行为特征,使用聚类算法(如K-means算法)将用户划分为不同的类别,以便更好地理解用户的购买行为。
4. 预测模型构建:选择合适的机器学习算法(如决策树、随机森林等),构建用户购买行为的预测模型。
五、模型评估与优化1. 模型评估:使用准确率、召回率、F1值等指标对构建的预测模型进行评估,选择最优的模型。
2. 模型优化:根据评估结果,对模型进行调参和优化,以提高模型的准确性和泛化能力。
六、结果分析与报告撰写1. 结果分析:对模型预测结果进行分析,比较不同模型的性能差异,找出影响用户购买行为的主要因素。
2. 报告撰写:根据分析结果,撰写数据挖掘作业2的报告,包括任务背景、数据处理方法、模型构建过程、结果分析等内容。
数据挖掘大作业(打印) 2
数据挖掘在客户关系管理中的应用一、数据挖掘技术在客户关系管理中的主要应用领域1、客户关系管理中常用的数据挖掘方法常用的数据挖掘方法主要包括:分类、聚类、关联规则、统计回归、偏差分析等等。
(1)分类:分类在数据挖掘中是一项非常重要的任务。
分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个。
(2)聚类:聚类是把一组个体按照相似性归成若干类别。
即“物以类聚”。
它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。
这种方法可以用来对客户进行细分,根据客户的特征和属性把客户分成不同客户群,根据其不同需求,制订针对不同客户群的营销策略。
(3)关联规则:它是描述数据库中数据项之间存在关联的规则,即根据一个事物中某些项的出现可导出另一项在同一事物中也出现,即隐藏在数据间的关联或相互关系。
在客户关系管理中,通过对企业客户数据库里大量数据进行挖掘,可以从中发现有趣的关联关系。
(4)回归分析:回归分析反映的是事务数据库中属性值在时间上的特征.主要用于预测,即利用历史数据自动推出对给定数据的推广描述.从而对未来数据进行预测。
它可应用于商品销售趋势预测、客户赢利能力分析和预测等。
(50偏差分析:偏差分析侧重于发现不规则和异常变化,即与通常不同的事件。
在相类似的客户中,对客户的异常变化要给予密切关注。
例如某客户购买行为发生较大变化,购买量较以前大大减少,就要对客户的这种原因进行调查,避免客户流失。
2、数据挖掘在客户关系管理中的具体运用由于零售业采用P O S机和C R M。
使得顾客的资料及购买信息得以贮存。
在这些海量的数据中存在着许多能对商品决策提供真正有价值的决策信息。
商家面临以下问题是:真正有价值的信息是哪些。
这些信息有哪些关联等等。
因此,需要从大量的数据中, 经过深层分析,从而获得有利商业运作提高企业争力的信息。
数据挖掘作业2
数据挖掘作业2数据挖掘作业2:文本分类与情感分析一、引言数据挖掘是从大量的数据中发现隐藏在其中的有价值信息的过程。
文本分类和情感分析是数据挖掘中的两个重要任务。
本文将介绍文本分类和情感分析的基本概念、方法和应用,并结合实际案例进行详细说明。
二、文本分类1. 概念文本分类是将大量的文本按照一定的标准进行分类的过程。
其目标是通过自动化方法将文本划分到预定义的类别中。
2. 方法(1)特征提取:从文本中提取有用的特征信息。
常用的特征提取方法包括词袋模型、TF-IDF、词嵌入等。
(2)特征选择:选择对分类任务有用的特征。
常用的特征选择方法包括信息增益、卡方检验、互信息等。
(3)分类器构建:选择合适的分类器进行文本分类。
常用的分类器包括朴素贝叶斯、支持向量机、决策树等。
(4)模型评估:使用评估指标对分类模型进行评估,如准确率、精确率、召回率、F1值等。
3. 应用文本分类在各个领域都有广泛的应用,如垃圾邮件过滤、新闻分类、情感分析等。
三、情感分析1. 概念情感分析是对文本中的情感进行识别和分类的过程。
其目标是判断文本中的情感倾向,如正面、负面或中性。
2. 方法(1)情感词典:使用情感词典对文本中的词进行情感打分,然后根据打分结果进行情感分类。
(2)机器学习:使用机器学习方法构建情感分类模型,常用的方法包括朴素贝叶斯、支持向量机、深度学习等。
(3)深度学习:使用深度神经网络进行情感分析,如卷积神经网络、循环神经网络等。
3. 应用情感分析在社交媒体监测、产品评论分析、舆情分析等方面具有重要的应用价值。
四、实例分析:电影评论情感分析为了进一步说明文本分类和情感分析的应用,我们以电影评论情感分析为例进行实例分析。
1. 数据收集从互联网上收集了一批电影评论数据,包括评论文本和对应的情感标签(正面、负面或中性)。
2. 数据预处理对收集到的电影评论数据进行预处理,包括去除停用词、标点符号和数字,对文本进行分词等。
3. 特征提取使用词袋模型对预处理后的文本进行特征提取,得到每个评论的特征向量表示。
数据挖掘考试习题2有答案
数据挖掘考试习题2有答案1. 某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理2. 以下两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。
(b)描述有多少比例的小偷给警察抓了的标准。
A. Precision, RecallB. Recall, PrecisionA. Precision, ROC D. Recall, ROC3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类和预测C. 数据预处理D. 数据流挖掘4. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链5. 什么是KDD? (A)A. 数据挖掘与知识发现B. 领域知识发现C. 文档知识发现D. 动态知识发现6. 使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(A)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则7. 为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(B)A. 探索性数据分析B. 建模描述C. 预测建模D. 寻找模式和规则8. 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式,属于数据挖掘哪一类任务?(A)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式和规则11.下面哪种不属于数据预处理的方法?(D)A变量代换 B离散化 C 聚集 D 估计遗漏值12. 假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。
数据挖掘第二次作业
-----WORD格式--可编辑--专业资料-----数据挖掘第二次作业第一题:1.a) Compute the Information Gain for Gender, Car Type and Shirt Size.b) Construct a decision tree with Information Gain.答案:a)因为class分为两类:C0和C1,其中C0的频数为10个,C1的频数为10,所以class元组的信息增益为Info(D)==11.按照Gender进行分类:(D)==0.971InfogenderGain(Gender)=1-0.971=0.0292.按照Car Type进行分类Info(D)=carType=0.314 Gain(Car Type)=1-0.314=0.6863.按照Shirt Size进行分类:(D)==0.988InfoshirtSizeGain(Shirt Size)=1-0.988=0.012b)由a中的信息增益结果可以看出采用Car Type进行分类得到的信息增益最大,所以决策树为:第二题:2. (a) Design a multilayer feed-forward n eural network (one hidden layer) f or the data set in Q1. Label the nodes in the input and output layers.(b) Using the neural network obtained above, show the weight values after one iteration of the back propagation algorithm, given the training instance “(M,Family, Small)". Indicate your initial weight values and biases and the learning rate used.a)Car Type?Shirt Size?C0C1familySportluxuryC0C1smallmedium,large, extra large1 23 4 5 6 7 8 9101112x11x12x21x22x23x31x32x33x34输入层隐藏层输出层b) 由a 可以设每个输入单元代表的属性和初始赋值X11 X12X21X22X23X31X32X33X34F M Family Sports Luxury Small Medium Large Extra Large0 1 1 0 0 1 0 0 0由于初始的权重和偏倚值是随机生成的所以在此定义初始值为:W1,10 W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.2 0.2 -0.2 -0.1 0.4 0.3 -0.2 -0.1 0.1 -0.1W6,10 W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.1 -0.2 -0.4 0.2 0.2 0.2 -0.1 0.3 -0.3 -0.1θ10 θ11θ12-0.2 0.2 0.3 净输入和输出:单元 j 净输入 Ij 输出Oj10 0.1 0.5211 0.2 0.5512 0.089 0.48每个节点的误差表:单元j Errj10 0.0089 11 0.0030 12 -0.12权重和偏倚的更新: W1,10W1,11W2,10W2,11W3,10W3,11W4,10W4,11W5,10W5,110.201 0.198 -0.211 -0.099 0.4 0.308 -0.202 -0.098 0.101 -0.100 W6,10W6,11W7,10W7,11W8,10W8,11W9,10W9,11W10,12W11,120.092 -0.211 -0.400 0.198 0.201 0.190 -0.110 0.300 -0.304 -0.099 θ10θ11 θ12 -0.287 0.1790.344第三题:3.a) Suppose the fraction of undergraduate students who smoke is 15% and thefraction of graduate students who smoke is 23%. If o ne-fifth of the college students are graduate students and the rest are undergraduates, what is the probability that a student who smokes is a graduate student? b) Given the information i n part (a), i s a randomly chosen college student morelikely to be a graduate or undergraduate student? c) Suppose 30% of the graduate students live i n a dorm but only 10% of theundergraduate students live in a dorm. If a student smokes and lives in the dorm, is he or she more likely to be a graduate or undergraduate student? You can assume independence between students who live i n a dorm and those who smoke.答:a) 定义:A={A 1 ,A 2}其中A 1表示没有毕业的学生,A 2表示毕业的学生,B 表示抽烟 则由题意而知:P(B|A 1)=15% P(B|A 2)=23% P(A 1)= P(A 2)=则问题则是求P(A 2|B)由166.0)()|B ()()|B (B 2211A P A p A P A P P则 277.0166.02.023.0)()()|(|222B P A P A B P B A P b) 由a 可以看出随机抽取一个抽烟的大学生,是毕业生的概率是0.277,未毕业的学生是0.723,所以有很大的可能性是未毕业的学生。
数据挖掘作业答案
数据挖掘作业答案第二章数据准备5.推出在[-1,1]区间上的数据的最小-最大标准化公式。
解:标准化相当于按比例缩放,假如将在[minA,maxA]间的属性A的值v映射到区间[new_minA,new_maxA],根据同比关系得:(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)化简得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA6.已知一维数据集X={-5.0 , 23.0 , 17.6 , 7.23 , 1.11},用下述方法对其进行标准化:a) 在[-1,1]区间进行小数缩放。
解:X’={-0.050 ,0.230 ,0.176 ,0.0723 ,0.0111}b) 在[0,1]区间进行最小-最大标准化。
解:X’={0 , 1 , 0.807 ,0.437 ,0.218 }c) 在[-1,1]区间进行最小-最大标准化。
解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}d) 标准差标准化。
解:mean=8.788 sd=11.523X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}e) 比较上述标准化的结果,并讨论不同技术的优缺点。
解:小数缩放标准化粒度过大(以10为倍数),但计算简单;最小-最大值标准化需要搜索整个数据集确定最小最大数值,而且最小最大值的专家估算可能会导致标准化值的无意识的集中。
标准差标准化对距离测量非常效,但会把初始值转化成了未被认可的形式。
8.已知一个带有丢失值的四维样本。
X1={0,1,1,2}X2={2,1,*,1}X3={1,*,*,-1}X4={*,2,1,*}如果所有属性的定义域是[0,1,2],在丢失值被认为是“无关紧要的值”并且都被所给的定义域的所有可行值替换的情况下,“人工”样本的数量是多少?解:X1 “人工”样本的数量为 1X2 “人工”样本的数量为 3X3 “人工”样本的数量为9X4 “人工”样本的数量为9所以“人工”样本的数量为1×3×9×9=24310.数据库中不同病人的子女数以矢量形式给出:C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}a)应用标准统计参数——均值和方差,找出C中的异常点:mean=3.9286 sd=4.4153在3个标准差下的阈值:阈值=均值±3*标准差=3.928±3*4.4153=[-9.318,17.174]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,17.174]C中的异常点有:-2b)在2个标准差下的阈值:阈值=均值±2*标准差=3.928±2*4.4153=[-4.903,12.758]根据实际情况子女数不可能为负数,所以其范围可缩减为:[0,12.758]C中的异常点有:-2, 1511.已知的三维样本数据集X:X=[{1,2,0},{3,1,4},{2,1,5},{0,1,6},{2,4,3},{4,4,2},{5,2,1},{7,7,7},{0,0,0},{3,3,3}]。
数据挖掘第二次作业
Home WorkYang Zhou ID 10949219 Chapter 5 question 8(a)from the Conditional Probability we know that P(C︳A)=P(A,C)/P(A).P(+)=5/10=0.5P(A=1,class=+)=3/10=0.3, so P(A=1︳+)= P(A,Class=+)/P(+)=0.3/0.5=0.6P(B=1,Class=+)=2/10=0.2 so P(B=1︳+)=P(B,Class=+)/P(+)=0.2/0.5=0.4P(C=1,Class=+)=4/10=0.4 so P(C=1︳+)=P(C,Class=+)/P(+)=0.4/0.5=0.8P(-)=5/10=0.5P(A=1,class=-)=2/10=0.2, so P(A=1︳-)=P(A,Class=-)/P(-)=0.2/0.5=0.4P(B=1,class=-)=2/10=0.2, so P(B=1︳-)=P(B,Class=-)/P(-)=0.2/0.5=0.4P(C=1,class=-)=1/10=0.1, so P(C=1︳-)=P(C,Class=-)/P(-)=0.2/0.5=0.2(b)Bayes theorem: P(C︳A)= P(A︳C)*P(C)/P(A)We have two kinds of classes, Class=+ and Class=-, assume that X is the test record, so X=(A=1,B=1,C=1). We can use the result from (a)P(X︳Class=+)= P(A=1,class=+)* P(B=1,class=+)*P(C=1,class=+)=0.6*0.4*0.8=0.192P(X︳Class=-)= P(A=1,class=-)* P(B=1,class=-)*P(C=1,class=-)=0.4*0.4*0.2=0.032P(+)=0.5 P(-)=0.5Since P(X︳Class=+)*P(+)>P(X︳Class=-)*P(-)Therefore P(+︳X)> P(-︳X)The record should be in the Class=+(c)P(A=1)=5/10=0.5 P(B=1)=4/10=0.4 we can see from the table that(A=1,B=1)=2/10=0.2and P(A=1,B=1)=P(A=1)*P(B=1)=0.4*0.5=0.2So A and B are independent.(d)P(A=1)=5/10=0.5 P(B=0)=6/10=0.6 we can see from the table thatP(A=1,B=0)=3/10=0.3and P(A=1,B=0)=P(A=1)*P(B=0)=0.5*0.6=0.3So A and B are independent.(e)P(A=1,B=1,Class=+)=1/10=0.1 P(+)=5/10=0.5P(A=1,B=1︳Class=+)=P(A=1,B=1,Class=+)/P(+)=0.1/0.5=0.2from the (a) we can know that P(A=1︳Class=+)=0.6P(B=1︳Class=+)=0.4because P(A=1︳Class=+)* P(B=1︳Class=+)=0.6*0.4=0.24the product is not equal to P(A=1,B=1︳Class=+)=0.2so A and B are not conditionally independent given the classQuestion 13(a) using majority votewhen take the 1-nearest neighbor, we can see from the table that x=4.9 is the nearest neighbor, so at this time y=+, so 1-nearest neighbor:+3-nearest neighbor, we can see that the point x=4.9 y=+, x=5.2 y=-, x=5.3 y=-,are the 3 nearest neighbor point. There are two -, one +, so 3-nearest neighbor:-.5-nearest neighbor, we can see that point x=4.9 y=+, x=5.2 y=-, x=5.3 y=-, x=4.6 y=+, x=4.5 or x=5.5 y=+. Are the 5 nearest neighbor point. There are three +, two -, so 5-nearest neighbor:+.9-nearest neighbor, we can see that point x=4.9 y=+, x=5.2 y=-, x=5.3 y=-, x=4.6 y=+, x=4.5,x=5.5 y=+,x=3 y=-, x=7 y=-, x=0.5 y=- or x=9.5 y=-. Are the 9 nearest neighbor point. There are four +, five -, so 5-nearest neighbor:-..(b)using the distance-weighted voting aprroachWe use weight factor w=21/d d=distance between two points we can use this'(,)arg ()i i t i i vx y D y mentw I v y ∈=⨯=∑to caculate. 1- nearest neighbor point, d=5-4.9=0.1 so 21/d =100v=’+’ so from the table 1*100=100 v=’-’ so 0*100=0 so we can see that 1-neareat is +3-nearest neighbor points d1=5-4.9=0.1 d2=5-5.2= -0.2 d3=5-5.3= -0.3So w1=100 w2=25 w3=100/9v=’+’ so from the table 1*100+0*25+0*100/9=100v=’-’ so 0*100+1*25+1*100/9=36.11 so we can see that 3-neareat is +5-neareat neighbor points d1=5-4.9=0.1 d2=5-5.2= -0.2 d3=5-5.3= -0.3 d4=0.4 d5=0.5v=’+’ so from the table 1*100+0*25+0*100/9+1*6.25+1*4=110.25v=’-’ so 0*100+1*25+1*100/9+0*6.25+0*4=36.11 so we can see that 5-neareat is +9-neareat neighbor points d1=5-4.9=0.1 d2=5-5.2= -0.2 d3=5-5.3= -0.3 d4=0.4 d5=0.5 d6= -0.5 d7=2 d8= -2 d9=4.5v=’+’ so from the table1*100+0*25+0*100/9+1*6.25+1*4+1*4+0*0.25+0*0.25+0*0.049=114.25v=’-’ so0*100+1*25+1*100/9+0*6.25+0*4+0*4+1*0.25+1*0.25+1*0.049=36.659 so we can see that 9-neareat is +Question 15If a boolean function can satisify this1f()i iif w xxelseθ⎧>⎪=⎨⎪⎩∑and it is linearlyseparable.So we can see that it satisfy so it is linearly separableSo we can see that it satisfy so it is linearly separableSo we can see that it satisfy so it is linearly separable.satisfy the linearly separable. So from the table we know that 0*x1+0*x2<θSo θ>0 and we can also know that 0*x1+1*x2>=θ and 1*x1+0*x2>=θ so x2>=θ and x1>=θso x1+x2>=2θ we can also know that 1*x1+1*x2<θ because θ>0 so it is contradiction. So it is not linearly separable.Question 18(a)From the table we can see that there are 30 positive instances and 600 negative so at the root node the error rate is E=1-max(30/630, 600/630)=30/63030/630 –(310/630)*(10/310)-(10/630)*0-(310/630)*(10/630)=10/63030/630 –(200/630)*0-(230/630)*(30/230)-(200/630)*0=0So we choose X as the first splitting attribute,, because X1 child node is pure so we do not split it, we now use Y to attribute X=0 and X=2,because Y=0 and Y=2 node contain 100 – instances and Y=1 node contain 100 –instances and 10+instances. So the all three cases for Y the child node is label -,so=1and(01)(21)=-otherwise X X Y and X Y class +=∧==∧=⎧⎨⎩F-mesure: (2*0.333*1.0)/(1.0+0.333)=0.5(c)from the cost function we can get the cost matrixFrom (a) we know that only (X=0∧Y=1) and (X=2∧Y=1)are impure nodes Cost of misclassfying as positive:10*0+100*1=100Cost of misclassfying as negative:10*20+100*0=200 so we should label these nodes as +So=1and(01)(21) =-otherwiseX X Y and X Y class+=∧==∧=⎧⎨⎩(d)confusion matrix:The precision is: 30/(30+200)=0.1304The recall is :30/(30+0)=1.0F-measure is : (2*0.1304*1.0)/(1.0+0.1304)=0.2307。
西安交大数据挖掘第二次作业
{Dairyland-Milk,Tasty-Pie}=>Wonder-Bread [66.7%,100%]
Sunset-Milk=>{Wonder-Bread,Dairyland-Cheese} [66.7%,100%]
100%
{Milk,Cheese}=>Bread
100%
{Cheese,Bread}=>Milk
100%
b.解答:
项集
支持度计数
{Wonder-Bread,Dairyland-Milk,Tasty-Pie}
2
{Wonder-Bread,Sunset-Milk,Dairyland-Cheese}
2
强关联规则
第二次作业
Weihua Wang
1、证明。
给定频繁项集L和L的子集S,证明规则S'--->(L-S')的置信度不可能大于S --->(L-S)的置信度。其中,S'是S的子集。
证明:因为S'是S的子集,根据先验性质可得,频繁项集L的子集S和S'都是频繁项集,并且 。
关联规则S'--->(L-S')的置信度为:
{Sunset-Milk,Dairyland-Cheese}=>Wonder-Bread [66.7%,100%]
Dairyland-Milk=>{Wonder-Bread,Tasty-Pie} [66.7%,100%]
Tasty-Pie=>{Dairyland-Milk,Wonder-Bread} [66.7%,100%]
数据挖掘第二次作业
最小置信度阀值 50%,该关联规则是强规则吗? b. 根据给定的数据,买 hot dogs 独立于买 humburgers 吗?如果不是,二者之间存
在何种相关联系? c. 在给定的数据上,将全置信度、最大置信度、Kulczynski 和余弦的使用与提升度
x transaction, buys( X , item1 ) buys( X , item2 ) buys( X , item3 )
[ s, c ]
4.下面的相依表汇总了超级市场的事务数据。其中,hot dogs 表示包含热狗的事务,hot dogs 表示不包含热狗的事务,hamburgers 表示包含汉堡包的事务,hamburgers 表示不包含 汉堡包的事务。
3.数据库有 5 个事务。设 min_sup =60%, min_conf=80%
a.
分别使用 Apriori 和 FP-growth 算法找出所有频繁项集。 比较两种挖掘过程的有效
性。 b. 列举所有与下面的元规则匹配的强关联规则(给出支持度 s 和置信度 c),其中, X
是代表顾客的变量, item i 是表示项的变量(如: “A” 、 “B”等) :
列举所有与下面的元规则匹配的强关联规则给出支持度s和置信度c其中x是代表顾客的变量iitem是表示项的变量如
1.Apriori 算法使用子集支持性质的先验知识。 a. b. c. 证明频繁项集的所有非空的子集也一定是频繁的。 证明项集 s 的任意非空子集 s’的支持至少和 s 的支持度一样大。 给定频繁项集 l 和 l 的子集 s ,证明规则 " s ' l ( s ' )" 的置信度不可能大于
数据挖掘第二讲习题作业
4月8号交作业第二讲数据预处理习题:1、将下列属性分类成二元的、离散的或连续的,并将它们分类成定性的(标称的或序数的),或定量的(区间的或比率的)。
某些情况下可能有多种解释,因此如果你认为存在二义性,简略地给出你的理由例如:年龄。
回答:离散的,定量的、比率的。
a奥运会上授予的铜牌、银牌和金牌b 衣服的尺寸大小c用每立方厘米克表示的物质密度d班级学生人数e教室的门牌号注:二元的、离散的或连续的的分类与后者不同,是根据值的个数来描述的,离散属性表示有有限或无限可数个值,可能是分类的也可能是数值的;二元属性是离散属性的特殊情况,只有两个值;连续属性是取实数值的属性。
2、已知一维数据集X={-5.0,23.0,17.6,7.23,1.11}用下属方法对其进行标准化a在[-1,1]区间进行小数缩放b在[0,1]区间进行最小-最大标准化c标准差标准化。
比较上述标准化结果,并讨论不同技术的优缺点5、下面是一个超市某种商品连续24个月的销售数据(百元):21,16,19,24,27,23,22,21,20,17,16,20,23,22,18,24,26,25,20,26,23,21,15,17分别使用等宽、等频、和自定义区间方法对数据分箱(注:箱数与区间视数据情况,自己确定),做出各种分箱方法得到的直方图。
6、对上提中分箱后的数据采用平均值,边界值或中值等方法进行平滑。
注:对上述三种分箱后的结果,分别选用某种平滑方法即可。
7、用等宽分箱技术对排序后的数据集D=(0,0,2,2,2,4,8,8,8,12,12,12,12,15,15,16,16,16,16,21,21,21,25,25,25,25,25,28,28,29,34,34,34,34,37,37,44,44,44,58,58,58,58,58,63,63,66,66,66,69,74,74,74,78,78)进行离散化,使得每箱宽度不大于5,形成概念分层。
数据挖掘作业2
数据挖掘作业2引言概述数据挖掘作业2是数据挖掘课程中的重要一环,通过这个作业,学生可以深入理解数据挖掘的相关概念和技术,提升数据挖掘能力。
在这篇文章中,我们将详细介绍数据挖掘作业2的内容和要求,帮助学生更好地完成这个作业。
一、数据集选择1.1 确定数据集的主题和目的在选择数据集时,首先需要确定数据集的主题和目的。
确定数据集的主题有助于我们更好地理解数据的含义和背景,从而更好地进行数据挖掘分析。
同时,明确数据集的目的可以帮助我们确定数据挖掘的目标和方法。
1.2 数据集的获取和清洗在确定数据集后,需要进行数据的获取和清洗工作。
数据的获取可以通过网络搜索、数据集库等途径获取,而数据清洗则是为了保证数据的质量和完整性,包括处理缺失值、异常值等。
1.3 数据集的特征分析在获取和清洗数据后,需要对数据集进行特征分析。
特征分析可以帮助我们更好地了解数据的特点和规律,为后续的数据挖掘建模做准备。
二、数据预处理2.1 数据缺失值处理在数据挖掘过程中,常常会遇到数据缺失值的情况。
在数据预处理阶段,需要对数据缺失值进行处理,可以选择填充缺失值、删除缺失值或者使用插值等方法。
2.2 数据标准化数据标准化是数据预处理的重要步骤之一,通过数据标准化可以将数据转换为统一的尺度,避免不同特征之间的差异对数据挖掘结果造成影响。
2.3 数据降维在数据挖掘过程中,常常会遇到高维数据的情况。
数据降维可以帮助我们减少数据的维度,提高数据挖掘的效率和精度。
三、数据挖掘建模3.1 确定数据挖掘算法在数据挖掘建模阶段,需要选择适合的数据挖掘算法。
常用的数据挖掘算法包括聚类、分类、关联规则挖掘等,根据数据集的特点和目的选择合适的算法。
3.2 模型训练和评估在选择数据挖掘算法后,需要进行模型训练和评估。
通过训练模型可以得到数据挖掘模型,而评估模型可以帮助我们评估模型的性能和准确度。
3.3 结果分析和可视化在完成数据挖掘建模后,需要对结果进行分析和可视化。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第二讲大数据分析处理概述1、Hadoop是一个(C)A.进行大数据分析处理的操作系统B.专门存储大数据的数据库C.大数据计算框架D.收费的商业数据分析服务提供商2、Hadoop集群可以运行的3个模式是(ABC)多选A.本地模式B.伪分布模式C.全分布模式D.离线模式3、在Hadoop中,计算任务被称为Job,JobTracker是一个后台服务进程,启动之后,会一直监听并接收来自各个TaskTracker发送的心跳信息,包括资源使用情况和任务运行情况等信息,它使用的端口号是(B)A.70B.30C.80D.604、在Hadoop中,一个作业(Job)包含多个任务(Task),从JobTracker接收并执行各种命令:运行任务、提交任务、杀死任务等;另一方面,将本地节点上各个任务的状态通过心跳周期性汇报给JobTracker,它使用的端口号是(D)A.70B.30C.80D.605、Hadoop是由(B)语言编写的A.CB.JavaC.PythonD.Scala6、Hadoop中,集群的结构是(A)A.Master/Slave 结构B.P2P结构C.串行结构D.以上都是7、Hadoop平台中使用哪种技术可以运行Python语言编写的MapReduce代码(A)A.Hadoop StreamingB.Hadoop C++编程接口C.HiveD.Hbase8、在Hadoop中,下列哪项主要提供基础程序包以及和操作系统进行交互(A)A.Hadoop Common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine9、Hadoop的局限和不足(ABCD)A.抽象层次低,需要手工编写代码来完成,使用上难以上手B.对于迭代式数据处理性能比较差C.中间结果也放在HDFS文件系统中D.时延高,只适用Batch数据处理,对于交互式数据处理,实时数据处理的支持不够10、以下哪项不是Hadoop Streaming框架的优点(C)A.可以使用其他语言(包括脚本语言)编写的程序移植到Hadoop平台上B.可以使用性能更好的语言(C/C++)来编写程序C.可以不用设置Map与Reduce过程D.Streaming框架汇总通过limit等方式可以灵活的先知应用程序使用的内存等资源11、下列哪些选项是Hadoop Streaming框架的缺点(A)A.Hadoop Streaming默认只能处理文本数据,无法直接对二进制数据进行处理B.Hadoop Streaming 不方便程序向Hadoop平台移植C.Streaming中的mapper和reducer默认只能向标准输出写数据,不能方便地处理多路输出D.只要程序能从标准输入读取数据、向标准输出写数据,就能使用Hadoop Streaming12、在Hadoop中,下列哪项主要功能是计算资源的调度(C)A.Hadoop common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine13、在Hadoop中,下列哪项负责文件的分布式存储与访问(B)A.Hadoop common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine14、在Hadoop中,下列哪项负责计算任务的并行化(D)A.Hadoop common packageB.Hadoop Distributed File SystemC.Hadoop YARND.MapReduce Engine15、下列哪项不是Hadoop的核心组件(A)A.Hadoop Common PackageB.Apache StormC.MapReduce EngineD.Hadoop YARN16、在MapReduce计算框架中,Map主要负责(B)A.接收一组键值对,并将其映射为多组键值对发送出去B.接收一个键,以及相关的值的集合,并对这一组值进行约简操作C.在分布式集群上管理以键值对形式存储的数据D.计算资源的调度17、在MapReduce计算框架中,Reduce主要负责(C)A.接收一组键值对,并将其映射为多组键值对发送出去B.接收一个键,以及相关的值的集合,并对这一组值进行约简操作C.在分布式集群上管理以键值对形式存储的数据D.计算资源的调度18、Hive是一个数据仓库工具,它可以(B)A.对大数据进行分布式存储B.将SQL语句转化为MapReduce操作C.将传统关系数据库转化为分布式数据库D.将行数据库转换为列数据库19、HBase是基于Hadoop的一个分布式数据库,关于HBase,下列说法正确的是(C)A.HBbase是一个行数据库B.HBase是一个关系数据库,因此只能存储结构化信息C.HBase是一个列数据库,以键值对的形式存储数据D.HBase不是Hadoop的核心组件,可以独立于Hadoop运行20、HDFS默认Block Size (B)A.32MBB.64MBC.128MBD.256M21、下面哪个程序负责HDFS数据存储。
(C)NodeB.JobtrackerC.DatanodeD.secondaryNameNode22、下列哪个程序通常与NameNode在一个节点启动?(D)A.SecondaryNameNodeB.DataNodeC.TaskTrackerD.Jobtracker23、HDfS中的block默认保存几份(C)A.3份B.2份C.1份D.不确定24、Mahout是一个机器学习工具包,它(A)A.包含若干机器学习算法的MapReduce实现B.提高了HDFS文件存取的速度C.增强了Hadoop集群的性能D.降低了数据通信的时间开销25、关于Spark,下列说法错误的是:(C)A.Spark可以将中间数据缓存在内存中,极大提高运算效率B.Spark采用MapReduce机制进行任务并行化C.RDD是Spark的基本数据结构D.Spark非常适合迭代运算26、大数据分析处理的基本流程主要包括哪些步骤(D)A.数据准备B.特征工程C.建模分析D.以上都是27、下列哪项不是数据准备需要完成的工作(B)A.从数据源采集数据并存入HDFSB.分析数据的特点,提取有效的特征C.去除数据中的噪声D.过滤无效的或不完整且无法补全的数据28、下列哪项通常是集群的最主要瓶颈(C)A.CPUB.网络C.磁盘D.内存29、有关特征工程的说法,错误的是(A)A.特征工程只需要对数据进行统计分析就行,不用了解任务对应的具体应用的领域知识。
B.特征工程包含特征提取和特征选择两个步骤C.特征工程的目的是从原始数据中提取具有代表性的数据特征,方便计算机进一步分析处理D.特征工程需要综合考虑预期使用的模型进行数据特征的设计30、下列哪项不能用来检验特征的有效性(C)A.信息增益算法B.卡方检验算法C.主成分分析算法D.相关系数31、特征选择的策略包括(A)A.穷举法B.前向选择C.后向选择D.双向选择32、在大数据分析处理中,建模分析主要包括: (D)A.模型选择B.模型训练C.模型评测D.以上都是33、特征选择可以(B)A.选择区分能力强的数据B.降低模型分析的时间复杂度C.减少无效特征D.创建新的特征34、有一包含1,000个样本的数据集,经过特征提取和特征选择,平均每个样本提取出了100个特征,共100,000个,其中不重复的特征为10,000个,如果采用向量空间模型将样本表示为向量,那么每个样本被表示为多少位的向量(B)A.100B.1,000C.10,000D.100,00035、假如你有2014级学生的考勤记录以及他们是否通过考试的数据,以及2015年级学生的考勤记录,需要预测2015级学生是否能通过考试,应当选择(A)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型36、假如你有2014级学生的考勤记录以及他们的考试分数,以及2015年级学生的考勤记录,需要预测2015级学生的考试分数,应当选择(B)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型37、假如你有2014级学生的选课信息,想要挖掘那些课程之间具有较高的相关性,即经常被同样的学生同时选择,应当使用(C)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型38、假如你有2014级学生的选课信息,想要知道那些学生具有相同的学习兴趣,应当使用(D)A.分类模型B.回归模型C.频繁项挖掘模型D.聚类模型39、常见的分类算法有(ABD)A.朴素贝叶斯算法B.决策树算法C.Kmeans算法D.支持向量机算法40、常见的分类算法有(D)A.DBScan算法B.层次聚类算法C.Kmeans算法D.逻辑斯蒂回归算法。