(建筑工程管理)基于大数据挖掘技术及工程实践试题及答案

合集下载

大数据分析与挖掘复习 题集附答案

大数据分析与挖掘复习 题集附答案

大数据分析与挖掘复习题集附答案大数据分析与挖掘复习题集附答案一、选择题1. 数据挖掘的主要任务是:A. 模式发现和模型评估B. 数据收集和整理C. 数据分析和可视化D. 数据传输和存储答案:A2. 在数据挖掘过程中,数据预处理的目的是:A. 提取有价值的信息B. 去除异常值和噪声C. 构建合适的模型D. 优化数据存储结构答案:B3. 关联规则挖掘是指:A. 发现不同属性之间的关联关系B. 预测未来事件的发生C. 分析数据的变化趋势D. 构建数据的分类模型答案:A4. 在数据挖掘中,分类和聚类的主要区别在于:A. 数据来源的不同B. 目标的不同C. 算法的不同D. 结果的不同答案:B5. 大数据分析的核心挑战是:A. 数据存储和处理速度B. 数据质量和准确性C. 数据安全和隐私保护D. 数据可视化和展示答案:A二、填空题1. __________是指通过对海量数据进行深入分析和挖掘,从中发现有价值的信息。

答案:大数据分析与挖掘2. 在数据挖掘过程中,将数据按照一定的规则进行重新排列,以便更方便地进行分析和挖掘,这个过程称为__________。

答案:数据预处理3. 数据挖掘中的分类算法主要是通过对已有的样本进行学习和训练,从而预测新的样本所属的__________。

答案:类别4. 聚类算法是将相似的数据样本归为一类,不需要事先知道数据的__________。

答案:类别5. 在大数据分析中,数据的__________对于结果的准确性和可靠性至关重要。

答案:质量三、简答题1. 请简要说明大数据分析与挖掘的步骤和流程。

答:大数据分析与挖掘的步骤主要包括数据收集与清洗、数据预处理、模式发现、模型评估和应用。

首先,需要从各个数据源收集所需数据,并对数据进行清洗,去除异常值和噪声。

然后,通过数据预处理,对数据进行规范化、离散化等处理,以便于后续的分析和挖掘。

接着,利用合适的算法和技术,进行模式发现,例如关联规则挖掘、分类和聚类等。

大数据技术考试试题

大数据技术考试试题

大数据技术考试试题一、选择题(共 20 题,每题 3 分)1、以下不属于大数据特点的是()A 数据量大B 数据类型多样C 处理速度快D 价值密度高2、大数据的处理流程不包括()A 数据采集B 数据存储C 数据分析D 数据销毁3、以下哪种数据库适合处理大规模的结构化数据()A NoSQL 数据库B 关系型数据库C 文档数据库D 图数据库4、 Hadoop 生态系统中的核心组件不包括()A HDFSB MapReduceC HBaseD Spark5、以下关于数据清洗的说法,错误的是()A 可以去除重复数据B 可以处理缺失值C 目的是提高数据质量D 不会改变数据的原始内容6、数据挖掘的主要任务不包括()A 分类B 聚类C 关联规则挖掘D 数据可视化7、以下哪种算法常用于数据分类()A KMeans 算法B Apriori 算法C 决策树算法D PageRank 算法8、在大数据处理中,数据仓库的作用是()A 存储原始数据B 进行数据预处理C 支持复杂的查询和分析D 实时处理数据9、以下关于云计算与大数据关系的描述,正确的是()A 云计算是大数据的前提B 大数据是云计算的应用C 云计算为大数据提供了计算能力D 大数据必须依托云计算才能发展10、以下哪种技术可以用于实时数据处理()A HiveB FlumeC StormD Sqoop11、数据隐私保护的方法不包括()A 数据加密B 数据匿名化C 数据备份D 访问控制12、以下关于数据可视化的说法,错误的是()A 可以帮助用户更好地理解数据B 只能展示二维数据C 要遵循简洁明了的原则D 可以发现数据中的隐藏模式13、大数据在医疗领域的应用不包括()A 疾病预测B 药物研发C 医疗设备管理D 医生培训14、以下哪种工具常用于大数据的采集()A KafkaB TensorFlowC DockerD Redis15、数据仓库中的星型模型和雪花模型的主要区别在于()A 数据存储方式B 数据查询效率C 数据结构复杂度D 数据更新频率16、以下关于大数据安全的描述,错误的是()A 大数据安全主要关注数据的保密性B 大数据安全包括网络安全和系统安全C 大数据安全需要考虑用户认证和授权D 大数据安全需要防范内部人员的违规操作17、以下哪种技术可以用于大数据的分布式存储()A MongoDBB MySQLC HDFSD Oracle18、数据挖掘中的关联规则挖掘,最常用的算法是()A FPGrowth 算法B C45 算法C ID3 算法D EM 算法19、以下关于大数据分析的说法,正确的是()A 大数据分析一定能得出准确的结论B 大数据分析主要依赖人工进行C 大数据分析需要结合业务背景D 大数据分析的结果不需要验证20、以下不属于大数据应用场景的是()A 智能交通B 在线教育C 小型企业的财务管理D 精准营销二、简答题(共 5 题,每题 8 分)1、简述大数据的 4V 特征。

数据挖掘考试题库及答案

数据挖掘考试题库及答案

数据挖掘考试题库及答案一、选择题1. 数据挖掘是从大量数据中提取有价值信息的过程,以下哪项不是数据挖掘的主要任务?A. 预测B. 分类C. 聚类D. 数据可视化答案:D2. 以下哪种技术不属于数据挖掘的常用方法?A. 决策树B. 支持向量机C. 关联规则D. 数据仓库答案:D3. 数据挖掘中,以下哪项技术常用于分类和预测?A. 神经网络B. K-均值聚类C. 主成分分析D. 决策树答案:D4. 在数据挖掘中,以下哪个概念表示数据集中的属性?A. 数据项B. 数据记录C. 数据属性D. 数据集答案:C5. 数据挖掘中,以下哪个算法用于求解关联规则?A. Apriori算法B. ID3算法C. K-Means算法D. C4.5算法答案:A二、填空题6. 数据挖掘的目的是从大量数据中提取______信息。

答案:有价值7. 在数据挖掘中,分类任务分为有监督学习和______学习。

答案:无监督8. 决策树是一种用于分类和预测的树形结构,其核心思想是______。

答案:递归划分9. 关联规则挖掘中,支持度表示某个项集在数据集中的出现频率,置信度表示______。

答案:包含项集的记录中同时包含结论的记录的比例10. 数据挖掘中,聚类分析是将数据集划分为若干个______的子集。

答案:相似三、判断题11. 数据挖掘只关注大量数据中的异常值。

()答案:错误12. 数据挖掘是数据仓库的一部分。

()答案:正确13. 决策树算法适用于处理连续属性的分类问题。

()答案:错误14. 数据挖掘中的聚类分析是无监督学习任务。

()答案:正确15. 关联规则挖掘中,支持度越高,关联规则越可靠。

()答案:错误四、简答题16. 简述数据挖掘的主要任务。

答案:数据挖掘的主要任务包括预测、分类、聚类、关联规则挖掘、异常检测等。

17. 简述决策树算法的基本原理。

答案:决策树算法是一种自顶向下的递归划分方法。

它通过选择具有最高信息增益的属性进行划分,将数据集划分为若干个子集,直到满足停止条件。

大数据工程职称试题答案

大数据工程职称试题答案

大数据工程职称试题答案一、选择题1. 大数据的定义中,以下哪项是错误的?A. 大数据是指数据量巨大、类型多样、更新速度快的数据集合。

B. 大数据的核心特征是3V:Volume(体量大)、Velocity(速度快)、Variety(类型多)。

C. 大数据只关注数据的存储和处理,不关注数据分析和应用。

D. 大数据技术包括数据采集、存储、管理、分析和展示等环节。

答案:C2. 在大数据环境下,Hadoop生态系统中的核心组件是:A. SparkB. HBaseC. HiveD. MapReduce答案:D3. 关于数据仓库和大数据的区别,以下说法正确的是:A. 数据仓库主要用于决策支持,大数据既用于决策支持也用于操作性处理。

B. 数据仓库的数据是结构化的,大数据可以是非结构化的或半结构化的。

C. 数据仓库通常存储历史数据,大数据实时数据和历史数据都存储。

D. 以上说法都正确。

答案:D4. 下列哪个不是数据挖掘的常用算法?A. 聚类分析B. 回归分析C. 决策树D. 遗传算法答案:D5. 在大数据应用中,实时数据处理技术不包括以下哪项?A. 批处理B. 流处理C. 内存计算D. 复杂事件处理答案:A二、填空题1. 在大数据的4V特性中,除了Volume、Velocity、Variety,第四个V是________。

答案:Veracity(真实性)2. 大数据技术中,________是一种用于处理大规模数据集的分布式计算系统。

答案:Hadoop3. 在数据分析中,________可以帮助我们理解数据的内在含义和价值。

答案:数据可视化4. 数据质量管理的目的是确保数据的________、________和________。

答案:准确性、完整性、一致性5. 大数据平台架构设计时,通常需要考虑________、________和________三个方面。

答案:可扩展性、安全性、性能三、简答题1. 请简述大数据在金融行业中的应用。

大数据试题及答案--最全

大数据试题及答案--最全

1、当前大数据技术的基础是由( C)首先提出的。

(单选题,本题2分)A:微软B:百度C:谷歌D:阿里巴巴2、大数据的起源是( C )。

(单选题,本题2分)A:金融B:电信C:互联网D:公共管理3、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是( C)。

(单选题,本题2分)A:数据管理人员B:数据分析员C:研究科学家D:软件开发工程师4、(D )反映数据的精细化程度,越细化的数据,价值越高。

(单选题,本题2分)A:规模B:活性C:关联度D:颗粒度5、数据清洗的方法不包括( D)。

(单,本题2分)A:缺失值处理B:噪声数据清除C:一致性检查D:重复数据记录处理6、智能健康手环的应用开发,体现了( D)的数据采集技术的应用。

(单选题,本题2分)A:统计报表B:网络爬虫C:API接口D:传感器7、下列关于数据重组的说法中,错误的是( A)。

(单选题,本题2分) A:数据重组是数据的重新生产和重新采集B:数据重组能够使数据焕发新的光芒C:数据重组实现的关键在于多源数据融合和数据集成D:数据重组有利于实现新颖的数据模式创新8、智慧城市的构建,不包含( C)。

(单选题,本题2分)A:数字城市B:物联网C:联网监控D:云计算大数据的最显著特征是( A)。

(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的( B )。

(单选题,本题2分)A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据11、下列关于舍恩伯格对大数据特点的说法中,错误的是( D )。

(单选题,本题2分)A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高12、当前社会中,最为突出的大数据环境是( A )。

大数据工程技术基础知识单选题100道及答案解析

大数据工程技术基础知识单选题100道及答案解析

大数据工程技术基础知识单选题100道及答案解析1. 以下哪种技术不属于大数据采集技术?()A. 网络爬虫B. 传感器C. 关系型数据库D. Flume答案:C解析:关系型数据库在传统数据处理中较为常见,对于大规模的非结构化和半结构化数据采集,其能力相对有限。

网络爬虫、传感器和Flume 都是常见的大数据采集技术。

2. 大数据的4V 特征不包括()A. Volume(大量)B. Variety(多样)C. Velocity(高速)D. Visibility(可见)答案:D解析:大数据的4V 特征包括Volume(大量)、Variety(多样)、Velocity(高速)和Value (价值)。

3. Hadoop 生态系统中的分布式存储系统是()A. HiveB. HBaseC. HDFSD. MapReduce答案:C解析:HDFS(Hadoop Distributed File System)是Hadoop 生态系统中的分布式存储系统。

4. 以下哪个不是NoSQL 数据库?()A. MongoDBB. MySQLC. CassandraD. Redis答案:B解析:MySQL 是传统的关系型数据库,MongoDB、Cassandra 和Redis 都属于NoSQL 数据库。

5. 在大数据处理中,用于数据清洗的工具通常不包括()A. ExcelB. Apache SparkC. TalendD. Pentaho答案:A解析:Excel 在小规模数据处理中常用,但在大数据处理场景中,Apache Spark、Talend 和Pentaho 等工具更为适用。

6. 数据仓库的主要作用是()A. 实时数据处理B. 数据存储C. 数据分析和决策支持D. 数据采集答案:C解析:数据仓库主要用于数据分析和为决策提供支持。

7. 以下哪种语言常用于大数据处理的编程?()A. JavaB. PythonC. C++D. JavaScript答案:B解析:Python 在大数据处理中被广泛使用,有丰富的库和工具支持。

大数据工程技术人员初级理论考核试题与答案

大数据工程技术人员初级理论考核试题与答案

大数据工程技术人员初级理论考核一、选择题1.下列哪个选项不属于数据可视化的范畴()。

[单选题] *A.科学可视化B.图表可视化√C.信息可视化D.可视化分析2.下列哪个选项不属于最为常见的六种图形()。

[单选题] *A.饼图B.条形图C.树图√D.柱状图3.下列()可视化图表通常用颜色深浅表示数值大小[单选题] *A.柱状图B.热力图√C.散点图D.气泡图4.数据集合中出现次数最多的数值被称为()[单选题] *A.平均数B.众数√D.极差5.()指总体中的最大值与最小值的差,反映总体标志值的差异范围。

[单选题] *A.极差√B.方差C.标准差D.离散系数6.分析买家购买商品时产生流量和金额的各渠道情况需要细分()[单选题] *A.终端B.时间C.地区D.品类√7.统计时间内支付金额/支付买家数(或商品件数),衡量统计时间内每位买家的消费金额大小是()指标[单选题] *A.支付金额√B.买家数C.单价D.客单价8.平均停留时长和跳失率都是()的分析内容[单选题] *A.交易分析B.流量分析√C.访客分析9.商品分析中的重点商品选择可以借助()方法[单选题] *A.回归分析B.相关分析C.漏斗分析D.ABC分类√10.ABC分类中畅销的、库存周转率高的高价值商品为()[单选题] *A.B类B.C类C.A类√D.都不属于11.流量质量评估采用()作为衡量流量有效性的宏观指标[单选题] *A.访客数B.转化率√C.浏览量D.浏览时长12.据Ward M O(2010)的研究,超过()的人脑功能用于视觉信息的处理,视觉信息处理是人脑的最主要功能之一。

[单选题] *A.30%B.50%√C.70%D.40%13.当前,市场上已经出现了众多的数据可视化软件和工具,下面工具不是大数据可视化工具的是()。

[单选题] *A.T ableauB.DatawatchC.PlatforaD.Photoshop√14.从宏观角度看,数据可视化的功能不包括()。

大数据考试题及答案

大数据考试题及答案

大数据考试题及答案一、单项选择题(每题2分,共10题)1. 大数据的4V特性不包括以下哪一项?A. 体量大B. 速度快C. 价值密度高D. 多样性答案:C2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. YARND. HDFS答案:D3. 下列哪个不是大数据技术的应用领域?A. 金融分析B. 医疗健康C. 交通规划D. 传统制造业答案:D4. Spark与Hadoop相比,最大的优势在于?A. 更高的存储容量B. 更快的查询速度C. 更强的数据分析能力D. 更低的硬件要求答案:C5. 在大数据中,用于实时处理的框架是?A. HadoopB. SparkC. FlinkD. Storm答案:D二、多项选择题(每题3分,共5题)1. 大数据技术可以解决以下哪些问题?A. 数据挖掘B. 机器学习C. 预测分析D. 数据备份答案:ABC2. 下列哪些是大数据技术中常用的数据库?A. MySQLB. MongoDBC. CassandraD. Oracle答案:BC3. 大数据技术在电商领域的应用包括?A. 用户行为分析B. 商品推荐系统C. 库存管理优化D. 客户服务自动化答案:ABCD4. 以下哪些是大数据处理框架?A. HadoopB. SparkC. TensorFlowD. Elasticsearch答案:AB5. 大数据技术可以应用于以下哪些行业?A. 教育B. 政府C. 娱乐D. 农业答案:ABCD三、简答题(每题5分,共2题)1. 请简述大数据技术的主要特点。

答:大数据技术的主要特点包括数据体量大、处理速度快、数据种类多和真实性高。

它能够处理结构化、半结构化和非结构化数据,通过快速分析和处理海量数据,帮助企业和组织做出更精准的决策。

2. 请简述大数据在医疗健康领域的应用。

答:大数据在医疗健康领域的应用包括:通过分析患者数据进行疾病预测和预防;利用医疗影像数据进行辅助诊断;通过患者反馈和药物反应数据优化治疗方案;以及通过基因组数据进行个性化医疗等。

大数据挖掘及应用期末试题及答案

大数据挖掘及应用期末试题及答案

大数据挖掘及应用期末试题及答案一、概述大数据挖掘是指通过对大量数据的收集、整理和分析,从中发现有用的信息、模式和关联性。

在当今信息化时代,大数据挖掘已成为各行各业重要的工具和手段。

本文将介绍大数据挖掘的一些基本概念,并给出一份期末试题及答案作为例子。

二、大数据挖掘的基本概念1. 数据收集与整理大数据挖掘的第一步是收集和整理数据,这些数据可以来源于各种渠道,如社交媒体、传感器、日志文件等。

数据收集的质量和准确性对后续的挖掘过程至关重要。

2. 数据预处理大数据挖掘中,数据预处理是不可或缺的环节。

该过程主要包括数据清洗、缺失值处理、异常值检测和数据变换等。

通过数据预处理,可以提高挖掘结果的准确性和可信度。

3. 特征选择与提取在大数据挖掘中,一个重要的任务是选择和提取出对于挖掘目标最有用的特征。

这可以通过各种方法来实现,如信息增益、相关性分析、主成分分析等。

4. 数据挖掘算法大数据挖掘涉及多种挖掘算法,如聚类、分类、关联规则、时序分析等。

这些算法可以帮助挖掘出数据中的隐藏规律和模式。

5. 模型评估与优化挖掘得到的模型需要进行评估和优化,以保证其准确性和可靠性。

评估指标可以包括准确率、召回率、F1值等。

三、大数据挖掘及应用期末试题以下是一份大数据挖掘及应用的期末试题,供同学们进行自主学习和思考:试题一:数据清洗请简述数据清洗的作用,并列举三种常见的数据清洗方法。

试题二:特征选择假设你要对一家电商平台的用户进行分类,以便进行个性化推荐。

你会选择怎样的特征来进行分类?请简要说明你的理由。

试题三:聚类分析假设你正在研究一款新药的效果,并希望对病人进行分类。

请问聚类分析是否适用于这个场景?如果适用,请简要描述一下你会采用的聚类算法,并解释其原理。

试题四:关联规则挖掘你正在研究一家超市的销售情况,希望发现一些产品之间的关联规则。

请列举出一条可能的关联规则,并解释其意义。

四、大数据挖掘及应用期末试题答案答案一:数据清洗数据清洗是指对数据集中的异常值、噪声数据和缺失值进行处理,以提高数据质量和挖掘结果的准确性。

大数据技术与数据挖掘测试 选择题 61题

大数据技术与数据挖掘测试 选择题 61题

1题1. 大数据的“4V”特性不包括以下哪一项?A. VolumeB. VelocityC. VarietyD. Visibility2. 在数据挖掘中,以下哪种技术主要用于分类任务?A. 聚类分析B. 关联规则学习C. 决策树D. 主成分分析3. Hadoop生态系统中的哪个组件用于数据存储?A. HiveB. HBaseC. PigD. Sqoop4. 以下哪个不是大数据处理框架?A. Apache SparkB. Apache FlinkC. Apache KafkaD. Apache Tomcat5. 数据仓库的主要目的是什么?A. 实时数据处理B. 数据分析和报告C. 数据备份D. 数据加密6. 在数据挖掘中,Apriori算法主要用于哪种任务?A. 分类B. 聚类C. 关联规则挖掘D. 异常检测7. 以下哪个工具不是用于大数据分析的?A. TableauB. SASC. ExcelD. R8. 数据预处理中的“数据清洗”主要目的是什么?A. 增加数据量B. 减少数据量C. 提高数据质量D. 数据加密9. 在Hadoop中,MapReduce的主要作用是什么?A. 数据存储B. 数据分析C. 数据传输D. 数据备份10. 以下哪个不是NoSQL数据库?A. MongoDBB. CassandraC. RedisD. Oracle11. 数据挖掘中的“监督学习”与“无监督学习”的主要区别是什么?A. 是否有标签B. 数据量大小C. 数据类型D. 数据来源12. 在数据挖掘中,K-means算法属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则13. 以下哪个是大数据分析的典型应用场景?A. 在线购物推荐B. 文字处理C. 图形设计D. 音乐播放14. 数据挖掘中的“特征选择”主要目的是什么?A. 增加特征数量B. 减少特征数量C. 增加数据量D. 减少数据量15. 在数据仓库中,ETL过程不包括以下哪一步?A. 抽取B. 转换C. 加载D. 分析16. 以下哪个不是数据挖掘的步骤?A. 数据收集B. 数据预处理C. 数据分析D. 数据存储17. 在数据挖掘中,“交叉验证”主要用于什么?A. 数据清洗B. 模型评估C. 数据加载D. 数据转换18. 以下哪个是大数据处理中的实时处理框架?A. Apache HadoopB. Apache SparkC. Apache HiveD. Apache HBase19. 数据挖掘中的“异常检测”主要用于什么?A. 发现数据中的异常值B. 数据分类C. 数据聚类D. 数据关联20. 在数据挖掘中,“回归分析”主要用于什么?A. 分类B. 聚类C. 预测数值D. 关联规则21. 以下哪个不是大数据存储解决方案?A. Amazon S3B. Google Cloud StorageC. Microsoft Azure Blob StorageD. Dropbox22. 数据挖掘中的“文本挖掘”主要用于什么?A. 处理结构化数据B. 处理非结构化数据C. 数据加密D. 数据备份23. 在数据挖掘中,“神经网络”属于哪种类型?A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习24. 以下哪个是大数据分析中的可视化工具?A. Power BIB. MySQLC. JavaD. C++25. 数据挖掘中的“时间序列分析”主要用于什么?A. 分类B. 聚类C. 预测时间序列数据D. 关联规则26. 在数据挖掘中,“决策树”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则27. 以下哪个不是大数据分析的挑战?A. 数据质量B. 数据安全C. 数据量小D. 数据处理速度28. 数据挖掘中的“关联规则”主要用于什么?A. 分类B. 聚类C. 发现数据间的关联关系D. 数据加密29. 在数据挖掘中,“贝叶斯网络”属于哪种类型?A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习30. 以下哪个是大数据分析中的机器学习框架?A. TensorFlowB. DockerC. KubernetesD. Jenkins31. 数据挖掘中的“聚类分析”主要用于什么?A. 分类B. 发现数据中的模式C. 回归D. 关联规则32. 在数据挖掘中,“支持向量机”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则33. 以下哪个不是大数据分析的数据源?A. 社交媒体B. 传感器数据C. 传统数据库D. 书籍34. 数据挖掘中的“主成分分析”主要用于什么?A. 分类B. 聚类C. 数据降维D. 关联规则35. 在数据挖掘中,“随机森林”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则36. 以下哪个是大数据分析中的数据集成工具?A. TalendB. HadoopC. SparkD. Kafka37. 数据挖掘中的“序列模式挖掘”主要用于什么?A. 分类B. 聚类C. 发现序列数据中的模式D. 关联规则38. 在数据挖掘中,“朴素贝叶斯”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则39. 以下哪个是大数据分析中的数据清洗工具?A. OpenRefineB. HadoopC. SparkD. Kafka40. 数据挖掘中的“关联规则挖掘”主要用于什么?A. 分类B. 聚类C. 发现数据间的关联关系D. 数据加密41. 在数据挖掘中,“逻辑回归”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则42. 以下哪个不是大数据分析的数据处理技术?A. 数据清洗B. 数据转换C. 数据加密D. 数据加载43. 数据挖掘中的“深度学习”主要用于什么?A. 分类B. 聚类C. 处理复杂数据D. 关联规则44. 在数据挖掘中,“K NN算法”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则45. 以下哪个是大数据分析中的数据可视化平台?A. D3.jsB. HadoopC. SparkD. Kafka46. 数据挖掘中的“时间序列预测”主要用于什么?A. 分类B. 聚类C. 预测未来数据D. 关联规则47. 在数据挖掘中,“集成学习”属于哪种类型?A. 分类B. 聚类C. 回归D. 关联规则48. 以下哪个是大数据分析中的数据存储技术?A. HDFSB. HadoopC. SparkD. Kafka49. 数据挖掘中的“异常检测”主要用于什么?A. 分类B. 聚类C. 发现异常数据D. 关联规则50. 在数据挖掘中,“关联规则学习”主要用于什么?A. 分类B. 聚类C. 发现数据间的关联关系D. 数据加密51. 以下哪个是大数据分析中的数据处理框架?A. Apache BeamB. HadoopC. SparkD. Kafka52. 数据挖掘中的“文本分类”主要用于什么?A. 分类B. 聚类C. 处理文本数据D. 关联规则53. 在数据挖掘中,“神经网络”主要用于什么?A. 分类B. 聚类C. 处理复杂数据D. 关联规则54. 以下哪个是大数据分析中的数据集成平台?A. InformaticaB. HadoopC. SparkD. Kafka55. 数据挖掘中的“序列模式挖掘”主要用于什么?A. 分类B. 聚类C. 发现序列数据中的模式D. 关联规则56. 在数据挖掘中,“朴素贝叶斯”主要用于什么?A. 分类B. 聚类C. 处理文本数据D. 关联规则57. 以下哪个是大数据分析中的数据清洗平台?A. TrifactaB. HadoopC. SparkD. Kafka58. 数据挖掘中的“关联规则挖掘”主要用于什么?A. 分类B. 聚类C. 发现数据间的关联关系D. 数据加密59. 在数据挖掘中,“逻辑回归”主要用于什么?A. 分类B. 聚类C. 回归D. 关联规则60. 以下哪个不是大数据分析的数据处理技术?A. 数据清洗B. 数据转换C. 数据加密D. 数据加载61. 数据挖掘中的“深度学习”主要用于什么?A. 分类B. 聚类C. 处理复杂数据D. 关联规则答案1. D2. C3. B4. D5. B6. C7. C8. C9. B10. D11. A12. B13. A14. B15. D16. D17. B18. B19. A20. C21. D22. B23. A24. A25. C26. A27. C28. C29. A30. A31. B32. A33. D34. C35. A36. A37. C38. A39. A40. C41. A42. C43. C44. A45. A46. C47. A48. A49. C50. C51. A52. A53. C54. A55. C56. A57. A58. C59. A60. C61. C。

大数据挖掘技术练习(习题卷6)

大数据挖掘技术练习(习题卷6)

大数据挖掘技术练习(习题卷6)第1部分:单项选择题,共51题,每题只有一个正确答案,多选或少选均不得分。

1.[单选题]基于输入的用户信息,通过模型的训练学习,找出数据中的规律和趋势,以确定未来目标数据的预测值()A)聚类B)分类C)预测D)关联答案:C解析:2.[单选题]使用pip工具升级科学计算扩展库numpy的完整命令是()A)pip install --upgrade numpyB)pip list --upgrade numpyC)upgrade numpyD)upg numpy--pip install答案:A解析:3.[单选题]在一个表中有字段“专业”,要查找包含“信息”两个字的记录,正确的表达式是______。

A)LEFT(专业, 2)="信息"B)LIKE "%信息%"C)LIKE "_信息_"D)RIGHT(专业, 2)="信息"答案:B解析:4.[单选题]两台路由器成为OSPF邻居关系的必要条件不包括A)两台路由器的Hello时间一致B)两台路由器的Dead时间一致C)两台路由器的Router ID一致D)两台路由器所属区域一致答案:C解析:5.[单选题]自动化高级分析实验室,实现与统一数据资源库互联,实现数据的自助组表、自助分析功能,满足不同层级、不同水平的用户需求的是( )A)初级分析;B)综合分析C)典型分析D)高级分析答案:D解析:6.[单选题]关于 K 均值和 DBSCAN 的比较,以下说法不正确的是( )。

A)KB)KC)KD)K答案:A解析:7.[单选题]属于定量的属性类型是A)标称B)序数C)区间D)相异答案:C解析:8.[单选题]终端支持的频段,在下列哪个流程中会得以体现A)ATTACHB)DETACHC)切换流程D)呼叫流程答案:A解析:9.[单选题]概念分层图是____图。

A)无向无环B)有向无环C)有向有环D)无向有环答案:B解析:10.[单选题]关于OLAP和OLTP的区别描述,不正确的是:A)OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.B)与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.C)OLAP的特点在于事务量大,但事务内容比较简单且重复率高.D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的.答案:C解析:11.[单选题]在FP-GROWTH算法中,已构造FP-Tree如图则项 I3 的条件模式基为A)<(I1,I2:2)>、I2:2、 I1:2B)<(I2,I1:2)>、I2:1、 I1:1C)<(I2,I1:2)>、I2:2、 I1:2D)<(I2,I1:1)>、I2:2、 I1:2答案:C解析:12.[单选题]下面的代码其功能为()>>> x = [range(3*i, 3*i+5) for i in range(2)]>>> x = list(map(list, x))>>> x = list(map(list, zip(*x)))A)首先生成一个随机的列表,然后生成矩阵B)首先生成一个包含列表的列表,然后生成矩阵C)首先生成一个包含列表的列表,然后模拟矩阵转置D)首先排序列表,然后模拟矩阵转置答案:C解析:13.[单选题]下述方法不属于聚类方法的是( )A)K-均值B)K-中心性C)DBSCAN算法D)神经网络答案:D解析:14.[单选题]设有一个回归方程为y=2-2.5x,则变量x增加一个单位时()A)y平均增加2.5个单位B)y平均增加2个单位C)y平均减少2.5个单位D)y平均减少2个单位答案:C解析:15.[单选题]JSON 中的中括号一般来表示( )。

数据挖掘工程师招聘笔试题与参考答案(某大型国企)

数据挖掘工程师招聘笔试题与参考答案(某大型国企)

招聘数据挖掘工程师笔试题与参考答案(某大型国企)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、下列哪种技术是专门用于处理大规模数据集的复杂性分析和模式发现的?A、数据质量管理技术B、数据备份与恢复技术C、机器学习技术D、关系数据库管理技术2、在数据挖掘过程中,以下哪个步骤不属于数据预处理阶段?A、数据清洗B、数据集成C、数据选择D、数据关联3、在数据挖掘中,以下哪项技术不属于数据预处理阶段?A. 数据清洗B. 数据集成C. 数据转换D. 机器学习算法4、在处理高维数据时,以下哪种方法可以有效地减少数据维度?A. 主成分分析(PCA)B. 决策树C. 支持向量机(SVM)D. 聚类算法5、在数据挖掘过程中,利用聚类分析技术,可以将数据集划分成多个组别,使得同一组内的数据相似度更高而不同组间的相似度更低。

以下哪种算法属于聚类算法之一?A、线性回归B、决策树C、K-MeansD、神经网络6、在数据挖掘过程中,关联规则学习主要是用来找出项集之间有趣的关联关系,同时也考虑到规则的 ____ 和 ____ 。

请选择正确的填空项。

A、准确度、覆盖率B、可信度、支持度C、召回率、精度D、覆盖率、支持度7、某大型国企在进行市场分析时,从海量的销售数据中筛选出具有高增长潜力的商品,以下哪种算法最适用于此类场景?A. 决策树B. K-Means聚类C. 主成分分析D. 支持向量机8、在数据挖掘项目中,数据预处理步骤的重要性体现在以下哪个方面?A. 提高算法的效率和准确性B. 减少处理时间和计算资源C. 提高模型的解释性D. 增加模型的复杂性9、题干:在数据挖掘过程中,以下哪种算法适用于处理分类问题?A. 聚类算法B. 关联规则算法C. 聚类算法和关联规则算法都不适用D. 决策树算法 10、题干:以下哪个指标通常用于评估分类模型的性能?A. 精确度B. 召回率C. F1分数D. 以上都是二、多项选择题(本大题有10小题,每小题4分,共40分)1、在数据挖掘中,常见的关联规则挖掘算法有哪些?A. FP-growthB. DBSCANC. AprioriD. K-means2、下列哪些技术可以用来优化数据挖掘中的模型训练?A. DropoutB. Grid SearchC. LassoD. BaggingE. Boosting3、以下哪些算法属于无监督学习算法?()A、决策树B、聚类算法C、K-最近邻D、线性回归4、在数据挖掘过程中,以下哪些技术可以用于数据预处理?()A、数据清洗B、数据集成C、数据变换D、数据归一化5、以下哪些技术或工具是数据挖掘工程师在处理大数据分析时常用的?()A、HadoopB、SparkC、MySQLD、Python6、在数据挖掘项目中,以下哪些步骤是数据预处理阶段必须完成的?()A、数据清洗B、数据集成C、数据变换D、数据归一化E、数据抽样7、以下哪些工具和技术是数据挖掘工程师在处理大规模数据集中常用的?()A、Hadoop和HDFSB、Spark和Spark SQLC、NoSQL数据库(如MongoDB)D、Python的Pandas库E、R语言的ggplot2包8、以下哪些特征是评价一个数据挖掘模型重要性的指标?()A、准确率(Accuracy)B、召回率(Recall)C、F1分数(F1 Score)D、混淆矩阵(Confusion Matrix)E、模型复杂度(Complexity of Model)9、以下哪些技术或工具是数据挖掘工程师在处理数据时常用的?()A、Python的Pandas库B、R语言的ggplot2包C、Hadoop生态系统D、Spark SQLE、MySQL数据库 10、在数据挖掘过程中,以下哪些阶段是必要的?()A、数据预处理B、特征选择C、模型训练D、模型评估E、模型部署三、判断题(本大题有10小题,每小题2分,共20分)1、在数据挖掘中,特征选择(特征筛选)的技术仅包括递归特征消除法(RFE)。

建筑施工现场数据采集与分析考试

建筑施工现场数据采集与分析考试

建筑施工现场数据采集与分析考试(答案见尾页)一、选择题1. 数据在施工现场的重要性A. 提高施工效率B. 降低施工成本C. 保障施工安全D. 对后续经营与维护的决策支持2. 施工现场数据采集的设备选择A. 传统的数据采集工具B. 智能化的数据采集设备C. 手机和平板电脑等移动设备D. 无人机和遥感技术3. 建筑施工现场数据格式的标准化A. 数据的准确性B. 数据的完整性C. 数据的一致性D. 数据的及时性4. 数据分析在施工现场的应用A. 质量控制和改进B. 进度预测和优化C. 成本控制和预算管理D. 安全风险识别和预防5. 建筑施工现场数据采集的安全性A. 数据加密和隐私保护B. 设备的权限管理和访问控制C. 网络安全防护措施D. 数据备份和恢复策略6. 施工现场数据的可视化A. 图表和图形展示B. 仪表板和报告生成C. 数据可视化软件D. 大数据和机器学习技术的应用7. 建筑施工现场数据采集与分析的法规遵循A. 相关国家和地区的法律法规B. 行业标准和规范C. 施工企业的内部标准D. 国际标准组织的相关规定8. 建筑施工现场数据采集与分析的技术发展A. 云计算和大数据技术的应用B. 物联网和人工智能技术的融合C. 移动应用和社交媒体平台的整合D. 虚拟现实和增强现实技术的应用9. 建筑施工现场数据采集与分析的未来趋势A. 数据驱动的决策制定B. 个性化和定制化的施工服务C. 绿色建筑和可持续发展的实践D. 数字化和智能化的全面实现二、问答题1. 简述建筑施工现场数据采集的主要内容有哪些?2. 如何利用采集到的数据进行数据分析?3. 在进行施工现场数据采集时,如何保证数据的准确性和可靠性?4. 在建筑施工现场,如何运用数据采集与分析技术实现绿色施工?5. 在进行建筑施工现场数据采集与分析时,如何处理异常值?6. 在建筑施工现场,数据采集与分析技术如何提高工程管理水平?7. 在进行建筑施工现场数据采集与分析时,如何保护个人隐私和信息安全?8. 在建筑施工现场,如何运用数据采集与分析技术进行风险预警?参考答案选择题:1. ABCD2. ABCD3. ABCD4. ABCD5. ABCD6. ABCD7. ABCD8. ABCD9. ABCD 问答题:1. 简述建筑施工现场数据采集的主要内容有哪些?建筑施工现场数据采集的主要内容包括:施工进度、现场人数、设备状态、材料消耗、环境参数(温度、湿度、噪音等)、安全状况等。

《大数据基础与实务》期末考试题试卷及答案

《大数据基础与实务》期末考试题试卷及答案

《大数据基础与实务》期末考试题试卷及答案一、选择题(每题2分,共20分)1. 以下哪个不是大数据的四大特征(4V)?A. 体积(Volume)B. 多样性(Variety)C. 速度(Velocity)D. 精确度(Precision)答案:D2. 以下哪种技术不是大数据处理的核心技术?A. 分布式存储B. 分布式计算C. 数据挖掘D. 数据清洗答案:D3. 以下哪个不是Hadoop的核心组件?A. HDFSB. YARNC. MapReduceD. Spark答案:D4. 以下哪个数据库属于NoSQL数据库?A. MySQLB. OracleC. MongoDBD. SQL Server答案:C5. 以下哪个不是大数据分析的主要方法?A. 关联规则挖掘B. 聚类分析C. 决策树D. 深度学习答案:D二、填空题(每题3分,共15分)6. 大数据的处理流程通常包括:数据采集、数据存储、数据处理、数据分析和________。

答案:数据可视化7. Hadoop中的HDFS主要负责________,而YARN主要负责________。

答案:数据存储;资源调度8. 数据挖掘是从大量数据中提取有价值信息的过程,它主要包括:关联规则挖掘、________和________。

答案:聚类分析;决策树9. 在大数据分析中,常用的文本分析方法有:词频统计、________和________。

答案:TF-IDF;主题模型三、判断题(每题2分,共10分)10. 大数据只关注结构化数据,而非结构化数据和半结构化数据。

答案:错误11. Hadoop是一个开源的分布式计算框架,它只能在Linux系统上运行。

答案:错误12. 数据挖掘是一种无监督的学习方法,不需要预先标记训练数据。

答案:正确13. 在大数据分析中,数据清洗和预处理是必不可少的步骤。

答案:正确14. Spark是一个基于内存的分布式计算框架,它比Hadoop更快。

大数据考试题及答案

大数据考试题及答案

大数据考试题及答案一、单选题(每题2分,共10题)1. 大数据的4V特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Visualization(可视化)答案:D2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. YARND. HDFS答案:D3. 下列哪个不是大数据技术?A. NoSQL数据库B. 云计算C. 传统关系型数据库D. 分布式计算答案:C4. 在大数据中,用于处理实时数据流的技术是?A. HadoopB. SparkC. MapReduceD. Hive答案:B5. 大数据技术中,用于数据挖掘和机器学习的库是?A. TensorFlowB. NumPyC. PandasD. Scikit-learn答案:D二、多选题(每题3分,共5题)1. 大数据技术可以应用于以下哪些领域?A. 金融分析B. 医疗健康C. 教育D. 交通管理答案:ABCD2. 下列哪些是大数据处理框架?A. HadoopB. SparkC. FlinkD. TensorFlow答案:ABC3. 大数据存储技术包括以下哪些?A. 云存储B. 分布式文件系统C. 内存数据库D. 传统关系型数据库答案:ABC4. 在大数据中,以下哪些是数据清洗的目的?A. 去除重复数据B. 纠正错误数据C. 填充缺失值D. 数据转换答案:ABCD5. 大数据安全包括以下哪些方面?A. 数据加密B. 访问控制C. 数据备份D. 入侵检测答案:ABCD三、简答题(每题5分,共2题)1. 请简述大数据与传统数据仓库的主要区别。

答案:大数据与传统数据仓库的主要区别在于处理的数据类型、处理速度、数据规模和成本效益。

大数据技术能够处理结构化、半结构化和非结构化数据,而传统数据仓库主要处理结构化数据。

大数据技术支持实时或近实时的数据处理,而传统数据仓库通常处理的是批量数据。

大数据系统研发 数据工程专业知识和实务考试题

大数据系统研发 数据工程专业知识和实务考试题

大数据系统研发数据工程专业知识和实务考试题
一、在大数据系统研发中,以下哪项不是数据预处理的主要任务?
A. 数据清洗
B. 数据转换
C. 数据挖掘
D. 数据归约
(答案)C
二、以下哪种技术不是大数据存储中常用的?
A. Hadoop HDFS
B. NoSQL数据库
C. 关系型数据库
D. 分布式文件系统
(答案)C
三、在大数据处理过程中,MapReduce主要承担的角色是?
A. 数据存储
B. 数据查询
C. 数据计算与处理
D. 数据可视化
(答案)C
四、以下哪项不是大数据系统研发中数据质量控制的关键环节?
A. 数据校验
B. 数据清洗
C. 数据备份
D. 数据一致性检查
(答案)C
五、在大数据分析中,以下哪项不是数据可视化技术的常见应用?
A. 折线图展示数据趋势
B. 饼图展示数据比例
C. 数据加密保护
D. 散点图展示数据关系
(答案)C
六、以下哪种算法不是大数据分析中常用的机器学习算法?
A. 决策树
B. 神经网络
C. 排序算法
D. 支持向量机
(答案)C
七、在大数据系统研发中,数据工程师在设计数据架构时应优先考虑的因素是?
A. 数据的实时性
B. 数据的存储成本
C. 数据的美观性
D. 数据的可扩展性与容错性
(答案)D
八、以下哪项不是大数据系统研发中数据安全管理的重要措施?
A. 数据加密
B. 访问控制
C. 数据备份与恢复
D. 数据随意共享
(答案)D。

工程设计中的大数据分析考核试卷

工程设计中的大数据分析考核试卷
A.数据采集
B.数据存储
C.数据清洗
D.数据挖掘
3.以下哪种方法不适用于工程设计中的大数据分析?()
A.机器学习
B.数据挖掘
C.云计算
D.虚拟现实
4.在工程设计中,大数据分析的目的是什么?()
A.提高设计效率
B.降低设计成本
C.提升设计质量
D.所有以上选项
5.以下哪个软件不是大数据分析工具?()
A. Python
C.数据量大小
D.分析人员的经验
5.以下哪些属于机器学习在工程设计中的应用?()
A.结构优化
B.材料选择
C.能耗预测
D.设计算法的自动生成
6.大数据分析中,哪些技术可以用于处理非结构化数据?()
A.自然语言处理
B.图像识别
C.语音识别
D.以上都是
7.以下哪些方法可以用于评估大数据分析模型的性能?()
1.在工程设计中,大数据分析可以帮助设计师预测项目的______。()
2.大数据分析中的三个V是指数据的______、______和______。()
3.在进行大数据分析时,常用的数据预处理技术包括______、______和______。()
4.机器学习在工程设计中的应用主要包括______、______和______。()
工程设计中的大数据分析考核试卷
考生姓名:答题日期:得分:判卷人:
一、单项选择题(本题共20小题,每小题1分,共20分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.以下哪项不是大数据分析在工程设计中的主要应用?()
A.结构分析
B.成本优化
C.风险评估
D.数据可视化
2.在大数据分析中,以下哪个环节是数据预处理的内容?()

《大数据基础与实务》期末考试题试卷及答案

《大数据基础与实务》期末考试题试卷及答案

《大数据基础与实务》期末考试题试卷及答案一、选择题(每题2分,共20分)1. 以下哪个不是大数据的4V特征?A. 体积(Volume)B. 种类(Variety)C. 速度(Velocity)D. 精确度(Veracity)答案:D2. 以下哪个不属于大数据处理技术?A. 分布式存储B. 数据挖掘C. 机器学习D. 量子计算答案:D3. Hadoop的核心组件不包括以下哪个?A. HDFSB. MapReduceC. YARND. Spark答案:D4. 以下哪个数据库系统不属于NoSQL数据库?A. MongoDBB. RedisC. MySQLD. Cassandra答案:C5. 数据仓库的目的是什么?A. 提高数据的实时性B. 提高数据的一致性C. 提高数据的独立性D. 提高数据的可用性答案:B二、填空题(每题2分,共20分)6. 大数据的处理流程包括:数据采集、数据存储、数据清洗、数据分析和数据挖掘。

7. 在Hadoop中,HDFS负责数据的存储,MapReduce负责数据的计算。

8. Spark是一种基于内存的分布式计算框架,具有快速、通用和易于使用等特点。

9. 数据挖掘是从大量数据中挖掘出有价值的信息和知识的过程。

10. 数据可视化是将数据以图形或表格的形式展示出来,以便用户更容易理解和分析数据。

三、判断题(每题2分,共20分)11. 大数据的处理只需要考虑数据的存储和计算,不需要考虑数据的清洗和分析。

()答案:错误12. Hadoop是Google的MapReduce的开源实现。

()答案:正确13. NoSQL数据库主要用于处理结构化数据。

()答案:错误14. 数据仓库主要用于支持决策分析。

()答案:正确15. 数据挖掘是一种数据清洗的方法。

()答案:错误四、简答题(每题5分,共25分)16. 简述大数据处理的挑战。

答案:大数据处理的挑战包括:数据量庞大、数据类型多样、数据增长速度快、数据质量参差不齐、数据安全与隐私保护等。

《基于大数据挖掘技术及工程实践》试题及答案24

《基于大数据挖掘技术及工程实践》试题及答案24

《基于大数据挖掘技术及工程实践》试题及答案24一、单选题(共80题)1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,同时能够得到与原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A. 关联规则发现B. 聚类C. 分类D. 自然语言处理3)下列两种描述分别对应哪两种对分类算法的评价标准? (A)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

A. Precision,RecallB. Recall,PrecisionA. Precision,ROC D. Recall,ROC4)将原始数据进行集成、变换、维度规约、数值规约是在下列哪个步骤的任务?(C)A. 频繁模式挖掘B. 分类与预测C. 数据预处理D. 数据流挖掘5)当不明白数据所带标签时,能够使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)A. 分类B. 聚类C. 关联分析D. 隐马尔可夫链6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)A. 根据内容检索B. 建模描述C. 预测建模D. 寻找模式与规则7)下面哪种不属于数据预处理的方法? (D)A.变量代换B.离散化C.聚集D.估计遗漏值8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204,215 使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)A.第一个B.第二个C.第三个D.第四个9)下面哪个不属于数据的属性类型:(D)A.标称B.序数C.区间D.相异10)只有非零值才重要的二元属性被称作:( C )A.计数属性B.离散属性C.非对称的二元属性D.对称属性11)下列哪种方法不属于特征选择的标准方法: (D)A.嵌入B.过滤C.包装D.抽样12)下面不属于创建新属性的有关方法的是: (B)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造13)下面哪个属于映射数据到新的空间的方法? (A)A.傅立叶变换B.特征加权C.渐进抽样D.维归约14)假设属性income的最大最小值分别是12000元与98000元。

大数据试题及答案解析

大数据试题及答案解析

大数据试题及答案解析一、单选题(每题2分,共10分)1. 大数据的4V特性指的是什么?A. 体积、速度、多样性、价值B. 体积、速度、多样性、可视化C. 体积、速度、可视化、价值D. 体积、多样性、可视化、价值答案:A2. 下列哪个不是大数据的典型应用场景?A. 客户行为分析B. 网络安全监控C. 天气预报D. 个人电脑操作系统答案:D3. Hadoop生态系统中,用于数据存储的是?A. HBaseB. HiveC. FlumeD. HDFS答案:D4. 大数据技术中,用于处理实时数据流的框架是?A. HadoopB. SparkC. KafkaD. HBase答案:C5. 下列哪个不是大数据分析的常见工具?A. RB. PythonC. ExcelD. Hadoop答案:C二、多选题(每题3分,共15分)1. 大数据技术可以应用于以下哪些领域?A. 金融分析B. 医疗健康C. 教育D. 游戏开发答案:A、B、C2. 在大数据处理中,以下哪些技术是常用的?A. 数据挖掘B. 机器学习C. 数据可视化D. 数据清洗答案:A、B、C、D3. 下列哪些是大数据存储技术?A. 数据库B. 文件系统C. 内存计算D. 云存储答案:A、B、D4. 在大数据架构中,以下哪些组件是Hadoop生态系统的一部分?A. HDFSB. HBaseC. SparkD. Kafka答案:A、B5. 大数据中的数据清洗包括哪些步骤?A. 缺失值处理B. 异常值处理C. 数据去重D. 数据转换答案:A、B、C、D三、判断题(每题1分,共5分)1. 大数据技术只能用于处理海量数据。

()答案:错误2. 大数据技术可以提高决策的效率和准确性。

()答案:正确3. 大数据技术不需要考虑数据的安全性。

()答案:错误4. 大数据技术可以完全替代传统的数据分析方法。

()答案:错误5. 大数据技术在处理数据时不需要考虑数据的时效性。

()答案:错误四、简答题(每题5分,共20分)1. 请简述大数据技术在金融领域的应用。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

(建筑工程管理)基于大数据挖掘技术及工程实践试题及答案《海量数据挖掘技术及工程实践》题目一、单选题(共80题)1)(D)的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。

A.数据清洗B.数据集成C.数据变换D.数据归约2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)3) A.关联规则发现B.聚类4) C.分类D.自然语言处理5)以下两种描述分别对应哪两种对分类算法的评价标准?(A)6)(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

7)(b)描述有多少比例的小偷给警察抓了的标准。

8) A.Precision,RecallB.Recall,Precision9) A.Precision,ROCD.Recall,ROC10)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C)11)A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘12)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(B)13)A.分类B.聚类C.关联分析D.隐马尔可夫链14)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)15)A.根据内容检索B.建模描述16)C.预测建模D.寻找模式和规则17)下面哪种不属于数据预处理的方法?(D)18)A.变量代换B.离散化C.聚集D.估计遗漏值19)假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。

等频(等深)划分时,15在第几个箱子内?(B)20)A.第一个B.第二个C.第三个D.第四个21)下面哪个不属于数据的属性类型:(D)22)A.标称B.序数C.区间D.相异23)只有非零值才重要的二元属性被称作:(C)24)A.计数属性B.离散属性C.非对称的二元属性D.对称属性25)以下哪种方法不属于特征选择的标准方法:(D)26)A.嵌入B.过滤C.包装D.抽样27)下面不属于创建新属性的相关方法的是:(B)28)A.特征提取B.特征修改C.映射数据到新的空间D.特征构造29)下面哪个属于映射数据到新的空间的方法?(A)30)A.傅立叶变换B.特征加权C.渐进抽样D.维归约31)假设属性income的最大最小值分别是12000元和98000元。

利用最大最小规范化的方法将属性的值映射到0至1的范围内。

对属性income的73600元将被转化为:(D)32)A.0.821B.1.224C.1.458D.0.71633)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。

则年级属性的众数是:(A)34)A.一年级B.二年级C.三年级D.四年级35)下列哪个不是专门用于可视化时间空间数据的技术:(B)36)A.等高线图B.饼图C.曲面图D.矢量场图37)在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:(D)38)A.有放回的简单随机抽样B.无放回的简单随机抽样C.分层抽样D渐进抽样39)数据仓库是随着时间变化的,下面的描述不正确的是(C)40)A.数据仓库随时间的变化不断增加新的数据内容41)B.捕捉到的新数据会覆盖原来的快照42)C.数据仓库随事件变化不断删去旧的数据内容43)D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合44)下面关于数据粒度的描述不正确的是:(C)45)A.粒度是指数据仓库小数据单元的详细程度和级别46)B.数据越详细,粒度就越小,级别也就越高47)C.数据综合度越高,粒度也就越大,级别也就越高48)D.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量49)有关数据仓库的开发特点,不正确的描述是:(A)50)A.数据仓库开发要从数据出发51)B.数据仓库使用的需求在开发出去就要明确52)C.数据仓库的开发是一个不断循环的过程,是启发式的开发53)D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式54)关于OLAP的特性,下面正确的是:(D)55)(1)快速性(2)可分析性(3)多维性(4)信息性(5)共享性56)A.(1)(2)(3)57)B.(2)(3)(4)58)C.(1)(2)(3)(4)59)D.(1)(2)(3)(4)(5)60)关于OLAP和OLTP的区别描述,不正确的是:(C)61)A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同62)B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务63)C.OLAP的特点在于事务量大,但事务内容比较简单且重复率高64)D.OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的65)关于OLAP和OLTP的说法,下列不正确的是:(A)66)A.OLAP事务量大,但事务内容比较简单且重复率高67)B.OLAP的最终数据来源与OLTP不一样68)C.OLTP面对的是决策人员和高层管理人员69)D.OLTP以应用为核心,是应用驱动的70)设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。

71)A.4B.5C.6D.772)考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含(C)73)A.1,2,3,4B.1,2,3,5C.1,2,4,5D.1,3,4,574)下面选项中t不是s的子序列的是(C)75)A.s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>76)B.s=<{2,4},{3,5,6},{8}>t=<{2},{8}>77)C.s=<{1,2},{3,4}>t=<{1},{2}>78)D.s=<{2,4},{2,4}>t=<{2},{4}>79)在图集合中发现一组公共子结构,这样的任务称为(B)80)A.频繁子集挖掘B.频繁子图挖掘C.频繁数据项挖掘D.频繁模式挖掘81)下列度量不具有反演性的是(D)82)A.系数B.几率C.Cohen度量D.兴趣因子83)下列(A)不是将主观信息加入到模式发现任务中的方法。

84)A.与同一时期其他数据对比85)B.可视化86)C.基于模板的方法87)D.主观兴趣度量88)下面购物蓝能够提取的3-项集的最大数量是多少(C)A.1B.2C.3D.489)以下哪些算法是分类算法(B)A.DBSCANB.C4.5C.K-MeanD.EM90)以下哪些分类方法可以较好地避免样本的不平衡问题(A)A.KNNB.SVMC.BayesD.神经网络91)决策树中不包含一下哪种结点(C)A.根结点(rootnode)B.内部结点(internalnode)C.外部结点(externalnode)D.叶结点(leafnode)92)以下哪项关于决策树的说法是错误的(C)A.冗余属性不会对决策树的准确率造成不利的影响B.子树可能在决策树中重复多次C.决策树算法对于噪声的干扰非常敏感D.寻找最佳决策树是NP完全问题93)在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为(B)94)A.基于类的排序方案95)B.基于规则的排序方案96)C.基于度量的排序方案97)D.基于规格的排序方案。

98)以下哪些算法是基于规则的分类器(A)99)A.C4.5B.KNNC.NaiveBayesD.ANN100)可用作数据挖掘分析中的关联规则算法有(C)。

101) A.决策树、对数回归、关联模式B.K均值法、SOM神经网络C.Apriori算法、FP-Tree算法D.RBF神经网络、K均值法、决策树102)如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为(B)A.无序规则B.穷举规则C.互斥规则D.有序规则103)用于分类与回归应用的主要算法有:(D)A.Apriori算法、HotSpot算法B.RBF神经网络、K均值法、决策树C.K均值法、SOM神经网络D.决策树、BP神经网络、贝叶斯40)如果允许一条记录触发多条分类规则,把每条被触发规则的后件看作是对相应类的一次投票,然后计票确定测试记录的类标号,称为(A)A.无序规则B.穷举规则C.互斥规则D.有序规则41)考虑两队之间的足球比赛:队0和队1。

假设65%的比赛队0胜出,剩余的比赛队1获胜。

队0获胜的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。

如果下一场比赛在队1的主场进行队1获胜的概率为(C)A.0.75B.0.35C.0.4678D.0.573842)以下关于人工神经网络(ANN)的描述错误的有(A)A.神经网络对训练数据中的噪声非常鲁棒B.可以处理冗余特征C.训练ANN是一个很耗时的过程D.至少含有一个隐藏层的多层神经网络43)通过聚集多个分类器的预测来提高分类准确率的技术称为(A)A.组合(ensemble)B.聚集(aggregate)C.合并(combination)D.投票(voting)44)简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作(B)A.层次聚类B.划分聚类C.非互斥聚类D.模糊聚类45)在基本K均值算法里,当邻近度函数采用(A)的时候,合适的质心是簇中各点的中位数。

A.曼哈顿距离B.平方欧几里德距离C.余弦距离D.Bregman散度46)(C)是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的。

A.边界点B.质心C.离群点D.核心点47)BIRCH是一种(B)。

A.分类器B.聚类算法C.关联分析算法D.特征选择算法48)检测一元正态分布中的离群点,属于异常检测中的基于(A)的离群点检测。

A.统计方法B.邻近度C.密度D.聚类技术49)(C)将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

A.MIN(单链)B.MAX(全链)C.组平均D.Ward方法50)(D)将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。

相关文档
最新文档