大数据测试题
高级大数据测试题及答案
高级大数据测试题及答案一、选择题(每题5分,共20分)1. 在大数据环境下,以下哪个选项不是Hadoop生态系统的组成部分?A. HBaseB. HiveC. SparkD. MongoDB答案:D2. 在Spark中,RDD的全称是什么?A. Resilient Distributed DatabaseB. Resilient Distributed DatasetC. Resilient Distributed Data StructureD. Resilient Distributed Data Stream答案:B3. 下列哪个选项是Hadoop的分布式文件系统?A. HDFSB. GFSC. ZFSD. NFS答案:A4. 在大数据技术中,以下哪个不是数据清洗的常见步骤?A. 去除重复B. 缺失值处理C. 数据转换D. 数据加密答案:D二、填空题(每题5分,共20分)1. Hadoop的两个主要组件是________和________。
答案:HDFS、MapReduce2. 在Spark中,________操作可以将多个RDDs合并为一个。
答案:union3. 用于数据挖掘的机器学习算法中,________算法是一种监督学习算法。
答案:决策树4. 在大数据存储中,________是一种用于存储半结构化数据的文件格式。
答案:JSON三、简答题(每题10分,共40分)1. 请简述Hadoop的MapReduce工作原理。
答案:Hadoop的MapReduce工作原理包括两个主要步骤:Map阶段和Reduce阶段。
在Map阶段,输入数据被分割成多个独立的数据块,每个数据块由一个Map任务处理。
Map任务读取数据块,将数据映射成键值对形式,然后输出中间结果。
在Reduce阶段,Map阶段输出的中间结果被分组,每个组由一个Reduce任务处理。
Reduce任务对同一键的值进行聚合操作,最终输出最终结果。
大数据技术与数据分析测试 选择题 61题
1. 大数据的4V特征不包括以下哪一项?A. VolumeB. VelocityC. VarietyD. Visibility2. 以下哪个工具不是用于大数据处理的?A. HadoopB. SparkC. ExcelD. Kafka3. 在数据分析中,以下哪种方法最常用于预测分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析4. Hadoop生态系统中的HDFS是用来做什么的?A. 数据处理B. 数据存储C. 数据查询D. 数据可视化5. 以下哪个是NoSQL数据库的例子?A. MySQLB. PostgreSQLC. MongoDBD. Oracle6. 数据仓库的主要目的是什么?A. 实时数据处理B. 数据分析和报告C. 数据存储D. 数据加密7. 在数据分析中,PCA是什么的缩写?A. Principal Component AnalysisB. Primary Component AlgorithmC. Predictive Component AnalysisD. Progressive Component Algorithm8. 以下哪个编程语言最常用于数据分析?A. JavaB. PythonC. C++D. Ruby9. 在数据可视化中,以下哪种图表最适合展示时间序列数据?A. 饼图B. 条形图C. 折线图D. 散点图10. 以下哪个是大数据分析平台?A. TableauB. Microsoft ExcelC. Google AnalyticsD. AWS Redshift11. 数据挖掘的主要目的是什么?A. 数据清洗B. 数据存储C. 发现数据中的模式和关系D. 数据可视化12. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 监督学习需要标签数据,非监督学习不需要B. 监督学习不需要标签数据,非监督学习需要C. 监督学习用于分类,非监督学习用于回归D. 监督学习用于回归,非监督学习用于分类13. 以下哪个算法是用于分类的?A. K-MeansB. Linear RegressionC. Decision TreeD. PCA14. 在数据分析中,以下哪个步骤通常最先进行?A. 数据清洗B. 数据可视化C. 数据建模D. 数据收集15. 以下哪个是数据湖的定义?A. 一个用于存储大量结构化数据的数据库B. 一个用于存储大量非结构化数据的数据库C. 一个用于存储大量半结构化数据的数据库D. 一个用于存储大量实时数据的数据库16. 在数据分析中,以下哪个工具最常用于数据清洗?A. RB. SQLC. PythonD. Excel17. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas18. 在数据分析中,以下哪个方法最常用于异常检测?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析19. 以下哪个是数据科学家的主要职责?A. 数据存储B. 数据清洗C. 数据分析和模型构建D. 数据可视化20. 在数据分析中,以下哪个工具最常用于数据可视化?A. TableauB. SQLC. PythonD. Excel21. 以下哪个是用于大数据处理的实时数据流处理平台?A. HadoopB. SparkC. KafkaD. Hive22. 在数据分析中,以下哪个方法最常用于客户细分?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析23. 以下哪个是用于大数据处理的分布式文件系统?A. HDFSB. S3C. GFSD. Azure Blob Storage24. 在数据分析中,以下哪个方法最常用于预测销售额?A. 回归分析C. 关联分析D. 描述性分析25. 以下哪个是用于大数据处理的分布式数据库?A. MongoDBB. MySQLC. PostgreSQLD. Oracle26. 在数据分析中,以下哪个方法最常用于市场篮分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析27. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas28. 在数据分析中,以下哪个方法最常用于文本挖掘?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析29. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage30. 在数据分析中,以下哪个方法最常用于时间序列分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析31. 以下哪个是用于大数据处理的分布式查询引擎?A. HiveB. SparkC. KafkaD. Hadoop32. 在数据分析中,以下哪个方法最常用于情感分析?B. 聚类分析C. 关联分析D. 描述性分析33. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas34. 在数据分析中,以下哪个方法最常用于推荐系统?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析35. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage36. 在数据分析中,以下哪个方法最常用于网络分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析37. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas38. 在数据分析中,以下哪个方法最常用于图像分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析39. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage40. 在数据分析中,以下哪个方法最常用于语音分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析41. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas42. 在数据分析中,以下哪个方法最常用于社交网络分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析43. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage44. 在数据分析中,以下哪个方法最常用于生物信息学分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析45. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas46. 在数据分析中,以下哪个方法最常用于金融分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析47. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage48. 在数据分析中,以下哪个方法最常用于医疗分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析49. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas50. 在数据分析中,以下哪个方法最常用于能源分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析51. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage52. 在数据分析中,以下哪个方法最常用于零售分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析53. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas54. 在数据分析中,以下哪个方法最常用于电信分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析55. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3D. Azure Blob Storage56. 在数据分析中,以下哪个方法最常用于制造业分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析57. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas58. 在数据分析中,以下哪个方法最常用于物流分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析59. 以下哪个是用于大数据处理的分布式存储系统?A. HDFSB. S3C. GFSD. Azure Blob Storage60. 在数据分析中,以下哪个方法最常用于教育分析?A. 回归分析B. 聚类分析C. 关联分析D. 描述性分析61. 以下哪个是用于大数据处理的分布式计算框架?A. TensorFlowB. SparkC. Scikit-learnD. Pandas答案1. D2. C3. A4. B5. C6. B7. A9. C10. D11. C12. A13. C14. D15. B16. B17. B18. B19. C20. A21. C22. B23. A24. A25. A26. C27. B28. B29. A30. A31. A32. B33. B34. C35. A36. B37. B38. B39. A40. B41. B42. B43. A44. B45. B46. A47. A48. B49. B50. A51. A52. B53. B54. B55. A56. B57. B59. A60. B61. B。
大数据测试 试卷及答案 82分
∙ 1.大数据的本质是()。
(单选题1分)得分:0分o A.挖掘o B.搜集o C.洞察o D.联系∙ 2.以下选项中,不属于信息时代的定律的是(单选题1分)得分:1分o A.麦特卡尔夫定律o B.吉尔德定律o C.达律多定律o D.摩尔定律∙ 3.2008年以后,第()信息传输技术:传输2亿路信号。
(单选题1分)得分:0分o A.二代o B.四代o C.一代o D.三代∙ 4.由于有了现代信息技术的支撑,研制一个新型号的航天器,周期缩减到()以内。
(单选题1分)得分:1分o A.6个月o B.12个月o C.18个月o D.24个月∙ 5.根据周琦老师所讲,高德交通信息服务覆盖全国高速()以上。
(单选题1分)得分:1分o A.70%o B.90%o C.50%o D.60%∙ 6.阿兰·图灵在哪一年提出图灵测试的概念?(单选题1分)得分:1分o A.1950年o B.1952年o C.1955年o D.1954年∙7.()指利用计算机处理信息的技术,是现代信息技术的核心。
(单选题1分)得分:1分o A.感测技术o B.通信技术o C.计算机技术o D.微电子技术∙8.淘宝网正式进入台湾市场是在哪一年?(单选题1分)得分:1分o A.2011年o B.2009年o C.2010年o D.2012年∙9.第一个提出大数据概念的公司是(单选题1分)得分:1分o A.脸谱公司o B.谷歌公司o C.麦肯锡公司o D.微软公司∙10.社会成员或者用户之间社会成员之间共同参与信息的处理、信息的分享、信息的传播,这个活动就叫()。
(单选题1分)得分:1分o A.社会计算o B.云计算o C.高强度计算o D.政府计算∙11.根据周琦老师所讲,高德交通日均采集数十亿定位请求,系统处理月均()公里驾驶里程覆盖。
(单选题1分)得分:1分o A.50亿o B.100亿o C.80亿o D.150亿∙12.习近平总书记在2016年几月主持召开了网络安全和信息化工作座谈会?(单选题1分)得分:1分o A.2月o B.3月o C.5月o D.4月∙13.未来农业信息化将会取得新突破:在空间上,农业信息化从点状示范向()开发,从区域覆盖向全面推进的格局演变。
最新2020年最新公需科目《大数据》测试题库(含参考答案)
2020年最新公需科目《大数据》考试题(含答案)一、单选题1.数据仓库的最终目的是(D )° (单选题)A.收集业务需求建立数据仓库逻辑模型C.开发数据仓库的应用分析D.为用户和业务部门提供决策支持二、多选题2.宁家骏委员指出,我国发展医疗服务业,同时发展智慧养老。
©°正确C错误3.2012年,我国农村居民家庭每百户拥有移动电话197.8部。
(判断题1分)分■正确错误46,当今世界四大趋势指的是经济全球化全球城市化.全球信息化.信息智慧化。
(判断题1分)■正确错误47.根据涂子沛先生所讲,数据就是简单的数字。
(判断题1分)正确■错误4.大数据作为一种数据集合,它的含义包括()。
■ A.数据很大B.很有价值■ C.构成复杂■「).变化很快5.“最为成功的商业运作模式是价格最低的资源将会被尽可能的消耗,以此来保存最昂贵的资源”,这是下列哪个定律的内涵?A.牛顿定律B.麦特卡尔夫定律C,摩尔定律■ D.吉尔德定律6.大数据的主要特征表现为()。
ABCE©分A.数据类型多B-处理速度快C.数据容量大D.商业价值高7.林雅华博士指出,网络时代的国家治理必须要借鉴互联网多元向度扁平化.相互竞合的方式进行。
(判断题1分)■正确错误49. 2000年,全国涉农网站超过6000家。
(判断题1分)正确■错误8.以下说法错误的是哪项? QA.大数据是一种思维方式B.大数据不仅仅是讲数据的体量大C.大数据会带来机器智能D.大数据的英文名称是large data9.“ (b)阿里巴巴•贵州年货节”销售额突破8. 5亿元,促进了贵州电子商务加快发展。
A.2015B.2016C.201310.农业农村信息化业务应用深入发展,其业务应用主要表现在哪几个方面?©* A.农业信息资源开发利用水平提高V B.农村电子商务蓬勃兴起V C.农村综合信息服务平台发展迅速17 D.农村电了政务己经基本普及11.下列各项表述中正确的有哪些?⑥得分.0分* A.在网络时代,电子政务的发展刻不容缓,政务微博发声应该成为政府治理的“标配”。
大数据技术考试试题
大数据技术考试试题一、选择题(共 20 题,每题 3 分)1、以下不属于大数据特点的是()A 数据量大B 数据类型多样C 处理速度快D 价值密度高2、大数据的处理流程不包括()A 数据采集B 数据存储C 数据分析D 数据销毁3、以下哪种数据库适合处理大规模的结构化数据()A NoSQL 数据库B 关系型数据库C 文档数据库D 图数据库4、 Hadoop 生态系统中的核心组件不包括()A HDFSB MapReduceC HBaseD Spark5、以下关于数据清洗的说法,错误的是()A 可以去除重复数据B 可以处理缺失值C 目的是提高数据质量D 不会改变数据的原始内容6、数据挖掘的主要任务不包括()A 分类B 聚类C 关联规则挖掘D 数据可视化7、以下哪种算法常用于数据分类()A KMeans 算法B Apriori 算法C 决策树算法D PageRank 算法8、在大数据处理中,数据仓库的作用是()A 存储原始数据B 进行数据预处理C 支持复杂的查询和分析D 实时处理数据9、以下关于云计算与大数据关系的描述,正确的是()A 云计算是大数据的前提B 大数据是云计算的应用C 云计算为大数据提供了计算能力D 大数据必须依托云计算才能发展10、以下哪种技术可以用于实时数据处理()A HiveB FlumeC StormD Sqoop11、数据隐私保护的方法不包括()A 数据加密B 数据匿名化C 数据备份D 访问控制12、以下关于数据可视化的说法,错误的是()A 可以帮助用户更好地理解数据B 只能展示二维数据C 要遵循简洁明了的原则D 可以发现数据中的隐藏模式13、大数据在医疗领域的应用不包括()A 疾病预测B 药物研发C 医疗设备管理D 医生培训14、以下哪种工具常用于大数据的采集()A KafkaB TensorFlowC DockerD Redis15、数据仓库中的星型模型和雪花模型的主要区别在于()A 数据存储方式B 数据查询效率C 数据结构复杂度D 数据更新频率16、以下关于大数据安全的描述,错误的是()A 大数据安全主要关注数据的保密性B 大数据安全包括网络安全和系统安全C 大数据安全需要考虑用户认证和授权D 大数据安全需要防范内部人员的违规操作17、以下哪种技术可以用于大数据的分布式存储()A MongoDBB MySQLC HDFSD Oracle18、数据挖掘中的关联规则挖掘,最常用的算法是()A FPGrowth 算法B C45 算法C ID3 算法D EM 算法19、以下关于大数据分析的说法,正确的是()A 大数据分析一定能得出准确的结论B 大数据分析主要依赖人工进行C 大数据分析需要结合业务背景D 大数据分析的结果不需要验证20、以下不属于大数据应用场景的是()A 智能交通B 在线教育C 小型企业的财务管理D 精准营销二、简答题(共 5 题,每题 8 分)1、简述大数据的 4V 特征。
语文大数据期末测试卷及答案
一、选择题(每题2分,共20分)1. 以下哪项不属于大数据的特点?A. 数据量大B. 数据类型多C. 数据处理速度快D. 数据来源单一2. 以下哪个平台不是大数据在语文教育中的应用?A. 语文学习APPB. 语文教学管理系统C. 语文在线测试平台D. 语文教材3. 以下哪项不是大数据在语文教学中的应用场景?A. 个性化学习推荐B. 教学效果评估C. 语文竞赛报名D. 语文教师培训4. 以下哪个不是大数据在语文教育中的挑战?A. 数据安全问题B. 技术人才短缺C. 教育资源分配不均D. 学生自主学习能力不足5. 以下哪个不是大数据在语文教育中的发展趋势?A. 智能化教学B. 个性化学习C. 数据驱动决策D. 教育公平二、填空题(每题2分,共20分)1. 大数据在语文教育中的应用主要包括______、______、______等方面。
2. 语文学习APP可以根据学生的学习情况,推荐______的学习内容。
3. 语文教学管理系统可以帮助教师______、______、______等。
4. 语文在线测试平台可以______、______、______等。
5. 大数据在语文教育中的挑战包括______、______、______等。
三、简答题(每题10分,共30分)1. 简述大数据在语文教育中的应用优势。
2. 分析大数据在语文教育中可能带来的挑战。
3. 针对大数据在语文教育中的应用,提出一些建议。
答案一、选择题1. D2. D3. C4. D5. D二、填空题1. 个性化学习推荐、教学效果评估、语文竞赛报名2. 适合的学习内容、提高学习效率、培养自主学习能力3. 教学管理、学生管理、资源分配4. 自动批改、成绩分析、学习进度跟踪5. 数据安全问题、技术人才短缺、教育资源分配不均三、简答题1. 大数据在语文教育中的应用优势包括:- 个性化学习推荐:根据学生的学习情况,推荐适合的学习内容,提高学习效率。
- 教学效果评估:通过数据分析,了解学生的学习效果,及时调整教学策略。
大数据测试题
大数据测试题大数据测试题1、简介1.1 背景1.2 目的1.3 范围2、测试环境2.1 硬件要求2.2 软件要求2.3 数据源2.4 测试工具3、功能测试3.1 数据采集3.1.1 数据源接入3.1.2 数据提取3.2 数据存储3.2.1 数据存储格式选择 3.2.2 数据安全性3.3 数据处理3.3.1 数据清洗3.3.2 数据转换3.4 数据分析3.4.1 数据统计3.4.2 数据可视化4、性能测试4.1 数据处理速度4.2 数据存储容量4.3 数据处理并发性能5、安全性测试5.1 数据隐私保护5.2 数据传输加密5.3 用户权限管理6、兼容性测试6.1 不同数据源测试 6.2 不同操作系统测试6.3 不同浏览器测试7、可靠性测试7.1 数据完整性7.2 数据可恢复性7.3 系统稳定性8、容错性测试8.1 异常数据处理8.2 网络故障处理8.3 节点故障处理9、用户体验测试9.1 界面易用性9.2 操作流程顺畅性9.3 响应速度10、扩展性测试10.1 数据规模扩展10.2 节点增加10.3 组件插件增加11、结果分析11.1 功能测试结果11.2 性能测试结果11.3 安全性测试结果 11.4 兼容性测试结果 11.5 可靠性测试结果 11.6 容错性测试结果 11.7 用户体验测试结果11.8扩展性测试结果12、结论附件:- 测试计划- 测试用例- 测试数据注释:- 数据采集:从不同的数据源中提取数据并进行清洗和转换的过程。
- 数据存储:将处理后的数据存储在适当的格式中,以供后续分析使用。
- 数据处理:对采集到的数据进行清洗、转换和计算等处理过程。
- 数据分析:通过统计和可视化等手段对数据进行分析和展示。
- 性能测试:测试系统在大数据处理方面的性能表现,包括速度、容量和并发性能等。
- 安全性测试:测试系统对数据安全和隐私保护的能力。
- 兼容性测试:测试系统在不同环境和配置下的兼容性。
- 可靠性测试:测试系统在长时间运行和异常情况下的稳定性和可恢复性。
最新大数据测试题
Java、Python、云计算、大数据120 分钟1、当前大数据技术的基础是由( )首先提出的A. 微软B. 百度C. 谷歌D. 阿里巴巴2、大数据的起源是( )A. 金融B. 电信C. 互联网D. 公共管理3、( )反映数据的精细化程度,越细化的数据,价值越高。
A. 规模B. 活性C. 关联度D. 颗粒度4、数据清洗的方法不包括( )A. 缺失值处理B. 噪声数据清除C. 一致性检查D. 重复数据记录处理5、当程序经过编译或者汇编以后,形成为了一种由机器指令组成的集合,被称为( )A. 源程序B. 目标程序C. 可执行程序D. 非执行程序6、大数据的核心就是( )A. 告知与许可B. 预测C. 匿名化D. 规模化7、大数据不是要教机器像人一样思量。
相反,它是( )A. 把数学算法运用到海量的数据上来预测事情发生的可能性。
B. 被视为人工智能的一部份C. 被视为一种机器学习D. 预测与惩罚8、当前社会中,最为突出的大数据环境是( )A.互联网B.物联网C.综合国力D. 自然资源9、以下哪些技术为大数据常用框架或者技术(多选)( )。
A.HadoopB.SparkC.HbaseD.Linux10、云计算按照服务类型大致可分为以下类(多选)( )A.IaaSB.PaaSC.SaaSD.效用计算11、下列哪个语句在Python 中是非法的?( )A.x=y=z=1B.x=(y=z+1)C.x,y=y,xD.x+=y12、关于数据的潜在价值,说法正确的是(多选)( )A. 数据的真实价值就像飘荡在海洋中的冰山,第一眼只能看到冰山一角,而绝大部份则隐藏在表面之下。
B. 判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。
C. 在基本用途完成后,数据的价值仍然存在,只是处于休眠状态D. 数据的价值是其所有可能用途的总和13、下列不是 Java 语言面向对象的特点( )A. 封装B.继承C.跨平台D.多态14、大数据人材整体上需要具备(多选)( )等核心知识A. 数学与统计知识B. 计算机相关知识C. 马克思主义哲学知识D. 市场运营管理知识15、观察下图,其中问号选择()16、在Python 中,下列哪种说法是错误的 ( D )A、除字典类型外,所有标准对象均可以用于布尔测试B、空字符串的布尔值是 FalseC、空列表对象的布尔值是 FalseD、值为 0 的任何数字对象的布尔值是 False17、ArrayList 类的底层数据结构是( A )A、数组结构B、链表结构C、哈希表结构D、红黑树结构18、Java 中覆盖与重载的关系是:( A )。
大数据趣味测试题及答案
大数据趣味测试题及答案
1. 什么是大数据?
A. 大量的数据
B. 能够被分析的数据
C. 需要特定技术处理的数据
D. 以上都是
答案:D
2. 大数据的四个V分别代表什么?
A. 体积、速度、多样性、价值
B. 体积、速度、多样性、可视化
C. 体积、速度、价值、可视化
D. 速度、多样性、价值、可视化
答案:A
3. 以下哪个不是大数据技术?
A. Hadoop
B. Spark
C. SQL
D. NoSQL
答案:C
4. 大数据在哪个行业中应用最广泛?
A. 金融
B. 医疗
C. 教育
D. 以上都是
答案:D
5. 大数据可以用于预测什么?
A. 股市趋势
B. 消费者行为
C. 疾病爆发
D. 以上都是
答案:D
6. 以下哪个是大数据的存储技术?
A. 数据库
B. 文件系统
C. 内存
D. 以上都是
答案:D
7. 大数据的分析方法主要包括哪些?
A. 描述性分析
B. 诊断性分析
C. 预测性分析
D. 以上都是
答案:D
8. 大数据的实时分析技术通常被称为什么?
A. 批处理
B. 流处理
C. 机器学习
D. 深度学习
答案:B
9. 大数据的安全性主要面临哪些挑战?
A. 数据泄露
B. 数据篡改
C. 非法访问
D. 以上都是
答案:D
10. 以下哪个是大数据的可视化工具?
A. Tableau
B. Excel
C. PowerPoint
D. Word
答案:A。
大数据技术与大数据分析测试 选择题 59题
1. 大数据的“3V”模型不包括以下哪个维度?A. 速度B. 多样性C. 价值D. 体积2. Hadoop生态系统中,用于数据仓库的组件是?A. HBaseB. HiveC. PigD. Spark3. 在数据分析中,OLAP代表什么?A. Online Analytical ProcessingB. Online Application ProgrammingC. Offline Analytical ProcessingD. Offline Application Programming4. 以下哪个不是NoSQL数据库的类型?A. 键值存储B. 文档存储C. 关系型数据库D. 图形数据库5. 数据挖掘中的分类算法不包括以下哪种?A. 决策树B. 神经网络C. 关联规则D. 聚类分析6. 在Hadoop中,哪个组件负责数据的存储?A. HDFSB. MapReduceC. YARND. Hive7. 以下哪个工具不是用于大数据处理的?A. Apache KafkaB. Microsoft ExcelC. Apache StormD. Apache Flink8. 数据可视化工具Tableau主要用于什么?A. 数据存储B. 数据分析C. 数据清洗D. 数据传输9. 在数据分析中,ETL代表什么?A. Extract, Transform, LoadB. Encrypt, Transfer, LoadC. Extract, Transfer, LoadD. Encrypt, Transform, Load10. 以下哪个是大数据分析的步骤?A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏11. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 监督学习需要标签数据,非监督学习不需要B. 监督学习不需要标签数据,非监督学习需要C. 监督学习用于分类,非监督学习用于回归D. 监督学习用于回归,非监督学习用于分类12. 以下哪个是Apache Spark的核心组件?A. RDDB. HDFSC. YARND. Hive13. 在数据分析中,PCA代表什么?A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis14. 以下哪个不是数据仓库的特征?A. 集成性B. 时变性C. 非易失性D. 实时性15. 在数据分析中,RFM模型不包括以下哪个维度?A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类16. 以下哪个是用于大数据处理的流处理框架?A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive17. 在数据分析中,A/B测试主要用于什么?A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储18. 以下哪个是大数据分析的挑战?A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项19. 在数据分析中,K-means算法属于哪一类算法?A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法20. 以下哪个是用于大数据分析的编程语言?A. PythonB. HTMLC. CSSD. JavaScript21. 在数据分析中,SQL代表什么?A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language22. 以下哪个是大数据分析的步骤?A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏23. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 监督学习需要标签数据,非监督学习不需要B. 监督学习不需要标签数据,非监督学习需要C. 监督学习用于分类,非监督学习用于回归D. 监督学习用于回归,非监督学习用于分类24. 以下哪个是Apache Spark的核心组件?A. RDDB. HDFSC. YARND. Hive25. 在数据分析中,PCA代表什么?A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis26. 以下哪个不是数据仓库的特征?A. 集成性B. 时变性C. 非易失性D. 实时性27. 在数据分析中,RFM模型不包括以下哪个维度?A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类28. 以下哪个是用于大数据处理的流处理框架?A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive29. 在数据分析中,A/B测试主要用于什么?A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储30. 以下哪个是大数据分析的挑战?A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项31. 在数据分析中,K-means算法属于哪一类算法?A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法32. 以下哪个是用于大数据分析的编程语言?A. PythonB. HTMLC. CSSD. JavaScript33. 在数据分析中,SQL代表什么?A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language34. 以下哪个是大数据分析的步骤?A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏35. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 监督学习需要标签数据,非监督学习不需要B. 监督学习不需要标签数据,非监督学习需要C. 监督学习用于分类,非监督学习用于回归D. 监督学习用于回归,非监督学习用于分类36. 以下哪个是Apache Spark的核心组件?A. RDDB. HDFSC. YARND. Hive37. 在数据分析中,PCA代表什么?A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis38. 以下哪个不是数据仓库的特征?A. 集成性B. 时变性C. 非易失性D. 实时性39. 在数据分析中,RFM模型不包括以下哪个维度?A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类40. 以下哪个是用于大数据处理的流处理框架?A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive41. 在数据分析中,A/B测试主要用于什么?A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储42. 以下哪个是大数据分析的挑战?A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项43. 在数据分析中,K-means算法属于哪一类算法?A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法44. 以下哪个是用于大数据分析的编程语言?A. PythonB. HTMLC. CSSD. JavaScript45. 在数据分析中,SQL代表什么?A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language46. 以下哪个是大数据分析的步骤?A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏47. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 监督学习需要标签数据,非监督学习不需要B. 监督学习不需要标签数据,非监督学习需要C. 监督学习用于分类,非监督学习用于回归D. 监督学习用于回归,非监督学习用于分类48. 以下哪个是Apache Spark的核心组件?A. RDDB. HDFSC. YARND. Hive49. 在数据分析中,PCA代表什么?A. Principal Component AnalysisB. Primary Component AnalysisC. Partial Component AnalysisD. Public Component Analysis50. 以下哪个不是数据仓库的特征?A. 集成性B. 时变性C. 非易失性D. 实时性51. 在数据分析中,RFM模型不包括以下哪个维度?A. 最近一次购买时间B. 购买频率C. 购买金额D. 购买产品种类52. 以下哪个是用于大数据处理的流处理框架?A. Apache KafkaB. Apache HadoopC. Apache CassandraD. Apache Hive53. 在数据分析中,A/B测试主要用于什么?A. 数据清洗B. 数据可视化C. 数据比较D. 数据存储54. 以下哪个是大数据分析的挑战?A. 数据质量B. 数据安全C. 数据处理速度D. 所有上述选项55. 在数据分析中,K-means算法属于哪一类算法?A. 分类算法B. 回归算法C. 聚类算法D. 关联规则算法56. 以下哪个是用于大数据分析的编程语言?A. PythonB. HTMLC. CSSD. JavaScript57. 在数据分析中,SQL代表什么?A. Structured Query LanguageB. Standard Query LanguageC. Simple Query LanguageD. System Query Language58. 以下哪个是大数据分析的步骤?A. 数据收集B. 数据加密C. 数据删除D. 数据隐藏59. 在机器学习中,监督学习与非监督学习的主要区别是什么?A. 监督学习需要标签数据,非监督学习不需要B. 监督学习不需要标签数据,非监督学习需要C. 监督学习用于分类,非监督学习用于回归D. 监督学习用于回归,非监督学习用于分类答案1. C2. B3. A4. C5. D6. A7. B8. B9. A10. A11. A12. A13. A14. D15. D16. A17. C18. D19. C20. A21. A22. A23. A24. A25. A26. D27. D28. A29. C30. D31. C32. A33. A34. A35. A36. A37. A38. D39. D40. A41. C42. D43. C44. A45. A46. A47. A48. A49. A50. D51. D52. A53. C54. D55. C56. A57. A58. A59. A。
大数据测试题
光环国际大数据测试题姓名_______ 成绩________一、单选题(每题2分,共15题)1、当前大数据技术的基础是由()首先提出的A. 微软B. 百度C. 谷歌D. 阿里巴巴2、大数据的起源是()A. 金融B. 电信C. 互联网D. 公共管理3、()反映数据的精细化程度,越细化的数据,价值越高。
A. 规模B. 活性C. 关联度D. 颗粒度4、数据清洗的方法不包括()A. 缺失值处理B. 噪声数据清除C. 一致性检查D. 重复数据记录处理5、当程序经过编译或者汇编以后,形成了一种由机器指令组成的集合,被称为()A. 源程序B. 目标程序C. 可执行程序D. 非执行程序6、大数据的核心就是()A. 告知与许可B. 预测C. 匿名化D. 规模化7、大数据不是要教机器像人一样思考。
相反,它是()A.把数学算法运用到海量的数据上来预测事情发生的可能性。
B.被视为人工智能的一部分C.被视为一种机器学习D.预测与惩罚8、当前社会中,最为突出的大数据环境是()A.互联网B.物联网C.综合国力D.自然资源9、以下哪些技术为大数据常用框架或技术(多选)()。
A.HadoopB.SparkC.HbaseD.Linux10、云计算按照服务类型大致可分为以下类(多选)()A.IaaSB.PaaSC.SaaSD.效用计算11、下列哪个语句在Python中是非法的?()A.x=y=z=1B.x=(y=z+1)C.x,y=y,xD.x+=y12、关于数据的潜在价值,说法正确的是(多选)()A. 数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。
B. 判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其目前的用途。
C. 在基本用途完成后,数据的价值仍然存在,只是处于休眠状态D. 数据的价值是其所有可能用途的总和13、下列不是Java语言面向对象的特点()A.封装B.继承C.跨平台D.多态14、大数据人才整体上需要具备(多选)()等核心知识A.数学与统计知识B.计算机相关知识C.马克思主义哲学知识D.市场运营管理知识15、观察下图,其中问号选择()16、在Python中,下列哪种说法是错误的 ( D )A、除字典类型外,所有标准对象均可以用于布尔测试B、空字符串的布尔值是FalseC、空列表对象的布尔值是FalseD、值为0的任何数字对象的布尔值是False17、ArrayList类的底层数据结构是( A )A、数组结构B、链表结构C、哈希表结构D、红黑树结构18、Java中覆盖与重载的关系是:( A )。
大数据HCIA模拟考试题(含答案)
大数据HCIA模拟考试题(含答案)一、单选题(共40题,每题1分,共40分)1、RDD有Transformation和Action算子,下列属于Action算子的是?A、saveAsTextFileB、reduceByKeyC、mapD、filter正确答案:A2、下面关于ZooKeeper描述错误的是()A、一条消息被一半以上的server接收,他将写入磁盘B、ZooKeeper的节点数必须是奇数个C、消息更新只有成功和失败,没有中间状态D、客户端发送的更新会按照他们发送的顺序被应用正确答案:B3、在规划FuskmlnsightHD集群时候,如果客户用于功能测试,对性能没有要求,节约成本的情况下,可以采用管理节点、控制节点、数据节点合一部署,最少需要多少节点?A、2B、3C、4D、5正确答案:B4、FusionInsightHD部署时,同一集群内的Flumeserver节点建议至少部署几个?A、1B、2C、3D、4正确答案:B5、FusionlnsightHadoop集群中,在某节点上通过df-hT查询,看到的分区包含以下几个:/var/log/srv/BigData/srv/BigData/hadoop/data5/srv/BigData/so lr/solrserver3/srv/BigData/dbdataom这些分区所对应磁盘最佳Raid 级别的规划组合是?A、Raid0Raid1Raid0Non-Raid1B、Raid1Raid1Non-RaidNon-RaidRaid1C、Raid0Raid0Raid0Raid0Raid0D、Non-RaidNon-RaidNon-RaidNon-RaidRaid1正确答案:B6、FusionlnsightHDManager界面Hive日志收集,那个选项不正确?A、可指定实例进行曰志收集,比如指定单独收集MetaStore的曰志B、可指定时间段进行日志收集,比如只收集2016-1-1到2016-1-10的日志C、可指定节点IP进行曰志收集,例如仅下载某个IP的曰志D、可指定特定用户进行曰志收集,例如仅下载userA用户产生的曰志正确答案:D7、关于Kafka磁盘容量不足的告警,对于可能的原因以下分析不正确的是?A、用于存储Kafka数据的磁盘配置(如磁盘数目、大小等),无法满足当前业务数据流量,导致磁盘使用率达到上限B、数据保存时间配置过长,数据累积达到磁盘使用率上限C、业务规划不合理,导致数据分配不均匀,使部分磁盘达到使用率上限D、Broker节点故障导致正确答案:D8、FusionInsightHD系统中,flume数据流在节点内不需要经过哪个组件?()A、sinkB、topicC、SourceD、Channel正确答案:B9、HDFS中的主备仲裁,是由哪个组件控制的?A、ZooleeperFailoverControllerB、NodeManagerC、ResourceManagerD、HDFSClient正确答案:A10、关于HBase中HFile的描述不正确的是?A、一个HFile属于一个RegionB、一个HFile包含多个列族的数据C、一个HFile包含多列数据D、一个HFile包含多行数据正确答案:B11、FusionInsightHD中loader从SFTP服务器导入文件时,不需要做编码转换和数据转换且速度最快的文件类型是以下哪项?()A、sequence_fileB、text_fileC、binary_fileD、graph_file正确答案:C12、关于FusionInsightHD中Loader作业描述正确的是?A、Loader将作业提交到Yarn执行后,如果此时Loader服务出现异常,则此作业执行失败。
大数据测试题答案之一
∙ 1.第一个提出大数据概念的公司是(单选题1分)得分:1分o A.麦肯锡公司o B.脸谱公司o C.微软公司o D.谷歌公司∙ 2.《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》提出,到2020年,统筹区域布局,依托现有资源建成()区域临床医学数据示范中心。
(单选题1分)得分:1分o A.100个o B.300个o C.400个o D.200个∙ 3.茂名PX事件发生后,下列哪个学校的化工系学生在网上进行了一场“PX词条保卫战”?(单选题1分)得分:1分o A.北大o B.浙大o C.复旦o D.清华∙ 4.数据、信息与知识三者之间的变化趋势是()。
(单选题1分)得分:1分o A.宏课程o B.微课程o C.小课程o D.大课程∙ 5.根据涂子沛先生所讲,以下说法错误的是哪项?(单选题1分)得分:1分o A.计算就是物理计算o B.搜索就是计算o C.数据的内涵发生了改变o D.计算的内涵发生了改变∙ 6.大数据的本质是(单选题1分)得分:1分o A.洞察o B.联系o C.挖掘o D.搜集∙7.关于贵州大数据发展的总体思考,下列表述错误的是()。
(单选题1分)得分:1分o A.中期:创建大数据综合试验区o B.起步:建设大数据存储和云计算中心o C.最终:建成国家级大数据综合试验区o D.长期:推动大数据全产业链发展和大数据全领域应用∙8.根据周琦老师所讲,大数据加速道路网络快速更新,高德()完成全国10万公里15万处更新。
(单选题1分)得分:1分o A.2008年o B.2014年o C.2010年o D.2006年∙9.根据周琦老师所讲,高德早在()就开始投入资源来做全国交通信息的采集和发布。
(单选题1分)得分:1分o A.2002年o B.2007年o C.2004年o D.2005年∙10.习近平总书记在2016年几月主持召开了网络安全和信息化工作座谈会?(单选题1分)得分:1分o A.4月o B.3月o C.5月o D.2月∙11.《国务院办公厅关于促进农村电子商务加快发展的指导意见》要求:到()年,初步建成统一开放、竞争有序、诚信守法、安全可靠、绿色环保的农村电子商务市场体系。
大数据CDA考试(习题卷1)
大数据CDA考试(习题卷1)第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在因子分析中,为了帮助解释因子,我们可以使用( )A)因子得分B)因子负载C)因子旋转D)主成分分析答案:C解析:在进行因子分析时,我们可以通过因子旋转来使得最终得到的因子更具有解释性。
2.[单选题]关于Kafka 磁盘容量不足的告警,对于可能的原因以下分析不正确的是?A)业务规划不合理导致数据分配不 均,使部分磁盘达到使用率上限B)数据保存时间配置过长,数据累计 达到磁盘使用率上限C)Broker节点故障导致D)用于存储Kafka 数据的磁盘配置 (如磁盘数目磁盘大小等),无法满 足当前业务数据流量,导致磁盘使 用率达到上限答案:C解析:3.[单选题]基于规则的分类器有Aprior、随机森林,还有()。
A)C4.5B)KNNC)Naive BayesD)ANN答案:A解析:4.[单选题]“将总体中的所有单位( )按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位”,这种抽样方法称为( )A)多阶段抽样(systematicB)分层随机抽样(stratifiedC)集群抽样(clusterD)系统抽样(systematic答案:D解析:根据定义。
5.[单选题]参照以下信息选择能够正确创建orderinfo表的语句A)createB)createC)createD)create答案:A解析:本题考查SQL语句中建表、字段约束条件以及字段数据类型相关知识。
其中建表语句结构为create table 表名(…),字段的约束条件为非空=not null、唯一=unique、主键=primary key。
定长字符串类型为char,可变长字符串类型为varchar,小数类型通常使用float,但“金额”这类对数据精度要求较高的情况,应考虑使用decimal,整数类型为int。
1+x大数据试题+参考答案
1+x大数据试题+参考答案一、单选题(共80题,每题1分,共80分)1、关于Sqoop数据的导入导出描述不正确的是?()A、实现从MySQL到Hive的导入导出B、实现从MySQL到Oracle的导入导出C、实现从HDFS到Oracle的导入导出D、实现从HDFS到MySQL的导入导出正确答案:B2、关于ZooKeeper临时节点的说法正确的是?()A、创建临时节点的命令为:create -s /tmp myvalueB、临时节点允许有子节点C、一旦会话结束,临时节点将被自动删除D、临时节点不能手动删除正确答案:C3、下列关于调度器的描述不正确的是?()A、先进先出调度器可以是多队列B、容器调度器其实是多个FIFO队列C、公平调度器不允许管理员为每个队列单独设置调度策略D、先进先出调度器以集群资源独占的方式运行作业正确答案:A4、Hive 适合()环境A、Hive 适合关系型数据环境B、Hive 适合用于联机(online)事务处理C、适合应用在大量不可变数据的批处理作业D、提供实时查询功能正确答案:C5、下列哪些不是 ZooKeeper 的特点()A、可靠性B、顺序一致性C、多样系统映像D、原子性正确答案:C6、tar 命令用于对文件进行打包压缩或解压,-t 参数含义()A、查看压缩包内有哪些文件B、创建压缩文件C、向压缩归档末尾追加文件D、解开压缩文件正确答案:A7、下列哪些不是 HBase 的特点()A、高可靠性B、高性能C、面向列D、紧密性正确答案:D8、把公钥追加到授权文件的命令是?()A、ssh-addB、ssh-copy-idC、ssh-keygenD、ssh正确答案:B9、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB。
当运行mapreduce任务读取该文件时input split大小为?A、64MBB、75MBC、一个map读取64MB,另外一个map读取11MB正确答案:B10、大数据平台实施方案流程中,建议整个项目过程顺序是()。
大数据试题
1、下面哪一项不属于大数据关键技术()(单选题)A.云计算B.分布式文件系统C.数据众包D.关系型数据库回答正确2、最早提出大数据时代概念的公司是()(单选题)A.微软公司B.谷歌公司C.脸谱公司D.麦肯锡公司回答正确3、大数据所带来的思维变革不包括()(单选题)A.不是随机样本而是全体数据B..不是精确性而是混杂性C..不是因果关系而是相关关系D..不是歧视而是平等回答正确4、大数据元年是指()(单选题)A.2010年B.2011年C.2012年D.2013年回答正确5、下面陈述不正确的是()(单选题)A.大数据将实现科学决策B.大数据使政府决策更加精准化C.大数据彻底将群体性事件化解在萌芽状态D.大数据将实现预测式决策回答正确6、下面哪项关联不属于购物篮分析()(单选题)A.啤酒和尿布B.湿巾和烧烤C.咖啡和咖啡伴侣D.飓风和蛋挞回答正确7、下面哪个理论描述了亚马逊的商业模式()(单选题)A.长尾理论B.二八定律C.六度空间理论D.冰山理论回答正确8、第一个将大数据上升为国家战略的国家是()(单选题)A.中国B.美国C.英国D.法国回答正确9、下面哪一项不属于大数据系统的必备要素()(单选题)A.云平台B.物联网C.数据D.数据库回答正确10、信息时代的三大定律不包括()(单选题)A.摩尔定律B.吉尔德定律C.达律多定律D.麦特卡尔夫定律回答正确11、下面关于数据开放的陈述哪些是正确的()(多选题)A.要提供应用程序开放接口B.允许公众免费查询、下载C.要提供全部的原始数据D.允许公民要求数据开放数据回答正确12、单纯依据大数据预测做出决策需要遵循哪些原则()(多选题)A.公开原则B.公正原则C.可反驳原则D.确保个人动因能防范数据独裁的危害回答正确13、大数据的产生要归功于人类哪些方面能力的提升()(多选题)A.生产数据的能力B.保存数据的能力C处理数据的能力D.展示数据的能力回答正确14、大数据的特征包含()(多选题)A.规模性B.多样性C.高速性D.价值密度低回答正确15、大数据处理流程可以概括为以下哪几步()(多选题)A.数据分析与挖掘B.数据采集C.数据储存D.结果展示回答正确16、与其他部门相比,政府部门在应用大数据时具有哪些优势()(多选题)A.创新能力更强B.面临苦难最小C.获得收益最多D.价值潜力更大回答正确17、相比于政府1.0,政府2.0具有哪些特征()(多选题)A.侧重于“以政府为中心”B.侧重于“以公众为中心”C.政府扮演单一和主导性的角色D.吸纳多元主体的参与回答正确18、大数据带来的挑战有哪些()(多选题)A.会导致数据盲点B.危及个人隐私C.造成群体歧视D.产生庞大能耗回答正确19、下面例子属于大数据技术公司的是()(多选题)A.商品比价系统B.ZestFinance的信用风险评估C.塔吉特怀孕预测指数D.基于社会化的众包天气报告应用Weddar回答正确20、中国大数据产业特征包括()(多选题)A大数据整体解决方案成熟B.区域产业集聚现雏形C.大数据基础研究受到重视D.互联网企业表现强势回答正确21、大数据思维认为海量数据结合复杂算法在应用中更加有效。
ict大数据测试题+参考答案
ict大数据测试题+参考答案1、关于HIVE的描述不正确的是:()。
A、Hive最佳使用场景是大数据集的批处理作业B、Hive可以实现在大规模集群上实现低延迟快速查询C、Hive构建在基于静态批量处理的Hadoop之上,Hadoop通常有较高的延迟并且在提交作业和调度的时候需要大量的开销D、Hive查询操作过程严格遵循Hadoop MapReduce的作用执行模型,Hive 将用户的HiveSQL语句通过解释器转换为MapReduce Hadoop集群上答案:B2、云平台创建弹性云服务器是:()功能模块创建的。
A、glanceB、neutronC、cinderD、nova答案:D3、Hadoop框架是用下面()语言写的。
A、PytyonB、JavaC、C++D、Scala答案:B4、FusionInsight HD中Hbase默认使用()组件作为其底层文件存储系统。
A、FileB、KafkaC、HDFSD、Memory答案:C5、以下关于数据服务API开放方使用流程,描述正确的是:()。
A、创建api并发布apiB、获取APIC、调用APID、创建应用并获取授权答案:A6、Python3不支持的数据类型有(____)。
B、intC、listD、float答案:A7、Zookeeper在分布式应用中的主要作用不包括:()选项。
A、选举Master节点B、存储及群中服务器信息C、保证各节点上数据的一致性D、分配集群资源答案:D8、HDFS基本系统架构中,副本配置通常存储()份?A、3B、4C、1D、2答案:A9、随着互联网业务的极速增长,应用架构也随之不断变迁,请问以下哪种在应用架构的变迁中未提及?A、微服务架构B、原子架构C、SOA架构D、单体架构答案:B10、哪个是Kubernetes控制器?A、DeploymentB、ReplicaSet和DeploymentC、ReplicaSetD、Rolling Updates答案:B11、成功通过对象域名下载文件的前提是:()。
ict大数据练习题(含参考答案)
ict大数据练习题(含参考答案)一、单选题(共60题,每题1分,共60分)1、Kafka中每种消息类别称为什么?A、TopicB、SubjectC、ThezeD、Object正确答案:A2、关于删除负载均衡,错误的是。
A、除非必要,请不要删除已创建的ELB服务B、删除了ELB服务以后相应,的服务配置和服务地址保留C、如果重新创建ELB服务,可以由系统重新分配一个服务地址D、如果重新创建ELB服务,可以指定原地址正确答案:B3、查询集合操作中,表示交集的是:()。
A、INTERSECTB、MINUSC、EXECPTD、UNION正确答案:A4、在实际工作中,VLAN 能实现的功能是哪个A、属于相同vlan的虚拟机应该使用相同地址段的IP地址,否则无法正常通信。
B、两个部门的虚拟机使用了不同的VLAN 以后,相互之间不能再通信C、属于相同VLAN 的虚拟机可以使用不同地址段的IP 地址,并能使用广播发现彼此D、属于不同VLAN 的虚拟机可以使用相同的IP 地址,且不会发生地址冲突正确答案:A5、以下()属于VDC只读管理员权限。
A、对本 VDC 及其下级 VDC 中资源、用户、项目、自运维等具有操作权限B、对用户、操作日志等具有导出权限C、创建下级VDCD、管理审批流程正确答案:B6、发布基于Docker的容器应用,包含应用构建、配置信息的部件是什么?A、Docker imageB、Docker registryC、DockerfileD、Docker Hub正确答案:C7、代维帐号可以进入被代维的()一级VDC进行代维。
A、1个B、2个C、5个D、1个或多个正确答案:D8、Microsoft SQL Server默认可创建()个数据库。
A、200B、100C、300D、500正确答案:B9、HBase表设计为什么一般不超过两个列簇?A、过多的列簇不适合读写分离B、过多的列簇会导致memstoreflush时I0压力过大C、过多的列簇I0开销大D、过多的列簇StoreFil1e过多,Coapaction压力大正确答案:C10、FusionInsightHD系统中,()不属于集群节点的磁盘分区。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
光环国际大数据测试题
姓名________ 成绩 ________________________________________
一、单选题(每题2分,共15题)
1、当前大数据技术的基础是由()首先提出的
A. 微软
B. 百度
C. 谷歌
D. 阿里巴巴
2、大数据的起源是()
A. 金融
B. 电信
C. 互联网
D. 公共管理
3、()反映数据的精细化程度,越细化的数据,价值越高。
A. 规模
B. 活性
C.关联度
D. 颗粒度
4、数据清洗的方法不包括()
A. 缺失值处理
B.噪声数据清除
C. 一致性检查
D.重复数据记录处理
5、当程序经过编译或者汇编以后,形成了一种由机器指令组成的集合,被称为()
A. 源程序
B. 目标程序
C. 可执行程序
D. 非执行程序
6大数据的核心就是()
A. 告知与许可
B. 预测
C. 匿名化
D. 规模化
7、大数据不是要教机器像人一样思考。
相反,它是()
A. 把数学算法运用到海量的数据上来预测事情发生的可能性。
B. 被视为人工智能的一部分
C. 被视为一种机器学习
D. 预测与惩罚
8、当前社会中,最为突出的大数据环境是()
A.互联网
B.物联网
C.综合国力
D.自然资源
9、以下哪些技术为大数据常用框架或技术(多选)()。
A.Hadoop
B.Spark
C.Hbase Li nux
10、云计算按照服务类型大致可分为以下类(多选)()
A.IaaS
B.PaaS
C.SaaS
D.效用计算
11、下列哪个语句在Python中是非法的?()
A.x=y=z=1
B.x=(y=z+1)
C.x,y=y,x
D.x+=y
12、关于数据的潜在价值,说法正确的是(多选)()
A. 数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝
大部分则隐藏在表面之下。
B. 判断数据的价值需要考虑到未来它可能被使用的各种方式,而非仅仅考虑其
目前的用途。
C. 在基本用途完成后,数据的价值仍然存在,只是处于休眠状态
D. 数据的价值是其所有可能用途的总和
13、下列不是Java语言面向对象的特点()
A.封装
B.继承
C.跨平台
D.多态
14、大数据人才整体上需要具备(多选)()等核心知识
A. 数学与统计知识
B. 计算机相关知识
C. 马克思主义哲学知识
D. 市场运营管理知识
15、观察下图,其中问号选择()
16、在Python中,下列哪种说法是错误的(D )
A、除字典类型外,所有标准对象均可以用于布尔测试
B 空字符串的布尔值是False
C空列表对象的布尔值是False
D值为0的任何数字对象的布尔值是False
17、ArrayList类的底层数据结构是(A )
A、数组结构
B链表结构
C哈希表结构
D红黑树结构
18、Java中覆盖与重载的关系是:(A )。
A、覆盖只有发生在父类与子类之间,而重载可以发生在同一个类中
B覆盖方法可以不同名,而重载方法必须同名
C final修饰的方法可以被覆盖,但不能被重载
D覆盖与重载是同一回事
19、下面关于进程、线程的说法不正确的是(C )。
A、进程是程序的一次动态执行过程。
一个进程在其执行过程中,可以产生多
个线程一一多线程,形成多条执行线索。
B、线程是比进程更小的执行单位,是在一个进程中独立的控制流,即程序内部
的控制流。
线程本身不能自动运行,栖身于某个进程之中,由进程启动执
行。
C、Java多线程的运行与平台无关。
D对于单处理器系统,多个线程分时间片获取CPU或其他系统资源来运行对于多处理器系统,线程可以分配到多个处理器中,从而真正的并发执行多任
务。
20、请问下列哪些类是定义在java.io 包中的抽象类(ABD )(多选)
A. In putStream
B.Outputstream
C. Prin tStream
D.Reader
E. F.
二、填空题(共
10
题,
每题2分)
16、数据库的三大范式、、
17、Linux下__________________ 令把某一个文件下的所有的文件分发到其他的机器上。
18、______________ Linux用令查看cpu,硬盘,内存的信息。
19、Java的三大体系分别是 ____ 、________ 、 _____
20、_______________________________________________ Java中的变量可分为两种数据类型,分别是 __________________________________ 和 _____ 。
21、在java中,byte类型数组占______ 字节,short类型数据占______ 个字节,int类型数据占_____ 个字节,Io ng类型数据占_____ 字节
22、Python中的可变数据类型有 _____ ,不可变数据类型有___________ 。
23、Python提供了两个对象身份比较操作符 ______ 和____ 测试两个变量是否
指向同一个对象,也可以通过内建函数 ________ 测试对象的类型。
24、队列的实现是______ 消费的顺序是 ________ 。
25、hadoop的角色中_______ 责管理元数据信息、 _________ 做name node冷备份、 ________ 要做储存数据的、 ____________ 理任务、 ___________ 行任务。
三、判断题(每题1分,共10题)
26、数据化就是数字化,是相互等同的关系。
()
27、即使数据用于基本用途的价值会减少,但潜在价值却依然强大。
()28、对于大型、中等、小型规模的公司而言,大数据对中等规模的公司帮助最大。
()
29、大数据的核心思想就是用规模剧增来改变现状。
()
30、一般而言,分布式数据库是指物理上分散在不同地点,但在逻辑上是统一的
数据库。
因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。
()
31、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。
因此,
大数据收集的信息量要尽量精确。
()
32、简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些
样本作为调查对象。
在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。
()
33、大数据预测能够分析和挖掘出人们不知道或没有注意到的模式,确定判断事
件必然会发生。
()
34、Java和c都是面向对象的程序设计语言。
()
35、H adoop支持数据的随机读写。
()
36、J ava静态初始化器是在其所属的类对象实例化时由系统自动调用执行。
(F)
37、J ava线程间通信可通过共享数据使线程互相交流,也可通过线程控制方法
使线程互相等待。
(T)
38、在Python中除字典类型外,所有标准对象均可以用于布尔测试(T)
39、40XL是Python合法的标识符(F )
40、Java中map集合的value值可以重复(T )
四、问答题(每题10分,共4题)
36、简述大数据技术的特点。
37、说下你理解的大数据,以及知道的大数据相关的一些技术和框架;谈谈你对hadoop的一些理解,包括哪些组件。
38、明一家过一座桥,过桥时是黑夜,所以必须有灯。
现在小明过桥要1秒,小明的弟弟要3秒,小明的爸爸要6秒,小明的妈妈要8秒,小明的爷爷要12秒。
每次此桥最多可过两人,而过桥的速度依过桥最慢者而定,而且灯在点燃后30 秒就会熄灭。
问:小明一家如何过桥
39、有7克、2克砝码各一个,天平一只,如何只用这些物品三次将140克的盐分成50、90克各一份?
40、多线程实现交替打印1到20?
T H LW 曰・
X h 厂q a-d X - T H 3d 2 ・ T H ・
T h lq曰d N , ~V H lw目diX. T h r—« 2 -
T h r-e 曰d JL , X hi ad 2 ・T h d-d ■
41、写出你所知道的所有能遍历list和map集合的方法42、一行把[1,2,3,1,2,3] 中的重复元素剔除。