大数据复习题(答案)

合集下载

大数据应用基础复习题答案

大数据应用基础复习题答案一、选择题1. 大数据的5V特性包括：A. 体积大（Volume）、速度高（Velocity）、多样性（Variety）、价值（Value）、真实性（Veracity）B. 体积大（Volume）、速度高（Velocity）、多样性（Variety）、价值（Value）、可视化（Visualization）C. 体积大（Volume）、速度高（Velocity）、多样性（Variety）、价值（Value）、易用性（Usability）D. 体积大（Volume）、速度高（Velocity）、多样性（Variety）、价值（Value）、可扩展性（Scalability）答案：A2. 在大数据中，Hadoop生态系统中的核心组件是：A. HBaseB. HiveC. SparkD. HDFS答案：D3. 以下哪个不是大数据应用的领域？A. 金融B. 医疗C. 教育D. 农业答案：C（注：实际上大数据应用已经涵盖了教育领域，但根据题目要求，选择一个不是大数据应用领域的选项，这里假设教育不是）二、简答题1. 简述大数据与传统数据仓库的区别。

答：大数据与传统数据仓库的区别主要体现在以下几个方面：- 数据类型：大数据支持结构化、半结构化和非结构化数据，而传统数据仓库主要处理结构化数据。

- 存储能力：大数据技术如Hadoop可以处理PB级别的数据，而传统数据仓库通常处理TB级别的数据。

- 处理速度：大数据技术通常采用分布式计算，能够快速处理大量数据，而传统数据仓库处理速度相对较慢。

- 成本效益：大数据技术通常使用廉价的硬件资源，成本较低；传统数据仓库可能需要昂贵的专用硬件。

- 可扩展性：大数据技术具有良好的可扩展性，可以根据需要轻松扩展；传统数据仓库的扩展性相对较差。

2. 描述Hadoop生态系统中MapReduce的工作流程。

答：MapReduce的工作流程包括以下几个步骤：- Map阶段：输入数据被分割成多个数据块，每个数据块由一个Map任务处理。

大数据专业考试题及答案

大数据专业考试题及答案一、选择题（每题2分，共20分）1. 大数据的“4V”特征不包括以下哪一项？A. Volume（体量）B. Velocity（速度）B. Variety（多样性）D. Visibility（可见性）答案：D2. 在大数据技术中，Hadoop生态系统中的核心组件是：A. SparkB. HBaseC. HiveD. HDFS答案：D3. 以下哪个不是大数据存储技术？A. NoSQL数据库B. 关系型数据库C. 分布式文件系统D. 内存数据库答案：B4. 以下哪个是大数据分析的关键技术？A. 数据清洗B. 数据可视化C. 数据挖掘D. 所有选项都是答案：D5. 大数据平台中，用于实时数据处理的技术是：A. MapReduceB. StormC. HadoopD. Cassandra答案：B...（此处省略其他选择题）二、简答题（每题10分，共30分）1. 简述大数据与传统数据仓库的主要区别。

答案：大数据与传统数据仓库的主要区别在于：大数据处理的数据量更大、数据类型更多样化、处理速度更快，并且大数据技术更倾向于分布式存储和计算，而传统数据仓库通常采用集中式存储和处理。

2. 解释什么是数据挖掘，并举例说明其应用场景。

答案：数据挖掘是从大量数据中通过算法自动或半自动地发现有趣模式和知识的过程。

例如，在零售业中，数据挖掘可以用来分析顾客的购买行为，从而进行个性化推荐和库存管理。

3. 描述Hadoop生态系统中MapReduce的工作流程。

答案：MapReduce的工作流程包括Map阶段和Reduce阶段。

在Map 阶段，输入数据被分割成多个小块，每个小块由一个Map任务处理，生成中间键值对。

在Reduce阶段，中间键值对根据键进行分组，并传递给Reduce任务，Reduce任务对每个键对应的所有值进行处理，生成最终的输出结果。

三、计算题（每题15分，共30分）1. 假设有一个大数据集，需要使用MapReduce进行处理。

大数据考试试题及答案

大数据考试试题及答案1. 选择题1) 大数据的关键特征是什么？A. 数据的规模巨大B. 数据的多样性C. 数据的高速产生和流转D. 数据的价值潜力答案：A、B、C、D 全部都是2) 大数据技术的基本架构包括以下哪些层次？A. 数据采集与清洗层B. 数据存储与管理层C. 数据分析与挖掘层D. 数据展示与应用层答案：A、B、C、D 全部都有3) 大数据分析的主要方法包括以下哪些？A. 关联分析B. 聚类分析C. 回归分析D. 时间序列分析答案：A、B、C、D 全部都有2. 填空题1) 大数据的三个V分别代表什么？（简写形式即可）答案：V（Volume）代表数据规模，V（Velocity）代表数据高速产生和流转，V（Variety）代表数据多样性2) 大数据技术的核心是____和____。

答案：存储与计算3) 大数据分析的关键是____和____。

答案：数据挖掘和模型建立3. 简答题1) 请简述大数据的应用领域。

答案：大数据在各行各业都有广泛的应用。

例如，电商领域可以通过大数据分析用户消费行为，进行个性化推荐；物流领域可以利用大数据优化配送路径，提高效率；医疗领域可以通过大数据分析患者病历，辅助疾病诊断等。

2) 大数据分析的方法有哪些？答案：大数据分析的方法包括关联分析、聚类分析、分类与预测、异常检测、文本分析等。

4. 计算题1) 如果一家公司的服务器每天产生1TB（1TB = 1024GB）的数据，假设这些数据需要保存1年，计算一共需要多少存储空间？答案：1TB * 365天 = 365TB2) 某电商网站每天访问量为1000万人次，每个访问用户产生平均10个点击行为数据，假设每条点击行为数据大小为1KB，计算每天需要存储多少数据？答案：1000万人次 * 10个 = 1亿个点击行为数据1亿个 * 1KB = 100TB总结：大数据的考试试题主要包括选择题、填空题、简答题和计算题。

选择题涵盖大数据的特征、技术架构和分析方法。

完整版)大数据复习题(答案)

完整版)大数据复习题(答案)1.大数据的起源是互联网。

2.大数据的最明显特点是数据规模大。

3.大数据时代，数据使用的最关键是数据再利用。

4.云计算分层架构不包括Yaas。

5.大数据技术是由___首先提出来的。

6.数据的精细化程度是指颗粒度，越细化的数据，价值越高。

7.数据清洗的方法不包括重复数据记录处理。

8.智能手环的应用开发，体现了传感器的数据采集技术的应用。

9.下列关于数据重组的说法中，错误的是数据的重新生产和采集。

10.美国海军军官___通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中在分析方法上更注重相关分析而不是因果分析。

11.下列关于含___对大数据特点的说法中，错误的是价值密度高。

12.当前社会中，最为突出的大数据环境是互联网。

13.在数据生命周期管理实践中，数据管理和维护是执行方法。

14.下列关于网络用户行为的说法中，错误的是数字轨迹用完即自动删除。

15.下列关于聚类挖掘技术的说法中，错误的是要求同类数据的内容相似度尽可能小。

1.大数据最初来源于互联网。

2.大数据最显著的特点就是数据规模庞大。

3.在大数据时代，数据再利用是最关键的。

4.云计算分层架构不包括Yaas。

5.___首先提出了大数据技术。

6.数据精细化程度指的是颗粒度，数据越精细，价值越高。

7.数据清洗的方法不包括重复数据记录处理。

8.智能手环的应用开发体现了传感器的数据采集技术的应用。

9.数据重组的说法中，错误的是数据的重新生产和采集。

10.美国海军军官___通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中更注重相关分析而不是因果分析。

11.___对大数据特点的说法中，错误的是价值密度高。

12.当前社会中，互联网是最为突出的大数据环境。

13.在数据生命周期管理实践中，数据管理和维护是执行方法。

14.关于网络用户行为的说法中，错误的是数字轨迹用完即自动删除。

大数据考试题目及答案

大数据考试题目及答案一、单项选择题（每题2分，共20分）1. 大数据技术的核心目标是处理哪种类型的数据？A. 结构化数据B. 半结构化数据B. 非结构化数据D. 所有上述数据类型答案：D2. 在大数据分析中，以下哪个算法主要用于聚类分析？A. 决策树B. 神经网络C. K-meansD. 线性回归答案：C3. Hadoop的核心组件包括以下哪个？A. SparkB. HiveC. HBaseD. MapReduce答案：D4. 数据挖掘中的“关联规则”通常与哪位学者的名字联系在一起？A. 马斯洛B. 纳维斯C. 阿普拉姆D. 汉斯答案：B5. 大数据的“4V”特性不包括以下哪一项？A. 体量大B. 速度快C. 价值高D. 成本高答案：D6. 在大数据架构中，数据湖主要用于存储什么类型的数据？A. 仅结构化数据B. 仅非结构化数据C. 结构化和非结构化数据D. 仅半结构化数据答案：C7. 下列哪项不是大数据分析的常见应用场景？A. 市场分析B. 风险管理C. 客户细分D. 纸质文档打印答案：D8. 大数据技术可以有效地处理“数据孤岛”问题，这主要是指：A. 数据的物理隔离B. 数据的逻辑隔离C. 数据的格式不统一D. 数据的存储位置分散答案：B9. 在大数据环境下，以下哪个数据库更适合处理非关系型数据？A. MySQLB. OracleC. MongoDBD. SQL Server答案：C10. 大数据的实时分析通常依赖于哪种技术？A. 数据仓库B. 批处理C. 流处理D. 数据挖掘答案：C二、多项选择题（每题3分，共15分）11. 大数据的存储技术包括以下哪些选项？（多选）A. 云存储B. 分布式文件系统C. 关系型数据库D. NoSQL数据库答案：A B D12. 在大数据的生态系统中，以下哪些组件是常见的？（多选）A. HadoopB. SparkC. MongoDBD. Excel答案：A B C13. 大数据的分析过程通常包括哪些步骤？（多选）A. 数据采集B. 数据清洗C. 数据可视化D. 数据丢弃答案：A B C14. 以下哪些因素会影响大数据的性能？（多选）A. 数据的规模B. 数据的处理速度C. 数据的存储格式D. 数据的来源答案：A B C15. 在大数据安全领域，以下哪些措施是重要的？（多选）A. 数据加密B. 访问控制C. 数据备份D. 系统防火墙答案：A B C D三、简答题（每题10分，共20分）16. 请简述大数据的“4V”特性是什么？答案：大数据的“4V”特性指的是体量大（Volume）、速度快（Velocity）、类型多（Variety）、价值高（Value）。

大数据考试题目及答案

大数据考试题目及答案一、单选题（每题2分，共10分）1. 大数据的“4V”特征不包括以下哪一项？A. Volume（体量）B. Velocity（速度）C. Variety（多样性）D. Visualization（可视化）答案：D2. Hadoop生态系统中，用于数据存储的是以下哪个组件？A. HBaseB. HiveC. MapReduceD. YARN答案：A3. 以下哪个不是大数据技术？A. SparkB. HadoopC. MongoDBD. MySQL答案：D4. 大数据的分析处理通常不包括以下哪个阶段？A. 数据收集B. 数据清洗C. 数据存储D. 数据展示答案：D5. 下列哪个选项不是大数据应用的领域？A. 金融B. 医疗C. 教育D. 农业答案：C二、多选题（每题4分，共20分）1. 大数据技术可以应用于以下哪些行业？A. 电子商务B. 物流C. 制造业D. 教育答案：A、B、C、D2. 以下哪些是Hadoop生态系统的组成部分？A. HDFSB. MapReduceC. SparkD. HBase答案：A、B、C、D3. 大数据的分析方法包括哪些？A. 描述性分析B. 诊断性分析C. 预测性分析D. 规范性分析答案：A、B、C、D4. 大数据的挑战包括哪些？A. 数据安全B. 数据隐私C. 数据存储D. 数据处理答案：A、B、C、D5. 以下哪些是大数据分析工具？A. RB. PythonC. SASD. Excel答案：A、B、C三、判断题（每题2分，共10分）1. 大数据技术只能用于处理非结构化数据。

（）答案：错误2. Hadoop可以处理PB级别的数据。

（）答案：正确3. 大数据技术不需要考虑数据的实时性。

（）答案：错误4. 大数据技术可以提高决策的效率和准确性。

（）答案：正确5. 大数据技术无法应用于个人隐私保护。

（）答案：错误四、简答题（每题10分，共20分）1. 简述大数据的“4V”特征。

大数据试题及答案

第一组试题一、选择题1、以下哪个不是大数据的特征（ C ）A。

价值密度低B。

数据类型繁多C。

访问时间短D。

处理速度快2、当前大数据技术的基础是由( C )首先提出的。

(单选题，本题2 分)A：微软B：百度C：谷歌D：阿里巴巴3、大数据的起源是( C )。

（单选题，本题2 分）A：金融B：电信C：互联网D：公共管理4、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（ C ）。

（单选题,本题 2 分）A：数据管理人员B：数据分析员C:研究科学家D:软件开发工程师5、( C )反映数据的精细化程度,越细化的数据，价值越高。

(单选题，本题2 分）A：规模B：活性C：颗粒度D: 关联度6、智能健康手环的应用开发，体现了（C )的数据采集技术的应用。

(单选题，本题2 分）A：统计报表B:网络爬虫C：传感器D：API 接口7、下列关于数据重组的说法中，错误的是（C ）。

（单选题，本题2 分）A:数据重组实现的关键在于多源数据融合和数据集成B：数据重组能够使数据焕发新的光芒C：数据重组是数据的重新生产和重新采集D：数据重组有利于实现新颖的数据模式创新8、智慧城市的构建，不包含（C ）。

（单选题，本题2 分）A:数字城市B:物联网C:联网监控D：云计算9、当前社会中，最为突出的大数据环境是（C ）。

(单选题，本题2 分）A: 综合国力B:物联网C:互联网D:自然资源二、判断题1。

对于大数据而言，最基本。

最重要的是要求就是减少错误、保证质量.因此，大数据收集的信息要尽量精确。

（）2. 对于大数据而言，在数据规模上强调相对数据而不是绝对数据。

（)3.基于大数据的营销模式和传统营销模式,传统营销模式比大数据营销模式投入更小。

（）4。

大数据具有体量大、结构单一、时效性强的特征.( ）三、简答题1.大数据发展过程中遇到的问题有哪些？解析：(1)大数据是全数据，忽视甚至蔑视抽样；（2）连续数据就是大数据；（3）数据量级大是大数据；（4）数据量大好于量小。

大数据试题及答案

大数据试题及答案1. 选择题：1. 下列哪项不属于大数据的四个"V"特点？A. Volume（数据量大）B. Value（数据价值高）C. Velocity（数据处理速度快）D. Variety（数据类型多样）答案：B. Value（数据价值高）2. 下列哪个不是大数据的常见来源？A. 传感器数据B. 金融交易数据C. 社交媒体数据D. 游戏排行榜数据答案：D. 游戏排行榜数据3. 大数据技术中，下列哪个属于数据存储和处理工具？A. Apache HadoopB. Apache SparkC. TableauD. Python答案：A. Apache Hadoop4. 在大数据处理中，下列哪项不属于数据清洗和预处理的步骤？A. 数据收集B. 数据分析C. 数据转换D. 数据集成答案：B. 数据分析2. 填空题：1. 大数据中，_______ 指的是数据的速率和延迟，即数据的产生和消耗速度之间的平衡。

答案：Velocity（数据处理速度快）2. 大数据技术中，________________ 是一种用于处理大规模数据计算的开源集群处理框架。

答案：Apache Hadoop3. 大数据分析常用的编程语言包括____________ 和____________。

答案：Python 和 R4. 在大数据清洗和预处理过程中，数据转换的步骤包括数据筛选、数据归一化和_____________。

答案：数据聚合3. 简答题：1. 请简述大数据的定义和特点。

答：大数据是指数据量庞大、类型多样、处理速度快且具有高价值的数据集合。

大数据的特点主要可以归纳为四个"V"，即Volume（数据量大）、Velocity（数据处理速度快）、Variety（数据类型多样）和Value（数据价值高）。

大数据具有海量的数据量，数据来源广泛，包括传感器数据、社交媒体数据等；处理速度快，需要使用专门的大数据技术和工具进行高效的数据存储、处理和分析；数据类型多样，包括结构化数据和非结构化数据；数据具有高价值，可以帮助企业做出更准确的决策和预测。

大数据试题及答案

大数据试题及答案一、单选题1. 大数据的4V特性不包括以下哪一项？A. Volume（体量）B. Velocity（速度）C. Variety（多样性）D. Validity（有效性）答案：D2. 在大数据分析中，以下哪项技术主要用于数据的存储和管理？A. HadoopB. SparkC. R语言D. SQL答案：A3. 大数据的实时分析通常指的是什么？A. 批量处理数据B. 流式处理数据C. 离线分析数据D. 数据挖掘答案：B4. 下列哪个是大数据分析的典型应用场景？A. 财务报告编制B. 客户行为分析C. 产品成本核算D. 员工绩效评估答案：B5. 在大数据架构中，MapReduce通常用于什么？A. 数据存储B. 数据查询C. 数据处理D. 数据可视化答案：C二、多选题6. 下列哪些是大数据技术生态系统中常见的组件？（多选）A. HadoopB. MongoDBC. HiveD. Cassandra答案：A, C, D7. 在大数据的背景下，以下哪些因素可能对数据隐私和安全构成威胁？（多选）A. 数据泄露B. 不当的数据共享C. 黑客攻击D. 法律监管不足答案：A, B, C, D8. 大数据技术可以帮助企业实现哪些目标？（多选）A. 提高运营效率B. 增强市场竞争力C. 降低成本D. 提升客户满意度答案：A, B, C, D三、判断题9. 所有大数据问题都可以通过单一的大数据技术解决。

（对/错）答案：错10. 大数据技术的发展完全依赖于开源社区。

（对/错）答案：错四、简答题11. 简述大数据技术在医疗健康领域的应用。

答案：大数据技术在医疗健康领域的应用包括疾病预测、个性化医疗、医疗影像分析、临床决策支持、药物研发、患者健康管理等。

通过分析大量的医疗记录和健康数据，可以帮助医生做出更准确的诊断，为患者提供个性化的治疗方案，同时优化医疗资源的分配和使用。

12. 描述一下什么是数据湖以及它在大数据分析中的作用。

大数据复习题(答案)

大数据复习题(答案)一、单选题1、大数据的起源是（B）。

A：金融B：互联网C：电信D：公共管理2、大数据的最明显特点是（B）。

A：数据类型多样B：数据规模大C：数据价值密度高D：数据处理速度快3、大数据时代，数据使用的最关键是（D）。

A：数据收集B：数据存储C：数据分析D：数据再利用4、云计算分层架构不包括（D）。

A: Iaas B: Paas C: Saas D: XXX5、大数据技术是由（C）公司首先提出来的。

6、数据的精细化程度是指（C），越细化的数据，价值越高。

A：规模B：活性C：颗粒度D：关联性7、数据清洗的方法不包括（C）A：噪声数据清除B：一致性检查C：重复数据记录处理D：缺失值处理智能手环的应用开发，体现了（C）的数据采集技术的应用。

A：网络爬虫B：API接口C：传感器D：统计报表9、下列关于数掲重组的说法中，错误的是（A）。

A：数据的从头出产和收罗B：能使数据焕发新的光芒C：关键在于多源数据的融会和集成D：有利于新的数据形式创新10、美国海军军官XXX通过对前人航海日志的分析，绘制考了新的航海路线图，标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的（B）。

A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析结果上更追究效率而不是绝对正确D：在数据范围上强调相对数据而不是绝对数据11、下列关于含XXX对大数据特点的说法中，错误的是(D)A：数据范围大B：数据类型多C：处理速度快D：价值密度高12、当前社会中，最为突出的大数据环境是（A）A：互联网B：自然环境C：综合国力D：物联网13、在数据生命周期管理实践中，（B）是执行方法。

A：数据存储和各份规范B：数据管理和保护C：数据价值发觉和利用D：数据利用开发和管理14、下列关于网络用户行动的说法中，错误的是（C）。

A：网络公司能够捕捉到用户在其网站上的所有行为B：用户离散的交互XXX能够为企业晋升效劳质量提供参C：数字轨迹用完即主动删除D：用户的隐私安全很难得以规范保护15、下列关于聚类挖报技术的说法中，错误的是（B）。

大数据技术概论期末复习题2023-11(附参考答案)

单项选择题1.下列各项不属于数据的是（）oA.文本B.图像C.视频D.印象2.下列各项不属于大数据特征的是（）oA体量大 B.种类多C真实性 D.数据生成慢3.数据异常值的处理方法不包括（）。

A极小值替换 B.删除C忽略 D.视为缺失值进行填补4.下列各项不能用于描述数据集中趋势的是（）。

A方差 B.平均数C中位数D.峰值5.下列各项不属于HadoOP的特点是（）。

A.存储迅速B.成本高C,计算能力强 D.灵活性强6.在工业网络实时监控系统中，需要连续不断地采集和处理数据。

以下（）不属于这种计算模式。

A.在线处理B.实时处理C.流式计算D.批量计算7.下面不是研究数据方法的是（）。

A.统计学B.机器学习C.心理分析D.数据挖掘8.下面不属于大数据的处理过程的是（）。

A.数据获取B.数据清洗C数据分析 D.数据安全9.下面不属于大数据计算模式的类型的是（）。

A.批量计算B.手动计算C.流式计算D,交互式计算10.下列各项属于合规数据的是（）oA非法收集隐私信息数据 B.取得使用者同意的个人资料数据C泄露的隐私信息数据 D.垄断数据11.在HadOOP生态系统中，主要负责节点集群的任务调度和资源分配，将存储和计算资源分配给不同应用程序的组件是（）。

A.HDFSB.MapReduceC.YARND.Storm12.下列属于图数据的主要特性的是（）。

A.数据驱动计算B.不规则问题C高数据访问率 D.以上均是13.可以用来查看数值型变量的分布的可视化方法是（）。

A.箱线图B.直方图C小提琴图D,以上方法均可以14.如果只是研究两个数值变量之间的关系，最常见的可视化方法是（）。

A.直方图B.散点图C饼图 D.折线图15.下列各项不属于批处理系统的特点的是（）。

A.可以实现实时的分析报告或自动响应B.可以实现无缝扩展以处理峰值数据量或数据请求C,支持数据在不同系统之间进行交换D.支持作业执行状态的监控16.下列各项属于非结构化数据的是（）0A.图像B.二维数据表CHTML文档 D.以上均是17.在大数据的处理流程中，（）步骤是将数据转化为图形，以更直观的方式展示和表达。

考研大数据试题及答案

考研大数据试题及答案一、单项选择题（每题2分，共20分）1. 大数据的核心特征不包括以下哪一项？A. 体量大B. 速度快C. 价值高D. 准确性答案：D2. 下列哪一项不是大数据技术的应用领域？A. 金融分析B. 医疗健康C. 教育D. 传统制造业答案：D3. 在大数据时代，以下哪种数据类型不属于非结构化数据？A. 文本B. 图像C. 音频D. 表格数据答案：D4. Hadoop生态系统中，用于数据存储的是以下哪个组件？A. HBaseB. HiveC. SparkD. HDFS答案：D5. 下列关于数据挖掘的描述，错误的是？A. 数据挖掘是从大量数据中提取有价值信息的过程B. 数据挖掘依赖于统计学和机器学习技术C. 数据挖掘是完全自动化的，不需要人工干预D. 数据挖掘可以用于预测分析答案：C6. 在大数据时代，数据的实时处理能力主要依赖于哪种技术？A. 数据库B. 数据仓库C. 实时处理框架D. 传统批处理系统答案：C7. 下列哪一项是大数据技术中用于处理数据流的框架？A. HadoopB. SparkC. KafkaD. Elasticsearch答案：C8. 在大数据存储中，以下哪种技术不是分布式存储系统？A. HDFSB. CassandraC. MongoDBD. Oracle数据库答案：D9. 下列关于大数据的描述，错误的是？A. 大数据需要复杂的数据处理技术B. 大数据可以提高决策的准确性C. 大数据可以完全替代传统数据分析方法D. 大数据可以用于发现隐藏的模式和关联答案：C10. 在大数据技术中，以下哪个概念不是用于描述数据的存储和管理？A. 数据湖B. 数据仓库C. 数据集市D. 数据挖掘答案：D二、多项选择题（每题3分，共15分）1. 下列哪些因素推动了大数据技术的发展？A. 互联网的普及B. 移动设备的广泛使用C. 云计算技术的成熟D. 人工智能的兴起答案：ABCD2. 在大数据的处理过程中，以下哪些技术是关键技术？A. 数据采集B. 数据清洗C. 数据存储D. 数据可视化答案：ABCD3. 下列哪些是大数据技术面临的挑战？A. 数据安全B. 数据隐私C. 数据质量D. 数据分析答案：ABC4. 在大数据时代，以下哪些领域可以利用大数据技术？A. 电子商务B. 社交媒体C. 交通管理D. 能源行业答案：ABCD5. 下列哪些是大数据技术中常见的数据存储格式？A. CSVB. JSONC. XMLD. Parquet答案：ABCD三、简答题（每题5分，共20分）1. 请简述大数据的4V特征。

《大数据》试题及答案-1-大数据-李联宁-清华大学出版社

《大数据》题目一、单选题1)大数据的4V特点：Volume、Velocity、Variety、Veracity，其中他们的含义分别是（ 1 ）、（ 2 ）、（ 3 ）、（ 4 ）。

A.价值密度低B.处理速度快C.数据类型繁多D.数据体量巨大2)大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行（ 5 ）。

A. 数据信息B. 专业化处理C.速度处理D. 内容处理3)随着谷歌（ 6 ）和（ 7 ）的发布，大数据不再仅用来描述大量的数据，还涵盖了处理数据的（ 8 ）。

6: A.Map B.Docs C. YouTube D. MapReduce7: A. Google Mobile B. iGoogle C. GoogleFile System D. Google Docs8: A.质量 B. 速度 C.精度 D. 进度4)斯隆数字巡天是使用位于新墨西哥州阿帕奇山顶天文台的2.5米口径望远镜进行的红移巡天项目，2012年4月发布的关于Quasar spectra的数据为（ 9 ）。

A.932,891,133B. 228,468C. 1,457,002D. 668,0545)下列哪一项不属于大数据的治理：（ 10 ）A. 安全问题B. 成本问题C. 针对大用户D. 信息生命周期管理6)IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础，指的是在（ 11 ）的基础上（ 12 ）、，进而（ 13 ），优化决策策划能够救业务绩效。

A. 采取行动（Act）B. 获取洞察（Anticipate）C. 掌握信息（Align）D. 应用管理（management）7)在云生态环境中，用户需求相当于（ 14 ），云数据中心相当于（ 15 ），云服务相当于（ 16 ）。

A. 降水B. 水滴C. 水库D. 阳光8)尿布啤酒是大数据分析的（ 17 ）A. A/B测试B. 分类C. 关联规则挖掘D. 数据聚类9)在GAPMINDER的Wealth & Health of Nations 中,中国在什么区域（ 18 ）A.黄色B.红色C.绿色D. 蓝色10)舆情研判，信息科学侧重（ 19 ），社会和管理科学侧重突发群体事件管理中的群体心理行为及（ 20 ），新闻传播学侧重对（ 21 ）。

大数据基础复习题与答案

大数据基础复习题与答案1.常见的数据的类型包括（）.A. 文本(正确答案)B. 图片(正确答案)C. 模型D .音频(正确答案)E. 视频(正确答案)2.更适应大数据时代的数据库类型是（）.A. 层次数据库B. 网状数据库C. 关系型数据库D. NoSQL数据库(正确答案)3.目前主流的数据库是（）A. 层次数据库B. 网状数据库C. 关系型数据库(正确答案)D. NoSQL数据库3.关于数据的使用和管理，下面正确的是（）A. 想要使用数据，必须先进行数据清洗，将数据变成一个可用的状态(正确答案)B. 有些初始数据的质量不高，比如数据缺失、语意模糊，因此需要数据清洗(正确答案)C. 进行数据管理时，关系型数据库更擅长存储非结构化数据D. 现代社会产生的大部分数据实际上是非结构化数据。

(正确答案)4.关于数据分析，下面说法正确的是（）A. 数据分析需要借助数据挖掘和机器学习的相关算法(正确答案)B. 数据分析不需要用到大数据处理技术C. 数据分析需要构建统计模型(正确答案)D. 利用数据可视化技术可以将数据分析的结果更清晰地展示(正确答案)5.数据爆炸的时代对科学研究提出的挑战包括下面哪些（）。

A. 需要更低成本的、能更快响应的大规模分布式存储(正确答案)B. 需要更加及时的大数据处理能力(正确答案)C. 需要更多的数据用于数据价值的挖掘D. 需要更加高效的数据分析工具(正确答案)6. 数据增速越来越快的原因在于?（）A. 接入网络的设备越来越多(正确答案)B. 单条数据的所携带的信息也越来越多C. 用户越来越积极地参与到主动生产内容和数据的环节(正确答案)D. 物联网中的设备源源不断产生数据(正确答案)7第三次信息化浪潮的到来的标志是（）。

A. 个人计算机的普及B. 互联网的普及和发展C. 人工智能时代的到来D. 云计算、大数据、物联网的快速发展(正确答案)8.华大基因公司2017年产出的数据达到1EB(艾字节)。

大数据期末考试试题及答案

大数据期末考试试题及答案一、选择题（每题2分，共20分）1. 大数据的4V特征不包括以下哪一项？A. Volume（体量）B. Velocity（速度）C. Variety（多样性）D. Visibility（可见性）答案：D2. 在大数据环境下，以下哪个不是Hadoop生态系统中的组件？A. HBaseB. HiveC. SparkD. MongoDB答案：D3. 以下哪个不是大数据存储技术？A. NoSQLB. Hadoop Distributed File System (HDFS)C. Relational Database Management System (RDBMS)D. Distributed Cache答案：C4. 大数据中的数据挖掘过程不包括以下哪一步？A. 数据预处理C. 数据可视化D. 数据收集答案：C5. 以下哪个算法不是用于机器学习的？A. K-meansB. Decision TreesC. PageRankD. QuickSort答案：D6. 在大数据中，以下哪个不是数据清洗的目的？A. 去除重复数据B. 纠正错误数据C. 增加数据量D. 标准化数据格式答案：C7. 以下哪个不是大数据应用的领域？A. 金融B. 医疗C. 教育D. 小型零售答案：D8. 以下哪个是大数据分析的挑战？B. 数据质量高C. 数据类型单一D. 数据处理速度慢答案：D9. 以下哪个是大数据可视化工具？A. ExcelB. TableauC. PhotoshopD. Word答案：B10. 以下哪个不是大数据的来源？A. 社交媒体B. 传感器数据C. 传统数据库D. 个人笔记答案：D二、简答题（每题10分，共30分）1. 请简述大数据的4V特征。

答案：大数据的4V特征包括Volume（体量），即数据量巨大；Velocity（速度），即数据生成和处理的速度非常快；Variety（多样性），即数据类型多样，包括结构化、半结构化和非结构化数据；Veracity（真实性），即数据的准确性和可靠性。

大数据复习题(答案)

大数据复习题(答案)大数据复习题一、数据存储与处理1.数据存储1.1.什么是数据存储？答：数据存储是将数据保存在计算机或其他存储介质中，以便日后进行访问和检索。

1.2.数据存储的常见方式有哪些？答：常见的数据存储方式包括关系型数据库、非关系型数据库、文件系统、分布式文件系统等。

1.3.什么是关系型数据库？答：关系型数据库是基于关系模型的数据库，其中数据以表格的形式进行存储，并且表格之间存在关联关系。

1.4.什么是非关系型数据库？答：非关系型数据库是指不使用关系模型的数据库，其中数据以键值对、文档、列族等形式进行存储。

1.5.什么是文件系统？答：文件系统是操作系统用来管理、存储和检索文件的一种方法，可以将文件组织成层次结构，方便用户访问和管理。

1.6.什么是分布式文件系统？答：分布式文件系统是一个由多台计算机组成的文件系统，存储在不同计算机上的文件可以在整个系统中共享和访问。

2.数据处理2.1.什么是数据处理？答：数据处理是指对原始数据进行整理、分析、计算和转化的过程，以便得到有意义的结果。

2.2.数据处理的常见方式有哪些？答：常见的数据处理方式包括数据清洗、数据转换、数据聚合、数据挖掘等。

2.3.什么是数据清洗？答：数据清洗是指对原始数据进行去重、纠错、填充空值等预处理操作，以提高数据的质量和准确性。

2.4.什么是数据转换？答：数据转换是指将数据从一种格式或结构转变为另一种格式或结构，以满足特定的需求。

2.5.什么是数据聚合？答：数据聚合是指将多个数据集合并为一个数据集，以便进行统计分析和处理。

2.6.什么是数据挖掘？答：数据挖掘是指从大量的数据中提取隐藏在其中的有用信息和模式，以支持决策和预测。

二、数据分析与挖掘1.数据分析1.1.什么是数据分析？答：数据分析是指对收集到的数据进行探索和解释，以发现数据背后的规律和趋势。

1.2.数据分析的常用工具有哪些？答：常用的数据分析工具包括Excel、Python、R等。

大数据考试试题及答案

公需科目大数据培训考试1.以下选项中，不属于信息时代的定律的是（ d）。

（单选题1分）得分：1分A.吉尔德定律B.摩尔定律C.麦特卡尔夫定律D.达律多定律2.根据周琦老师所讲，高德交通信息服务覆盖全国高速（b）以上。

（单选题1分）得分：1分A.60%B.90%C.70%D. 50%3.根据周琦老师所讲，以下哪项不属于数据挖掘的内容？（单选题1分）分 a得分：0A.补充与完善路网属性B.多维分析统计用户出行规律C.高德地图导航有躲避拥堵功能D.建立道路拥堵概率与拥堵趋势变化模型4.2012年全国各城市支付宝人均支出排名中，位居第二位的是（a）（单选题1分）得分：1分A.杭州市B.嘉兴市C.高雄市D.嘉义市5.第一个提出大数据概念的公司是（d ）。

（单选题1分）得分：1分A.微软公司B.谷歌公司C.脸谱公司D.麦肯锡公司6.“（b）阿里巴巴·贵州年货节”销售额突破8.5亿元，促进了贵州电子商务加快发展。

（单选题1分）得分：1分A.2015B.2016C.2013D.20147.关于大数据在社会综合治理中的作用，以下理解不正确的是（c ）。

（单选题1分）得分：1分A.大数据的运用能够维护社会治安 oB.大数据的运用能够加强交通管理 oC.大数据的运用能够杜绝抗生素的滥用 oD.大数据的运用有利于走群众路线8.根据周琦老师所讲，大数据加速道路网络快速更新，高德（b）完成全国10万公里15万处更新。

（单选题1分）得分：1分A.2006年B.2014年C.2008年D.2010年9.第一个提出大数据概念的公司是d（单选题1分）得分：1分A.谷歌公司B.微软公司C.脸谱公司D.麦肯锡公司10.以下选项中，不属于大数据对人才能力的要求是c（单选题1分）得分：0分A.业务能力 oB.数学统计能力 oC.IT技术能力 oD.逻辑思维能力11.根据周琦老师所讲，高德交通报告针对全国（d）个城市交通状态进行挖掘分析。

大数据预处理复习题(附参考答案)

大数据预处理复习题（一）单选题1.下列关于缺失值的形式的说法中，正确的是（）oA.PythOn中默认的缺失值形式为NAB.PandaS中默认的缺失值形式为NaNC.PythOn中默认的缺失值形式为NU1ID.PandaS中默认的缺失值形式为空字符串（〃〃）2.下列表述中，正确的是（）oA.对字符串型变量的缺失值，需要使用众数进行填补。

B.对于缺失值，最简单的处理方法是使用均值进行填补。

C.完全变量指的包含缺失值的变量。

D.在调查过程中，因被调查者拒绝回答敏感问题而造成的数据缺失，属于人为原因。

3.关于日期时间型数据，下列说法正确的是（）oA.在计算机系统中，日期时间型数据是以文本形式存储的。

B.在计算机系统中，日期时间型数据是以数值形式存储的。

C.在计算机系统中，日期时间型数据是以因子形式存储的。

D.在计算机系统中，日期时间型数据是以缺失值形式存储的。

4.下图是某分类变量各类别计数分布的箱线图，从图中可知（）oA.少部分分类计数很低。

8.该变量类别很少，可以清晰的用箱线图展示各类别的频数。

C.这个变量存在大量低频分类。

D.绝大多数分类计数很高。

5.下列关于数据预处理的表述中，不正确的是（）oA.具备专业经验的数据科学家可以在数据分析前忽略数据预处理。

B.数据预处理是在数据采集后，分析前这段时间里对数据进行的处理操作。

C.数据预处理的效果与数据分析顺利与否直接相关。

D.数据预处理往往占据数据分析项目总工作量的60%以上。

6.下列数据特征缩放的公式中，正确的是（）oA.数据中心化公式为：X sca1ed=8.数据标准化公式为：X sca1ed=X-X oC.Max-ABS缩放公式为：XSwed=而匚。

∣λImaxD.Robust缩放公式为：X sca1ed=x-Me^ian o7.下列关于相关系数的表述中，正确的是（）oA.PearSon相关系数的值在［0,1］之间分布。

B.SPean11an相关系数的值在［T,1］之间分布。

大数据课程期末考试复习题及答案

大数据课程期末考试复习题及答案1.有一批海量数据，需要实现复杂计算分析，此时建议使用下面哪个计算引擎？MapReduceSpark （正确答案）YARNHDFS2.有一批海量数据，后期主要侧重于快速的读写，有修改需求，此时建议存储到哪个存储系统中？HDFSHBase （正确答案）MySQLRedis3.在shell命令行中向HDFS上传文件，需要使用哪个命令？uploadsetinsertput （正确答案）4.针对HDFS中NameNode的职责描述，错误的是：NameNode是整个文件系统的管理节点NameNode中负责维护File与Block list的关系NameNode中负责存储文件数据（正确答案）NameNode负责接收用户读写请求5. 3个5M的文件和1个130M的文件，在HDFS中会产生多少个Block 块？35（正确答案）66.HDFS中的哪个进程是负责定期将edits文件中的内容合并到fsimage中的？NameNodeDataNodeSecondaryNameNode （正确答案）NodeManager7.Hive中的数据存储在哪里？HBaseHDFS （正确答案）本地磁盘MapReduce8.Kafka的消费者设置哪种策略可以实现消费最新的数据？before earliestlatest （正确答案）after9.针对HDFS中的小文件问题，可以使用下面哪种解决方案？Sequencef i le （正确答案）NlineFileTextFileDBFile10.MapReduce中，哪个步骤默认是可选的？排序分组规约（正确答案）分区11.MapReduce编程的时候，针对字符串需要使用哪种数据类型？StringText （正确答案）TextWritableStringWritable12.在Hadoop2. x中,一个Block块的大小默认是：64M100M128M （正确答案）256M13.K afka中生产数据时，希望Leader节点回复收到消息才确认接收成功, 此时需要设置ack的值为？1（正确答案）2314.在Hive中，想要实现全局排序需要使用？SORT BYORDER BY （正确答案）CLUSTER BYDISTRIBUTE BY15. Hive中创建外部表,需要使用关键字：createexternal （正确答案）partitionlocation16. Hive中哪种类型的表适合做数据抽样？内部表外部表分区表桶表（正确答案）17.针对MapReduce程序数据倾斜优化的手段，错误的是：增加Reduce任务个数把倾斜的key打散针对join操作，如果有一个小表，可以考虑实现map端join增加Reduce阶段的内存（正确答案）18. YARN中的哪种调度器可以实现多队列且队列内部任务先进先出? FIFO SchedulerCapacity Scheduler（正确答案）Fair SchedulerQueueScheduler19.针对Spark中RDD的描述，错误的是：RDD数据只能存放在内存中（正确答案）RDD在抽象上来说是一种元素数据的集合，它是被分区的RDD提供的有容错性，可以自动从节点失败中恢复过来RDD可以通过集合或者文件来创建20.下面哪个算子可以解决Spark RDD中数据倾斜的问题？reduceByKeymapPartitionsgroupByKeyrepartition （正确答案）21.针对Hive的描述，错误的是：Hive的数据存储在HDFS中Hive不支持数据更新Hive底层执行引擎可以使用TezHive的数据格式是由操作系统决定的（正确答案）22. HDFS中的Federation机制无法解决哪个问题?保证HDFS的高可用（正确答案）提高HDFS集群的读写吞吐率实现良好的隔离性提高HDFS集群的扩展性23. Spark这种架构不适合应用在下面哪个场景中？低延时的海量数据计算需求低延时SQL交互查询需求准实时（秒级）海量数据计算需求海量离线数的分布式存储（正确答案）24. Spark中执行下面哪个算法不会真正执行任务? reduceByKey （正确答案）countByKeyforeachreduce25. Spark中下面哪个算子在执行的时候不会产生Shuffle? distinctreduceByKeymap （正确答案）repartition26.如何指定Hive表中的字段分隔符？row format delimitedlines terminated bycolumn terminated byfields terminated by（正确答案）27.使用什么命令向Hive表中加载数据? load data（正确答案）insert intoadd dataalter table28.如何查看Hive中表tl的详细建表语句？desc tlshow create table tl （正确答案）describe tlshow tl29.在zookeeper中修改节点/abc上的值为1,写法正确的是：set /abc 1（正确答案）create /abc 1modify /abc 1get /abc 130.向HBase的表tl中添加数据，写法正确的是：put ‘ tl' ,' rowkey 1） ,J info' ,' abc'put ‘tl','rowkeyr , 5 info' , ' age:abc5put ‘ tl', ' rowkeyr , level:abc' ,'age:xyz，put ' tl',' rowkey 1'level:abc',' xyz'（正确答案）31. HBase中，如果一个列族中如果有3歹!],那么这3列会分到几个文件中存储？1（正确答案）2 3 432.针对HBase的应用场景的介绍，错误的是：适合半结构和非结构数据适合存储记录稀疏的数据适合存储多版本数据适合海量数据分析（正确答案）33.HRegionServer 包含了 HLog 和？HRegion （正确答案） HMasterHDFSData34.下面Spark中明E个算子容易导致driver端内存溢出？ mapcountcollect （正确答案）take35.Spark中想要获取RDD中的前N个元素，需要使用什么算子？ collect take （正确答案）count foreach36.Spark中哪一种持久化策略表示只存储到内存，并且不序列化。

大数据复习题(答案)

大数据应用基础复习题答案

大数据专业考试题及答案

大数据考试试题及答案

完整版)大数据复习题(答案)

大数据考试题目及答案

大数据考试题目及答案

大数据试题及答案

大数据试题及答案

大数据试题及答案

大数据复习题(答案)

大数据技术概论期末复习题2023-11(附参考答案)

考研大数据试题及答案

《大数据》试题及答案-1-大数据-李联宁-清华大学出版社

大数据基础复习题与答案

大数据期末考试试题及答案

大数据复习题(答案)

大数据考试试题及答案

大数据预处理 复习题(附参考答案)

大数据课程期末考试复习题及答案

大数据预处理复习题(附参考答案)