《数据科学与大数据通识导论》题库及答案-2019年温州市工程技术系列专业技术人员继续教育
大数据导论习题及答案
第1章1.简述什么是大数据?答:大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2.大数据的数据有什么特点?答:数据量大(Volume)、数据类型复杂(Variety)、数据产生速度快(Velocity)、价值密度低(Value)。
3.大数据对科学研究有什么影响?答:促进了科学研究的第四范式产生和交叉学科的发展。
4.大数据有哪些数据类型?答:有结构化数据、非结构化数据和半结构化数据。
5.大数据有哪些应用?答:大数据可以在众多领域创造巨大的衍生价值:实现数据的资源化,帮助企业抢占市场,提供个性化服务,指定有效方针等;与云计算深度结合;可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破第2章1.简述什么是云计算?答:①云计算是一种动态扩展的计算模式,通过网络将虚拟化的资源作为服务提供给用户。
②云计算是一种无处不在的、便捷的通过互联网访问的一个可定制的IT资源(IT资源包括网络、服务器、存储、应用软件和服务)共享池,是一种按使用量付费的模式。
它能够通过最少量的管理或与服务供应商的互动实现计算资源的迅速供给和释放2.云计算有什么特点?答:①具有大规模并行计算能力②资源虚拟化和弹性调度③数据量巨大并且增速迅猛产生了典型的大数据处理技术3.请简述云计算的三种主要部署模式。
答:①公有云:提供面向社会大众、公共群体的云计算服务②私有云:提供面向应用行业/组织内的云计算服务③混合云:是把公有云和私有云进行整合,吸纳二者的优点,给企业带来真正意义上的云计算服务4.请简述云计算的三种主要服务模式。
答:1.基础设施即服务(IaaS)①主要用户是系统管理员②直接利用云提供的资源进行业务的部署或简单的开发③服务提供商提供给用户的服务是计算和存储基础设施④用户不管理或控制任何云计算基础设施,但能控制操作系统的选择⑤关键技术及解决方案是虚拟化技术2.平台即服务(PaaS)①主要用户是开发人员②把应用服务的运行和开发环境作为一种服务提供的商业模式即PaaS是把二次开发的平台以服务形式提供给开发软件的用户使用③开发人员不需要管理或控制底层的云计算基础设施,但可以方便地使用很多在构建应用时的必要服务④两个关键技术:分布式的并行计算和大文件分布式存储3.软件即服务(SaaS)①主要用户是普通用户②服务提供商提供给用户的服务是运行在云计算基础设施上的应用程序,用户只需要通过终端设备接入使用即可,简单方便,不需要用户进行软件开发,也无需管理底层资源③关键技术是多租户技术,使资源能够更好的共享5.请画出云计算基础设施Google平台的基础架构图。
大数据专业考试题及答案
大数据专业考试题及答案一、选择题(每题2分,共20分)1. 大数据的“4V”特征不包括以下哪一项?A. Volume(体量)B. Velocity(速度)B. Variety(多样性)D. Visibility(可见性)答案:D2. 在大数据技术中,Hadoop生态系统中的核心组件是:A. SparkB. HBaseC. HiveD. HDFS答案:D3. 以下哪个不是大数据存储技术?A. NoSQL数据库B. 关系型数据库C. 分布式文件系统D. 内存数据库答案:B4. 以下哪个是大数据分析的关键技术?A. 数据清洗B. 数据可视化C. 数据挖掘D. 所有选项都是答案:D5. 大数据平台中,用于实时数据处理的技术是:A. MapReduceB. StormC. HadoopD. Cassandra答案:B...(此处省略其他选择题)二、简答题(每题10分,共30分)1. 简述大数据与传统数据仓库的主要区别。
答案:大数据与传统数据仓库的主要区别在于:大数据处理的数据量更大、数据类型更多样化、处理速度更快,并且大数据技术更倾向于分布式存储和计算,而传统数据仓库通常采用集中式存储和处理。
2. 解释什么是数据挖掘,并举例说明其应用场景。
答案:数据挖掘是从大量数据中通过算法自动或半自动地发现有趣模式和知识的过程。
例如,在零售业中,数据挖掘可以用来分析顾客的购买行为,从而进行个性化推荐和库存管理。
3. 描述Hadoop生态系统中MapReduce的工作流程。
答案:MapReduce的工作流程包括Map阶段和Reduce阶段。
在Map 阶段,输入数据被分割成多个小块,每个小块由一个Map任务处理,生成中间键值对。
在Reduce阶段,中间键值对根据键进行分组,并传递给Reduce任务,Reduce任务对每个键对应的所有值进行处理,生成最终的输出结果。
三、计算题(每题15分,共30分)1. 假设有一个大数据集,需要使用MapReduce进行处理。
最新精编《大数据》完整考试题库500题(含标准答案)
最新精编《大数据》完整考试题库500题(含标准答案)大数据考试试题题库500题[含答案]一、选择题1.20世纪中后期至今的媒介革命,以(acd )的出现为标志。
(多选题3分)分.得3分A.互联网B.自动化C.计算机D.数字化2.宁家骏委员指出,我国民生领域信息化服务水平显著提升。
(判断题1分)分.1分正确1 错误3.根据周琦老师所讲,高德交通报告针对全国38个城市交通状态进行挖掘分析。
(判断题1分)得分.1分正确1 错误4.习近平总书记指出,网信事业代表着新的生产力.新的发展方向,应该也能够在践行新发展理念上先行一步。
(判断题1分)得分.1分正确1 错误5.根据涂子沛先生所讲,现在非结构化数据已经占人类数据总量的25%。
(判断题1分)得分.0分正确1 错误6.2000年,全国涉农网站超过6000家。
(判断题1分)得分.0分正确1 错误7.林雅华博士指出,网络时代的国家治理必须要借鉴互联网多元向度.扁平化.相互竞合的方式进行。
(判断题1分)得分.1分正确1 错误8.当今世界四大趋势指的是经济全球化.全球城市化.全球信息化.信息智慧化。
(判断题1分)得分.1分正确1 错误9.2012年,我国农村居民家庭每百户拥有移动电话197.8部。
(判断题1分)分.1分正确1 错误10.2015年,阿里平台完成农产品销售达到6000多亿元。
(判断题1分)1分正确错误111.大数据仅仅是指数据的体量大。
(判断题1分)正确错误1 得分.1分12.宁家骏委员指出,20世纪下半个世纪直至现在,是信息技术时代。
(判断题1分)得分.1分正确1 错误13.大数据的应用能够实现一场新的革命,提高综合管理水平的原因是(abcd )。
(多选题3分)得分.3分A.从被动反应走向主动预见型管理B.从粗放化管理走向精细化管理C.从单兵作战走向联合共享型管理D.从柜台式管理走向全天候管理14.大数据正快速发展为对数量巨大.来源分散.格式多样的数据进行采集.存储和关联分析,从中发现新知识.创造新价值.提升新能力的(b)。
《数据科学与大数据通识导论》题库及答案-2019年温州市工程技术系列专业技术人员继续教育
1.数据科学的三大支柱与五大要素是什么?答:数据科学的三大主要支柱为:Datalogy (数据学):对应数据管理 (Data management)Analytics (分析学):对应统计方法 (Statistical method)Algorithmics (算法学):对应算法方法 (Algorithmic method)数据科学的五大要素:A-SATA模型分析思维 (Analytical Thinking)统计模型 (Statistical Model)算法计算 (Algorithmic Computing)数据技术 (Data Technology)综合应用 (Application)2.如何辨证看待“大数据”中的“大”和“数据”的关系?字面理解Large、vast和big都可以用于形容大小Big更强调的是相对大小的大,是抽象意义上的大大数据是抽象的大,是思维方式上的转变量变带来质变,思维方式,方法论都应该和以往不同计算机并不能很好解决人工智能中的诸多问题,利用大数据突破性解决了,其核心问题变成了数据问题。
3.怎么理解科学的范式?今天如何利用这些科学范式?科学的范式指的是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家群体所共同遵从的世界观和行为方式。
第一范式:经验科学第二范式:理论科学第三范式:计算科学第四范式:数据密集型科学今天,是数据科学,统一于理论、实验和模拟4.从人类整个文明的尺度上看,IT和DT对人类的发展有些什么样的影响和冲击?以控制为出发点的IT时代正在走向激活生产力为目的的DT(Data Technology)数据时代。
大数据驱动的DT时代由数据驱动的世界观大数据重新定义商业新模式大数据重新定义研发新路径大数据重新定义企业新思维5.大数据时代的思维方式有哪些?“大数据时代”和“智能时代”告诉我们:数据思维:讲故事→数据说话总体思维:样本数据→全局数据容错思维:精确性→混杂性、不确定性相关思维:因果关系→相关关系智能思维:人→人机协同(人 + 人工智能)6.请列举出六大典型思维方式;直线思维、逆向思维、跳跃思维、归纳思维、并行思维、科学思维7.大数据时代的思维方式有哪些?同58.二进制系统是如何实现的?计算机用0和1来表示和存储所有的数据,它的基数为2,进位规则是“逢二进一”,用1表示开,0表示关9.解释比特、字节和十六进制表示。
大数据的考试题目和答案
大数据的考试题目和答案一、单项选择题(每题2分,共20分)1. 大数据的核心特征不包括以下哪一项?A. 体量大B. 速度快C. 价值密度高D. 多样性答案:C2. Hadoop的核心组件不包括以下哪一项?A. HDFSB. MapReduceC. HiveD. Spark答案:D3. 在大数据时代,以下哪种技术不是处理数据的关键技术?A. 数据挖掘B. 机器学习C. 云计算D. 传统数据库答案:D4. 下列哪个不是大数据应用的领域?A. 金融B. 医疗C. 教育D. 农业答案:C5. 以下哪个不是大数据的存储技术?A. NoSQL数据库B. 云存储C. 传统关系型数据库D. 分布式文件系统答案:C6. 大数据的4V特性中,哪个代表数据的准确性?A. VolumeB. VelocityC. VarietyD. Veracity答案:D7. 以下哪个不是大数据分析的步骤?A. 数据收集B. 数据清洗C. 数据存储D. 数据解释答案:D8. 以下哪个不是大数据的来源?A. 社交媒体B. 传感器数据C. 传统数据库D. 纸质文档答案:D9. 在大数据技术中,以下哪个不是数据挖掘的算法?A. 决策树B. 聚类分析C. 线性回归D. 神经网络答案:C10. 大数据的实时处理技术不包括以下哪一项?A. StormB. FlinkC. HadoopD. Spark Streaming答案:C二、多项选择题(每题3分,共15分)11. 大数据技术可以应用于以下哪些行业?A. 零售B. 交通C. 教育D. 娱乐答案:ABCD12. 大数据的挑战包括以下哪些方面?A. 数据安全B. 数据隐私C. 数据存储D. 数据分析答案:ABCD13. 以下哪些是大数据的存储解决方案?A. 数据仓库B. 数据湖C. 云存储D. 传统数据库答案:ABC14. 以下哪些是大数据处理框架?A. HadoopB. SparkC. StormD. TensorFlow答案:ABC15. 大数据的分析方法包括以下哪些?A. 描述性分析B. 诊断性分析C. 预测性分析D. 规范性分析答案:ABCD三、判断题(每题2分,共10分)16. 大数据技术只能用于处理结构化数据。
数据科学导论考试试题
数据科学导论考试试题一、选择题(每题 3 分,共 30 分)1、以下哪项不是数据科学的主要研究内容?()A 数据预处理B 数据可视化C 数据库管理D 数学建模2、数据清洗的主要目的是()A 去除重复数据B 处理缺失值C 纠正错误数据D 以上都是3、在数据分析中,箱线图主要用于()A 展示数据的分布情况B 比较不同组数据的均值C 观察数据的趋势D 检测异常值4、以下哪种数据结构适合用于快速查找元素?()A 链表B 栈C 队列D 二叉搜索树5、聚类分析属于()A 有监督学习B 无监督学习C 强化学习D 半监督学习6、决策树算法在数据挖掘中用于()A 分类B 回归C 聚类D 关联规则挖掘7、以下哪项不是数据仓库的特点?()A 面向主题B 集成性C 易变性D 时变性8、数据挖掘中的关联规则挖掘,常用的算法是()A Apriori 算法B KMeans 算法C C45 算法D ID3 算法9、以下关于数据隐私保护的方法,错误的是()A 数据加密B 数据匿名化C 数据共享D 差分隐私10、数据科学项目中,最重要的步骤之一是()A 数据收集B 模型选择C 模型评估D 问题定义二、填空题(每题 3 分,共 30 分)1、数据的质量可以从_____、完整性、一致性、准确性和时效性等方面进行评估。
2、常见的数据分析方法包括描述性分析、_____分析和预测性分析。
3、数据预处理中的特征工程包括特征提取、_____和特征选择。
4、机器学习中的监督学习任务包括分类和_____。
5、数据库中的关系模型通过_____、行和列来组织数据。
6、数据可视化的原则包括准确性、_____和简洁性。
7、大数据的特点通常被概括为 5V,即 Volume(大量)、Velocity (高速)、Variety(多样)、Value(价值)和_____。
8、朴素贝叶斯分类器基于_____假设。
9、在数据挖掘中,分类算法的性能评估指标通常包括准确率、_____和 F1 值等。
《数据科学与大数据通识导论》题库及答案
《数据科学与大数据通识导论》题库及答案1.数据科学的三大支柱与五大要素是什么?答:数据科学的三大主要支柱为:Datalogy (数据学):对应数据管理 (Data management)Analytics (分析学):对应统计方法 (Statistical method)Algorithmics (算法学):对应算法方法 (Algorithmic method)数据科学的五大要素:A-SATA模型分析思维 (Analytical Thinking)统计模型 (Statistical Model)算法计算 (Algorithmic Computing)数据技术 (Data Technology)综合应用 (Application)2.如何辨证看待“大数据”中的“大”和“数据”的关系?字面理解Large、vast和big都可以用于形容大小Big更强调的是相对大小的大,是抽象意义上的大大数据是抽象的大,是思维方式上的转变量变带来质变,思维方式,方法论都应该和以往不同计算机并不能很好解决人工智能中的诸多问题,利用大数据突破性解决了,其核心问题变成了数据问题。
3.怎么理解科学的范式?今天如何利用这些科学范式?科学的范式指的是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家群体所共同遵从的世界观和行为方式。
第一范式:经验科学第二范式:理论科学第三范式:计算科学第四范式:数据密集型科学今天,是数据科学,统一于理论、实验和模拟4.从人类整个文明的尺度上看,IT和DT对人类的发展有些什么样的影响和冲击?以控制为出发点的IT时代正在走向激活生产力为目的的DT(Data Technology)数据时代。
大数据驱动的DT时代由数据驱动的世界观大数据重新定义商业新模式大数据重新定义研发新路径大数据重新定义企业新思维5.大数据时代的思维方式有哪些?“大数据时代”和“智能时代”告诉我们:数据思维:讲故事→数据说话总体思维:样本数据→全局数据容错思维:精确性→混杂性、不确定性相关思维:因果关系→相关关系智能思维:人→人机协同(人 + 人工智能)6.请列举出六大典型思维方式;直线思维、逆向思维、跳跃思维、归纳思维、并行思维、科学思维7.大数据时代的思维方式有哪些?同58.二进制系统是如何实现的?计算机用0和1来表示和存储所有的数据,它的基数为2,进位规则是“逢二进一”,用1表示开,0表示关9.解释比特、字节和十六进制表示。
大数据试题及答案
大数据试题及答案大数据试题及答案1、简介本文档旨在提供有关大数据的知识点和相关试题,以便读者对大数据概念、技术和应用有一个全面的了解。
2、大数据概念和原理2.1 大数据的定义和特点大数据是指规模巨大、复杂度高并且增速快的数据集合。
其特点包括高速、多样、大量和价值密度低。
2.2 大数据的处理原理大数据处理涉及数据采集、存储、处理、分析和应用等环节。
常用的大数据处理技术包括分布式计算、分布式存储和并行计算等。
3、大数据基础技术3.1 大数据存储技术3.1.1 关系型数据库关系型数据库是一种使用表格来组织数据的数据库系统,常用的关系型数据库产品包括MySQL、Oracle等。
3.1.2 NoSQL数据库NoSQL数据库是指非关系型数据库,适合用于处理大规模和高性能的数据。
常用的NoSQL数据库包括MongoDB、Redis等。
3.2 大数据计算技术3.2.1 分布式计算框架分布式计算框架用于处理大规模数据的计算任务,常用的分布式计算框架包括Hadoop、Spark等。
3.2.2 并行计算技术并行计算技术可以将计算任务分解为多个子任务,并在多个计算节点上同时执行,以提高计算效率。
4、大数据分析方法4.1 数据挖掘数据挖掘是指从大规模数据集中发现隐藏模式、规律和知识的过程。
常用的数据挖掘算法包括聚类、分类和关联规则等。
4.2 机器学习机器学习是通过训练模型来自动分析和解释数据的方法。
常用的机器学习算法包括回归、决策树和神经网络等。
5、大数据应用领域5.1 金融行业大数据在金融行业中可以应用于风险控制、信用评估和市场预测等方面。
5.2 零售行业大数据可以帮助零售企业进行销售预测、推荐系统和用户行为分析等。
5.3 医疗行业大数据在医疗行业中可以应用于疾病诊断、药物研发和健康管理等方面。
6、附件本文档的附件包括相关参考资料、数据集和案例分析。
7、法律名词及注释7.1 数据隐私保护数据隐私保护是指对个人数据进行保护,以防止未经授权的数据访问和使用。
《认识数据与大数据》试题
《认识数据与大数据》试题一、选择题(每题 5 分,共 30 分)1、以下关于数据的说法,错误的是()A 数据是对客观事物的符号表示B 数据可以是数字、文字、图像等C 数据本身没有意义,只有经过处理才有价值D 所有的数据都能直接用于分析和决策2、大数据的特点不包括()A 数据量巨大B 数据类型多样C 数据处理速度慢D 价值密度低3、以下不属于大数据应用场景的是()A 预测天气变化B 分析消费者购买行为C 进行简单的数学计算D 优化城市交通流量4、数据仓库和数据湖的主要区别在于()A 数据仓库存储结构化数据,数据湖存储多种类型数据B 数据湖存储结构化数据,数据仓库存储多种类型数据C 数据仓库数据量小,数据湖数据量大D 数据湖数据处理速度快,数据仓库数据处理速度慢5、以下哪种技术不是大数据处理中常用的()A HadoopB SparkC PythonD Excel6、数据隐私保护中,以下哪种方法最有效()A 匿名化处理B 加密存储C 定期删除D 以上都是二、填空题(每题 5 分,共 20 分)1、数据的质量可以从_____、_____、_____和_____四个方面来评估。
2、大数据的 4V 特征是指_____、_____、_____和_____。
3、常见的数据分析方法有_____、_____和_____。
4、数据可视化的目的是为了_____和_____。
三、简答题(每题 10 分,共 30 分)1、请简要说明数据清洗的主要步骤。
2、举例说明大数据在医疗领域的应用。
3、阐述大数据面临的主要挑战及应对策略。
四、论述题(20 分)请结合实际案例,论述大数据如何改变了我们的生活和工作方式。
以下是对上述试题的答案及解析:一、选择题答案及解析1、答案:D解析:并非所有数据都能直接用于分析和决策,需要经过筛选、清洗、处理和分析等过程,将有价值的数据提取出来,并转化为有用的信息和知识。
2、答案:C解析:大数据的特点包括数据量巨大、数据类型多样、价值密度低以及处理速度快。
大数据导论题库习题试卷及答案
《大数据导论》教材配套习题和答案第1章大数据概述一、单选题1、下面关于数据的说法,错误的是:(B)A.数据的根本价值在于可以为人们找出答案B.数据的价值会因为不断使用而削减C.数据的价值会因为不断重组而产生更大的价值D.目前阶段,数据的产生不以人的意志为转移2、第3次信息化浪潮的标志是:(C)A.个人计算机的普及B.互联网的普及C.云计算、大数据和物联网技术的普及D.人工智能的普及3、物联网的发展最终导致了人类社会数据量的第三次跃升,使得数据产生方式进入了:(D)A.手工创建阶段B.运营式系统阶段C.用户原创内容阶段D.感知式系统阶段4、英国的大数据发展战略是:(D)A. 稳步实施“三步走”战略,打造面向未来的大数据创新生态B. 通过发展创新性解决方案并应用于实践来促进大数据发展C. 以大数据等技术为核心应对第四次工业革命D. 紧抓大数据产业机遇,应对脱欧后的经济挑战5. 以下哪个不是大数据的“4V”特性:(D)A.数据量大B.数据类型繁多C.处理速度快D.价值密度高二、多选题1、数据的类型主要包括:(ABCD)A.文本B.图片C.音频D.视频2、计算机系统中的数据组织形式主要有两种,分别是:(AD)A.文件B.视频C.音频D.数据库3、为了让数据变得可用,需要对数据进行三个步骤的处理,分别是:(ACD)A.数据清洗B.数据抽样C.数据管理D.数据分析4、信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:(ABD)A.存储设备容量不断增加B.CPU处理能力大幅提升C.量子计算机全面普及D.网络带宽不断增加5、人类社会的数据产生方式大致经历了哪三个阶段:(BCD)A.手工生产阶段B.运营式系统阶段C.用户原创内容阶段D.感知式系统阶段6、关于“大数据摩尔定律”,以下说法正确的是:(ABC)A.人类社会产生的数据一直都在以每年50%的速度增长B.人类社会的数据量大约每两年就增加一倍C.人类在最近两年产生的数据量相当于之前产生的全部数据量之和D.人类社会的数据量以每年10%的速度增长7、人类自古以来在科学研究上先后历经了哪几种范式:(ABCD)A.实验科学B.理论科学C.计算科学D.数据密集型科学8、大数据将会对社会发展产生深远的影响,具体表现在以下哪几个方面:(ABCD)A.大数据决策成为一种新的决策方式B.大数据成为提升国家治理能力的新途径C.大数据应用促进信息技术与各行业的深度融合D.大数据开发推动新技术和新应用的不断涌现9、大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。
大数据导论期末试题及答案
大数据导论期末试题及答案一、选择题1. 大数据技术主要用于处理哪方面的数据?A. 小规模结构化数据B. 中等规模半结构化数据C. 大规模非结构化数据D. 所有规模的数据答案:D2. 大数据的四个关键特征分别是什么?A. 数据量大、多样性、高速度、价值高B. 数据量大、多样性、冗余性、处理速度快C. 数据量大、结构化、半结构化、非结构化D. 数据量大、多样性、快速计算、可扩展性答案:A3. Hadoop是一个开源框架,用于分布式处理大规模数据。
它的核心组件包括:A. HDFS和MapReduceB. MySQL和MongoDBC. Tomcat和NginxD. Spark和Storm答案:A4. 哪个技术经常与大数据技术一同使用,可以实现流数据的实时处理?A. 机器学习B. 数据挖掘C. 数据仓库D. 流处理答案:D5. 大数据分析可以为企业带来哪些优势?A. 提供更好的决策支持B. 降低成本和风险C. 发现新的商业机会D. 所有选项都是正确的答案:D二、填空题1. 大数据的主要特征之一是_______。
答案:数据量大2. _______是一个用于处理大规模结构化和半结构化数据的开源框架。
答案:Hadoop3. 大数据技术的应用通常需要具备_______的能力。
答案:高速计算4. _______是一种用于实时处理流数据的技术。
答案:流处理5. 大数据分析能够带来企业的多个优势,包括提供更好的_______、降低成本和风险,以及发现新的商业机会。
答案:决策支持三、简答题1. 请简要介绍大数据的定义及其特征。
答:大数据是指规模超过传统数据库处理能力范围的数据集合。
它具有四个关键特征:数据量大、多样性、高速度和价值高。
数据量大指的是数据量远远超过传统数据库的处理能力,往往需要分布式系统来处理。
多样性表示数据可以是结构化、半结构化或非结构化的。
高速度指的是大数据的产生速度很快,需要进行实时或近实时的处理和分析。
大数据考试题目及答案
大数据考试题目及答案一、单选题(每题2分,共10分)1. 大数据的4V特点不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Visualization(可视化)答案:D2. Hadoop生态系统中,用于数据存储的是以下哪个组件?A. HBaseB. HiveC. MapReduceD. HDFS答案:D3. 下列哪个不是大数据分析工具?A. R语言B. PythonC. ExcelD. Photoshop答案:D4. 在大数据技术中,以下哪个是用于实时处理的框架?A. HadoopB. SparkC. MongoDBD. Cassandra答案:B5. 大数据技术中,以下哪个是用于数据仓库的?A. HadoopB. HiveC. KafkaD. Flume答案:B二、多选题(每题3分,共15分)6. 大数据技术可以应用于以下哪些领域?A. 金融分析B. 医疗健康C. 交通规划D. 社交媒体答案:ABCD7. 以下哪些是Hadoop生态系统中的组件?A. HBaseB. PigC. StormD. Cassandra答案:AB8. 大数据的存储技术包括以下哪些?A. 文件系统B. 列式存储C. NoSQL数据库D. 内存数据库答案:ABCD9. 以下哪些是大数据分析过程中可能用到的步骤?A. 数据清洗B. 数据转换C. 数据挖掘D. 数据可视化答案:ABCD10. 在大数据技术中,以下哪些是用于数据采集的?A. FlumeB. KafkaC. SqoopD. HBase答案:AB三、判断题(每题1分,共5分)11. 大数据技术可以处理结构化数据和非结构化数据。
(对)12. Hadoop只能用于离线数据处理,不能用于实时数据处理。
(错)13. 大数据技术可以减少数据存储的成本。
(对)14. 大数据技术不能用于预测分析。
(错)15. 所有类型的数据都可以用单一的大数据技术进行处理。
大数据考试题目和答案
大数据考试题目和答案一、单项选择题(每题2分,共20分)1. 大数据的4V特性不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. Hadoop的核心组件不包括以下哪一项?A. HDFS(Hadoop Distributed File System)B. MapReduceC. SparkD. YARN答案:C3. 下列哪个不是NoSQL数据库?A. MongoDBB. CassandraC. MySQLD. HBase答案:C4. 在大数据存储中,以下哪个不是HDFS的特点?A. 高可靠性B. 高吞吐量C. 低延迟D. 可扩展性答案:C5. 以下哪个不是数据挖掘的步骤?A. 数据预处理B. 数据探索C. 数据存储D. 模式发现答案:C6. 以下哪个不是大数据分析的常见工具?A. RB. PythonC. SASD. Photoshop答案:D7. 以下哪个不是数据清洗的目的?A. 去除重复记录B. 纠正错误C. 增加数据量D. 识别并处理缺失值答案:C8. 在大数据技术中,以下哪个不是数据集成的关键问题?A. 数据源的多样性B. 数据的不一致性C. 数据的实时性D. 数据的隐私性答案:D9. 以下哪个不是机器学习算法的类型?A. 监督学习B. 非监督学习C. 强化学习D. 遗传学习答案:D10. 在大数据中,以下哪个不是数据可视化的作用?A. 数据探索B. 决策支持C. 信息隐藏D. 沟通交流答案:C二、多项选择题(每题3分,共15分)11. 大数据技术可以应用于以下哪些领域?A. 金融B. 医疗C. 教育D. 交通答案:ABCD12. 以下哪些是大数据存储技术?A. HDFSB. NoSQLC. RDBMSD. Cloud Storage答案:ABD13. 在大数据分析中,以下哪些是常用的数据挖掘算法?A. K-meansB. Decision TreesC. Neural NetworksD. Principal Component Analysis答案:ABCD14. 以下哪些是大数据平台的组成部分?A. 数据采集B. 数据存储C. 数据处理D. 数据展示答案:ABCD15. 以下哪些是大数据安全需要考虑的问题?A. 数据泄露B. 数据篡改C. 非法访问D. 系统可用性答案:ABC三、判断题(每题2分,共10分)16. 大数据技术只能处理结构化数据。
《大数据导论》19秋期末考核【标准答案】
《大数据导论》19秋期末考核-0001---------------------------单选题1.以下不是数据仓库基本特征的是()A.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的正确答案:B2.()是MicrosoftOffice的核心组件A. SQLB. WORDC. PPTD. EXCEL正确答案:D3.数据清洗的方法不包括A.缺失值处理B.噪声数据清除C.一致性检查D.重复数据记录处理正确答案:D4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。
A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案:B5.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()A.ggplot2workC.ggmapsD.animation正确答案:D6.下列不属于Google云计算平台技术架构的是()A.并行数据处理MapReduceB.分布式锁ChubbyC.结构化数据表BigTableD.弹性云计算EC2正确答案:D7.大数据的最显著特征是()。
A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高正确答案:A8.IaaS是()的简称A.软件即服务B.平台即服务C.基础设施即服务D.硬件即服务正确答案:C9.基础设施即服务的英文简称是A. IaaSB. PaaSC. SaaS正确答案:A10.下列哪个工具常用来开发移动友好地交互地图()A.LeafletB.Visual.lyC.BPizzaPieChartsD. Gephi正确答案:A---------------------------多选题1.数据归约(DataReduction)主要有()A.维度规约B.样本规约C.数据聚集D.离散化概念分层正确答案:A,B,C,D2.以下可以用于数据可视化的是()。
A. R语言B. ExcelC.RapidMinerD. Weka正确答案:A,B,C,D3.医疗大数据特点:除了包含了大数据4个“V”的特点之外还有()A.多态性B.时效性C.不完整性D.冗余性正确答案:A,B,C,D4.大数据存储的特点与挑战有()A.容量问题B.延迟问题C.安全问题D.成本问题正确答案:A,B,C,D5.大数据智能感知层:主要包括()及软硬件资源接入系统A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系正确答案:A,B,C,D6.数据预处理的过程主要是A.数据清洗B.数据集成C.数据变换D.数据规约正确答案:A,B,C,D7.交通数据处理包括以下几个步骤()A.数据清洗B.数据映射C.数据组织D.数据聚类正确答案:A,B,C,D8.数据工厂包括A.低能耗数据中心B.超大规模讲分布式架构C.新一代智能自动化运维D.超强云安全正确答案:A,B,C,D9.可视化工具包括()A. ExcelB.GoogleChartC. GephiD. ppt正确答案:A,B,C10.去除噪声使得数据光滑的技术主要有:A. 分箱B. 回归C.离群点分析正确答案:A,B,C---------------------------判断题1.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。
精选最新版大数据完整考试题库500题(含参考答案)
大数据考试试题题库500题[含答案]一、选择题1.医疗健康数据的基本情况不包括以下哪项?c(单选题1分)得分.1分A.诊疗数据B.个人健康管理数据C.公共安全数据D.健康档案数据2.根据周琦老师所讲,高德2014年被(C)全;A.搜狐;B.腾讯;C.阿里巴巴;D.百度;3.20世纪中后期至今的媒介革命,以(acd )的出现为标志。
(多选题3分)分.得3分A.互联网B.自动化C.计算机D.数字化4.2012年“中央1号文件”提出,要全面推进农业农村信息化,着力提高(abd)的信息服务水平。
(多选题3分)得分.3分A.农业生产经营B.质量安全控制C.文化交流D.市场流通5.郭永田副主任指出,物联网在大田作物生产中的应用体现在以下哪些方面?abcd(多选题3分)得分.3分A.农作物病虫害监测B.农业精准生产控制C.农田环境监测D.农作物长势苗情监测6.贵州发展大数据的“八个一”建议包括(ab;得分.3分;A.制定一个工作计划.建立一个领导机构B.培养 D.中央网络安全和信息化领导小组组长是李克强。
7.“十二五”以来我国信息化发展的亮点包括以;A.信息产业的支撑性.保障性.带动性作用进一步;B.信息基础设施建设取得长足进步,为信息化全面;D.两化融合成为当前我国工业创新驱动.转型升级;8.下列各项表述中正确的有哪些?ad(多选题3分)得分.0分A.我国中央网络安全和信息化领导小组宣告成立是在2013年。
B.中央网络安全和信息化领导小组组长是习近平。
C.我国中央网络安全和信息化领导小组宣告成立是在2014年。
D.中央网络安全和信息化领导小组组长是李克强;9.云计算的特点包括以下哪些方面?abc(多选题3分)得分.3分A.服务可计算B.高性价比C.服务可租用D.低使用度10.贵州发展大数据的顶层设计是要逐步建成三个中心,即(acd)。
(多选题3分)得分.0分A.大数据人才中心B.大数据金融中心C.大数据内容中心D.大数据服务中心11.大数据作为一种数据集合,当我们使用这个概念的时候,实际包含有哪几层含义?abc (多选题3分)得分.0分A.数据很大B.构成复杂C.变化很快D.蕴含大价值12.大数据的主要特征表现为(abcd)。
数据科学通识导论教材电子版
数据科学通识导论教材电子版1. 一幅未经压缩的、像素数为 600×420、色彩深度为24 位的图像,其文件大小为() [单选题] *A. 600×420×24÷8 (Byte)(正确答案)B. 600×420×24÷8 (bit)C. 600×420÷24 (Byte)D. 600×420×24 (Byte)2. 把二进制数1011转换成十进制数,正确的结果是() [单选题] *A. 101B. 11(正确答案)C. 3D. 223. 在计算机系统应用的早期,计算机只能处理英文字母、数字和常用的英文标点符号,这时最重要的编码标准是() [单选题] *A. GB2312B. ASCII(正确答案)C. BIG5D. UTF-84. 录制一段时长10 秒钟、采样频率为 44.1kHz、量化位数为 8 位、单声道的 WAV 格式音频,其存储容量约为() [单选题] *A. 4.36MBB. 862KBC. 431KB(正确答案)D. 4GB5. 通过对大数据的分析研究,人们发现了大数据的一些特征。
其中一个最典型的特征是数据规模巨大,已经从TB级别跃升到PB级别。
足够大的数据量一定程度上提高了数据对事物描述的完整性,这也使全样本分析变为了可能。
这体现了大数据的 [单选题] *A. 巨量性(正确答案)B. 多样性C. 迅变性D. 真实性6. 若要用二进制表示十二生肖,则至少需要二进制数的位数是() [单选题] *A. 3B. 4(正确答案)C. 5D. 67. 采用无损压缩的数字音频格式是() [单选题] *A. MP3B.APE(正确答案)C. AVID. BMP8. 大数据已成为数据科学的重要研究内容。
随着研究的不断深入,通常认为大数据具有四大特征。
这四大特征是巨量性、迅变性、真实性和() [单选题] *A. 稳定性B. 单一性C. 多样性(正确答案)D. 虚拟性9. 在不损失有用信息的前提下,按照一定的编码规则对数据进行重新组合,去除数据冗余,以使文件更少地占用存储空间的技术是() [单选题] *A. 数据压缩(正确答案)B. 数据采集C. 数据加密D. 数据传输10. 如果用二进制编码表示中国的二十四节气,则至少需要的二进制位数是()[单选题] *A. 3B. 4C. 5(正确答案)D. 611. 计算机中,常用的彩色位图图像色彩深度为8,则该图像能表示的颜色数量是() [单选题] *A. 2B. 16C. 256(正确答案)D. 812. 大数据技术指对巨量数据资源进行采集、提取、存储、分析和表达的技术。
2022年温州商学院数据科学与大数据技术专业《数据库系统原理》科目期末试卷A(有答案)
2022年温州商学院数据科学与大数据技术专业《数据库系统原理》科目期末试卷A(有答案)一、填空题1、关系规范化的目的是______。
2、已知系(系编号,系名称,系主任,电话,地点)和学生(学号,姓名,性别,入学日期,专业,系编号)两个关系,系关系的主码是______________,系关系的外码是______________,学生关系的主码是______________,外码是______________。
3、从外部视图到子模式的数据结构的转换是由______________实现;模式与子模式之间的映象是由______________实现;存储模式与数据物理组织之间的映象是由______________实现。
4、如果多个事务依次执行,则称事务是执行______;如果利用分时的方法,同时处理多个事务,则称事务是执行______。
5、____________、____________、____________和是计算机系统中的三类安全性。
6、在SQL Server 2000中,数据页的大小是8KB。
某数据库表有1000行数据,每行需要5000字节空间,则此数据库表需要占用的数据页数为_____页。
7、数据仓库是______、______、______、______的数据集合,支持管理的决策过程。
8、如图所示的关系R的候选码为;R中的函数依赖有;R属于范式。
一个关系R9、在一个关系R中,若每个数据项都是不可再分割的,那么R一定属于______。
10、关系数据库中基于数学的两类运算是______________和______________。
二、判断题11、在SQL中,ALTERTABLE语句中MODIFY用于修改字段的类型和长度等,ADD用于添加新的字段。
()12、在数据库恢复中,对已完成的事务进行撤销处理。
()13、据库操作中防止死锁的方法是禁止两个用户同时操作数据库。
()14、在第一个事务以S锁方式读数据R时,第二个事务可以进行对数据R加S锁并写数据的操作。
2022年温州理工学院数据科学与大数据技术专业《数据库系统原理》科目期末试卷A(有答案)
2022年温州理工学院数据科学与大数据技术专业《数据库系统原理》科目期末试卷A(有答案)一、填空题1、数据仓库创建后,首先从______中抽取所需要的数据到数据准备区,在数据准备区中经过净化处理______,再加载到数据仓库中,最后根据用户的需求将数据发布到______。
2、在SQL语言中,为了数据库的安全性,设置了对数据的存取进行控制的语句,对用户授权使用____________语句,收回所授的权限使用____________语句。
3、完整性约束条件作用的对象有属性、______和______三种。
4、在关系数据库的规范化理论中,在执行“分解”时,必须遵守规范化原则:保持原有的依赖关系和______。
5、事务故障、系统故障的恢复是由______完成的,介质故障是由______完成的。
6、主题在数据仓库中由一系列实现。
一个主题之下表的划分可按______、______数据所属时间段进行划分,主题在数据仓库中可用______方式进行存储,如果主题存储量大,为了提高处理效率可采用______方式进行存储。
7、在SQL Server 2000中,数据页的大小是8KB。
某数据库表有1000行数据,每行需要5000字节空间,则此数据库表需要占用的数据页数为_____页。
8、在SELECT命令中,______子句用于选择满足给定条件的元组,使用______子句可按指定列的值分组,同时使用______子句可提取满足条件的组。
9、设有关系模式R(A,B,C)和S(E,A,F),若R.A是R的主码,S.A是S的外码,则S.A的值或者等于R中某个元组的主码值,或者______取空值,这是规则,它是通过______和______约束来实现的。
10、在一个关系R中,若每个数据项都是不可再分割的,那么R一定属于______。
二、判断题11、投影操作是对关系表进行水平方向的分割。
()12、据库操作中防止死锁的方法是禁止两个用户同时操作数据库。
大数据导论:大数据技术单元测试与答案
一、单选题1、以下哪个步骤不属于数据的采集与预处理:A.对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据B.利用网页爬虫程序到互联网网站中爬取数据C.利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中D.利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析正确答案:A2、以下哪项不属于数据清洗的内容:A.一致性检查B.精确度校验C.无效值和缺失值的处理D.成对删除正确答案:B3、以下哪项不属于传统的数据存储和管理技术:A.NoSQL数据库B.文件系统C.数据仓库D.关系数据库正确答案:A4、以下关于分布式文件系统,描述错误的是:A.所有的分布式文件系统的设计都是采用“客户机/服务器”(Client/Server)模式B.Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是针对GFS的开源实现C.谷歌开发了分布式文件系统GFSD.是一种通过网络实现文件在多台主机上进行分布式存储的文件系统正确答案:A5、以下描述错误的是:A.传统的关系数据库由于数据模型不灵活、水平扩展能力较差等局限性,已经无法满足各种类型的非结构化数据的大规模存储需求B.Web 2.0的迅猛发展以及大数据时代的到来,使关系数据库的发展越来越力不从心C.传统关系数据库引以为豪的一些关键特性,如事务机制和支持复杂查询,在Web 2.0时代成为不可或缺的核心特性D.传统的关系数据库可以较好地支持结构化数据存储和管理正确答案:C6、以下关于NoSQL数据库描述错误的是:A.NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称B.与关系数据库相比,NoSQL具有灵活的水平可扩展性,可以支持海量数据存储C.NoSQL数据库有固定的表结构,通常存在较多连接操作D.NoSQL所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型正确答案:C7、下面属于批处理技术的是:A.Spark StreamingB.MapReduceC.StormD.GraphX正确答案:B8、下面属于流计算技术的是:A.S4B.HiveC.Spark MLLibD.GraphX正确答案:A9、下面属于图计算技术的是:A.DremelB.ImpalaC.PregelD.DStream正确答案:C10、下面属于查询分析计算技术的是:A.PregelB.StormC.Spark StreamingD.Hive正确答案:D二、多选题1、数据采集的三大要点是:A.高效性B.全面性C.多维性D.精确性正确答案:A、B、C2、数据采集的主要数据源包括:A.传感器数据B.企业业务系统数据C.日志文件D.互联网数据正确答案:A、B、C、D3、需要清洗的数据的主要类型包括:A.残缺数据B.重复数据C.错误数据D.干净数据正确答案:A、B、C4、数据仓库的特性包括:A.相对稳定的B.面向主题的C.反映历史变化的D.集成的正确答案:A、B、C、D5、NoSQL数据库具有以下几个特点:A.与云计算紧密融合B.灵活的可扩展性C.灵活的数据模型D.数据模型比较死板正确答案:A、B、C6、典型的机器学习和数据挖掘算法包括:A.聚类B.分类C.正交D.回归分析正确答案:A、B、D7、大数据处理分析技术类型主要包括:A.查询分析计算B.批处理计算C.流计算D.图计算正确答案:A、B、C、D8、在大数据时代,可视化技术可以支持实现多种不同的目标,主要包括:A.增强数据吸引力B.观测、跟踪数据C.辅助理解数据D.分析数据正确答案:A、B、C、D9、数据安全技术种类繁多,主要包括:A.防火墙技术B.可视化技术C.访问控制技术D.身份认证技术正确答案:A、C、D。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.数据科学的三大支柱与五大要素是什么?答:数据科学的三大主要支柱为:Datalogy (数据学):对应数据管理 (Data management)Analytics (分析学):对应统计方法 (Statistical method)Algorithmics (算法学):对应算法方法 (Algorithmic method)数据科学的五大要素:A-SATA模型分析思维 (Analytical Thinking)统计模型 (Statistical Model)算法计算 (Algorithmic Computing)数据技术 (Data Technology)综合应用 (Application)2.如何辨证看待“大数据”中的“大”和“数据”的关系?字面理解Large、vast和big都可以用于形容大小Big更强调的是相对大小的大,是抽象意义上的大大数据是抽象的大,是思维方式上的转变量变带来质变,思维方式,方法论都应该和以往不同计算机并不能很好解决人工智能中的诸多问题,利用大数据突破性解决了,其核心问题变成了数据问题。
3.怎么理解科学的范式?今天如何利用这些科学范式?科学的范式指的是常规科学所赖以运作的理论基础和实践规范,是从事某一科学的科学家群体所共同遵从的世界观和行为方式。
第一范式:经验科学第二范式:理论科学第三范式:计算科学第四范式:数据密集型科学今天,是数据科学,统一于理论、实验和模拟4.从人类整个文明的尺度上看,IT和DT对人类的发展有些什么样的影响和冲击?以控制为出发点的IT时代正在走向激活生产力为目的的DT(Data Technology)数据时代。
大数据驱动的DT时代由数据驱动的世界观大数据重新定义商业新模式大数据重新定义研发新路径大数据重新定义企业新思维5.大数据时代的思维方式有哪些?“大数据时代”和“智能时代”告诉我们:数据思维:讲故事→数据说话总体思维:样本数据→全局数据容错思维:精确性→混杂性、不确定性相关思维:因果关系→相关关系智能思维:人→人机协同(人 + 人工智能)6.请列举出六大典型思维方式;直线思维、逆向思维、跳跃思维、归纳思维、并行思维、科学思维7.大数据时代的思维方式有哪些?同58.二进制系统是如何实现的?计算机用0和1来表示和存储所有的数据,它的基数为2,进位规则是“逢二进一”,用1表示开,0表示关9.解释比特、字节和十六进制表示。
比特:一位 0、1 ;字节:8比特,从000到111,十六进制:0000到1111十六个数分别用0,1,2,3,4,5,6,7,8,9,A,B,C,D,E,F 来表示10.请辨析现象、数据、信息和知识这几个概念。
信息是关于世界、人和事的描述,它比数据来得抽象;而数据则是信息的载体。
知识比信息更高一个层次,也更加抽象,它具有系统性的特征。
比如通过测量星球的位置和对应的时间,就得到数据;通过这些数据得到星球运转的轨迹,这就是信息;通过信息总结出开普勒三定律,就是知识。
从现象、数据到信息、知识,抽象层次是越来越高的。
人类的进步就是靠使用知识不断地改变我们的生活和周围的世界,而数据是知识的基础。
11.简述冯·诺依曼计算机工作原理存储程序控制程序和数据都用二进制数表示机器以CPU为中心12.简述GB2312编码和Unicode编码原理;GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。
中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。
基本集共收入汉字6763个和非汉字图形字符682个。
整个字符集分成94个区,每区有94个位。
每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。
Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
13.简述摩尔定律。
摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。
其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。
换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。
这一定律揭示了信息技术进步的速度。
14.为什么计算机系统要往并行与异构的方向发展?单核CPU已经走到尽头,不能承载更多的晶体,所以采用多核和GPU及FPGA等并行与异构,多台计算机一起工作,进一步提升计算性能15.什么是云计算?云计算的定义:云计算是一个模型,这个模型可以方便地按需通过网络访问一个可配置的计算资源(例如,网络、服务器、存储设备、应用程序以及服务)的公共及。
这额资源可以迅速提供并发布,同时最小化管理成本或服务提供商的干涉。
16.为什么说数据上云是一种趋势?大数据上云,数据上云,分析上云,人工智能上云,数据上云是一种趋势17.从技术体系和资源结构两方面谈一下云计算的逻辑平台组成。
云平台的逻辑组成技术体系:IaaS, PaaS, SaaS(Technically)资源结构:计算、存储、网络18.数据获取过程可分为哪几个步骤?数据获取阶段的任务是以数字形式将信息聚合, 以待存储和分析处理,数据获取过程可分为三个步骤:数据采集数据传输数据预处理19.数据预处理需要做哪些工作?数据预处理由于数据源的多样性,数据集由于干扰、冗余和一致性因素的影响具有不同的质量。
一些数据分析工具和应用对数据质量有着严格的要求。
因此在大数据系统中需要数据预处理技术提高数据的质量。
数据集成(Data integration)数据清洗(Data cleansing)冗余消除(Redundancy elimination20.数据的存储方式有哪些?数据的存储方式:纸带磁带数字存储随机存取存储器(Random access memory,RAM)磁盘(HDD)和磁盘阵列存储级存储器:闪存、SSD光盘21.什么是大数据的计算模式?所谓大数据计算模式,即根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象(abstraction)或模型(model)。
22.简述大数据的四种主要分析技术。
大数据的四种主要分析技术(1)统计分析(2)机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。
(3)数据挖掘从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
(4)可视化分析统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。
23.简述数据库的事务ACID性质数据库的事务处理(ACID)性质:原子性(Atomicity):不可分割一致性(Consistency):前后一致隔离性(Isolation):并发持久性(Durability):永久24.关系代数的五种基本运算分别是什么?关系代数的五种基本运算分别是并、差、投影、选择、笛卡尔积25.简述数据仓库的四种类型。
数据仓库的四种类型:传统数据仓库实时处理数据仓库关联发现数据仓库数据集市26.什么是GFS?请简述GFS的特点?GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。
它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。
系统分为三类角色:Master(主服务器)Chunk Server(数据块服务器)。
Client(客户端)27.请简述HDFS的特点。
Hadoop是一个分布式系统基础架构,由Apache基金会开发。
用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。
HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。
HDFS 集群包含:一个主节点( NameNode )多个从属节点(DataNodes )多个客户端访问28.大数据系统为什么要采用分布式的架构?大数据是数据库的自然延伸:分布式。
由于大数据要处理大量、非结构化的数据,所以在各处理环节中都可以采用并行处理。
目前,Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。
29.什么是有向图、邻接矩阵、超链接矩阵。
一个有向图D是指一个有序三元组(V(D),A(D),ψD),其中ψD)为关联函数,它使A(D)中的每一个元素(称为有向边或弧)对应于V(D)中的一个有序元素(称为顶点或点)为研究需要,我们定义邻接矩阵进一步,如果将邻接矩阵中的元素除以对应节点的出度,可以得到该图的超链接矩阵30.如何计算PageRank的值?PageRank算法第一步:将互联网作为一个有向图,并用邻接矩阵进行表示;第二步:将该邻接矩阵转换为超链接矩阵;第三步:求解该超链接矩阵的最大特征向量(如幂迭代法);第四步:求得的特征向量中的值即为对应网页的PageRank值。
31.典型的数据挖掘技术有哪些?典型的数据挖掘技术:关联分析、序列模式、分类(预言)、聚集、异常检测32.数据挖掘的标准流程分为那几个步骤?请分别简述它们。
商业理解:找问题-确定商业目标、对现有资源的评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划数据理解:数据准备:确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量建立模型:对各个模型进行评价,选择数据挖掘模型,建立模型模型评估:评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型模型发布:把数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型33.典型的分类方法有哪些?典型分类方法:判定树归纳分类,贝叶斯分类,后向传播分类,k-最临近分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法34.典型的预测方法有哪些?典型预测方法:回归方法,线性回归,多元回归,非线性回35.请简述分类过程。
数据分类:两步过程第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分适应数据”的情况36.简述预测和分类的相同点和不同点。