大数据技术与应用习题答案第5-6章
林子雨大数据技术原理与应用答案(全)
林子雨大数据技术原理及应用课后题答案大数据第一章大数据概述课后题 (1)大数据第二章大数据处理架构Hadoop课后题 (5)大数据第三章Hadoop分布式文件系统课后题 (10)大数据第四章分布式数据库HBase课后题 (16)大数据第五章NoSQl数据库课后题 (22)大数据第六章云数据库课后作题 (28)大数据第七章MapReduce课后题 (34)大数据第八章流计算课后题 (41)大数据第九章图计算课后题 (50)大数据第十章数据可视化课后题 (53)大数据第一章课后题——大数据概述1.试述信息技术发展史上的3次信息化浪潮及其具体内容。
第一次信息化浪潮1980年前后个人计算机开始普及,计算机走入企业和千家万户。
代表企业:Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等。
第二次信息化浪潮1995年前后进入互联网时代。
代表企业:雅虎,谷歌阿里巴巴,百度,腾讯。
第三次信息浪潮2010年前后,云计算大数据,物联网快速发展,即将涌现一批新的市场标杆企业。
2.试述数据产生方式经历的几个阶段。
经历了三个阶段:运营式系统阶段数据伴随一定的运营活动而产生并记录在数据库。
用户原创内容阶段Web2.0时代。
感知式系统阶段物联网中的设备每时每刻自动产生大量数据。
3.试述大数据的4个基本特征。
数据量大(Volume)据类型繁多(Variety)处理速度快(Velocity)价值密度低(Value)4.试述大数据时代的“数据爆炸”特性。
大数据摩尔定律:人类社会产生的数据一直都在以每年50%的速度增长,即每两年就增加一倍。
5.科学研究经历了那四个阶段?实验比萨斜塔实验理论采用各种数学,几何,物理等理论,构建问题模型和解决方案。
例如:牛一,牛二,牛三定律。
计算设计算法并编写相应程序输入计算机运行。
数据以数据为中心,从数据中发现问题解决问题。
6.试述大数据对思维方式的重要影响。
全样而非抽样效率而非精确相关而非因果7.大数据决策与传统的基于数据仓库的决策有什么区别?数据仓库以关系数据库为基础,在数据类型和数据量方面存在较大限制。
第6章 大数据分析与挖掘习题答案
(1)请阐述什么是大数据分析。
大数据分析的主要任务主要有:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。
被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。
描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。
具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
(2)大数据分析的类型有哪些?大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。
(3)举例两种数据挖掘的应用场景?(1)电子邮件系统中垃圾邮件的判断电子邮件系统判断一封Email是否属于垃圾邮件。
这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。
它的主要原理就是,根据电子邮件中的词汇,是否经常出现在垃圾邮件中进行判断。
例如,如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
(2)金融领域中金融产品的推广营销针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。
然后,按照距离的远近,把相似的客户聚集为一类,从而有效地细分客户。
将全体客户划分为诸如:理财偏好者、基金偏好者、活期偏好者、国债偏好者等。
其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
(4)简述数据挖掘的分类算法及应用。
K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。
决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。
决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。
大数据技术原理与应用 林子雨版 课后习题答案(精编文档).doc
【最新整理,下载后即可编辑】第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS 是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
MySQL数据库技术与应用(慕课版)课后习题答案
第1章数据库概述1.填空题(1)Oracle(2)U 1U 2U 4U(3)体积小、安装成本低、速度快、源码开放(4)Memcached、Redis、mongoDB(5)大、中、小型网站中2.选择题(1)A(2)B(3)A(4)A(5)D3.简答题(1)常见的关系型数据库有MySQL、Oracle、SQL Server和Access数据库。
MySQL数据库主要应用在广泛地应用到互联网上的大、中、小型网站中;Oracle数据库主要应用在传统大企业、政府机构、金融机构、证券机构等;SQL Server数据库主要应用在部分电商和使用Windows 服务器平台的企业;Access数据库早期应用于小型程序系统ASP + Access、系统留言板、校友录等。
(2)关系型数据库按照结构化的方法存储数据,具备纵向扩展能力,采用结构化查询语言,强调ACID规则,强调数据的强一致性,可以控制事务原子性细粒度,并且一旦操作有误或者有需要,可以回滚事务。
非关系型数据库不需要固定的表结构,一般情况下也不存在对数据的连续操作。
不同点:关系型数据库使用表结构,非关系型的数据库格式灵活。
关系型数据库支持SQL语言,支持事务,非关系型数据库不提供SQL语言,无事务处理。
相对于关系型数据库,非关系型数据库在大数据存取上具备无法比拟的性能优势。
(3)应该注意MySQL的版本和开发人员使用的版本。
第2章环境的安装与基本配置1.填空题(1)Ubuntu CentOS Red Hat(2)RPM包二进制包源码包(3)仅主机模式NAT模式桥接模式(4)数据库语言(5)Mysqladmin、mysqldump等命令2.选择题(1)A(2)B(3)B(4)D(5)D3.简答题(1)在企业中应该使用源码编译方式安装MySQL,使用源码安装在编译安装过程可以设定参数,按照需求,进行安装,并且安装的版本,可以自己选择,灵活性比较大。
(2)VMware虚拟平台提供3种网络模式。
《大数据技术原理与操作应用》第2章习题答案
第2章课后习题答案一、单选题1.下列选项中,哪个配置文件可以配置 HDFS 地址、端口号以及临时文件目录( ) 。
A. core-site. xmlB. hdfs-site. xmlC. mapred-site. xmlD. yarn-site. xml参考答案:A2.Hadoop 集群启动成功后,用于监控 HDFS 集群的端口是(A. 50010B. 50075C. 8485D. 50070参考答案:D3.下列选项中,可以进行重启引导系统的是( ) 。
A. OKB. CancelC. RebootD. Apply参考答案:C4.下列选项中,关于 SSH 服务说法正确的是( ) 。
A. SSH 服务是一种传输协议B. SSH 服务是一种通信协议C. SSH 服务是一种数据包协议D. SSH 服务是一种网络安全协议参考答案:D5.下列选项中,一键启动 HDFS 集群的命令是( ) 。
A. start-namenode. shB. start-datanode. shC. start-dfs. shD. start-slave. sh参考答案:C6.在 Hadoop 的解压目录下,可以查看 Hadoop 的目录结构的命令是() 。
A. jpsB. llC. tarD. find参考答案:B7.下列选项中,存放 Hadoop 配置文件的目录是( )A. includeB. binC. libexeD. etc参考答案:D8. 在配置 Linux 网络参数时,固定 IP 地址是将路由协议配置为( ) 。
A. staticB. dynamicC. immutableD. variable参考答案:A9.下列选项中,可以对 Hadoop 集群进行格式化的是(A. hadoop namenode -formatB. hadoop namenode -lsC. hdfs datanode -lsD. hdfs datanode -format参考答案:A10.下列选项中,查看 Linux 系统的 IP 配置的命令是( ) 。
大数据技术及应用_东北师范大学中国大学mooc课后章节答案期末考试题库2023年
大数据技术及应用_东北师范大学中国大学mooc课后章节答案期末考试题库2023年1.关系数据库是基于行模式存储的,而HBase也是基于行模式存储的。
参考答案:错误2.对于Hive中分区的概念,下列描述错误的是()。
参考答案:分区字段只能有一个3.Action API完成返回数据集中的元素个数的操作命令是()。
参考答案:count()4.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是()。
参考答案:一次写入,多次读写5.MapReduce作业的初始化调用的方法是()。
参考答案:JobTracker.initJob()6.下述关于 Hadoop的阐述,正确的是()。
参考答案:是一个分布式存储与分布式并行运算系统7.Hadoop是一个能够对大量数据进行分布式处理的软件框架。
参考答案:正确8.以下选项中,不是HBase添加数据需要用到的类和接口的是()。
参考答案:Scan9.关于HDFS的文件写入操作描述正确的是()。
参考答案:默认将文件块复制成三份存放10.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?参考答案:一次写入,多次读写11.分布式文件系统HDFS 中的 block 默认保存几份?参考答案:3 份12.Hbase是一个针对结构化数据的可申缩、高可靠,高性能、分布式和面向()的动态模式数据库。
参考答案:列13.YARN是新一代Hadoop(),用户可以运行和管理同一个物理集群机上多种作业。
参考答案:资源管理器14.HDFS采用块的概念,默认的一个块大小是64MB。
参考答案:正确15.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个Slave。
Master上运行JobTracker,Slave上运行TaskTracker 。
大数据(单选)第六章
大数据(单选)第六章1.SQL的集合处理方式与宿主语言单记录的处理方式之间用什么来协调 [单选题]A、SQLCAB、游标(正确答案)C、存储过程D、触发器2.在关系代数运算中,五种基本运算为 [单选题]A、并、差、选择、投影、连接B、并、交、选择、投影、笛卡尔积C、并、差、选择、投影、笛卡尔积(正确答案)D、并、除、投影、笛卡尔积、选择3.DB、DBMS和DBS三者之间的关系是 [单选题]A、DBS与DB和DBMS无关B、DBMS包括DBS和DBC、DB包括DBMS和DBSD、DBS包括DB和DBMS(正确答案)4.数据库系统的基本特征是 [单选题]A、数据的统一控制B、数据共享性和统一控制C、数据共享性、独立性和冗余度小(正确答案)D、数据共享性和数据独立性5.如果两个实体集之间的联系是m:n,转换为关系时 [单选题]A、联系本身不必单独转换为一个关系B、联系本身必须单独转换为一个关系(正确答案)C、联系本身也可以不单独转换为一个关系D、将两个实体集合并为一个实体集6.逻辑设计的主要任务是 [单选题]A、进行数据库的具体定义,并建立必要的索引文件B、利用自顶向下的方式进行数据库的逻辑模式设计C、逻辑设计要完成数据的描述,数据存储格式的设定D、将概念设计得到的E-R图转换成DBMS支持的数据模型(正确答案)7.数据库设计中的数据流图和数据字典描述是哪个阶段的工作 [单选题]A、需求分析(正确答案)B、概念设计C、逻辑设计D、物理设计8.数据库三级模式体系结构主要的目标是确保数据库的 [单选题]A、数据结构规范化B、存储模式C、数据独立性(正确答案)D、最小冗余9.数据的存储结构与数据逻辑结构之间的独立性称为数据的 [单选题]A、物理独立性(正确答案)B、结构独立性C、逻辑独立性D、分布独立性10.设有关系R和S,关系代数R-(R-S)表示的是 [单选题]A、R∩S(正确答案)B、R―SC、R÷SD、R÷S11.自然连接是构成新关系的有效方法。
数据库技术与应用第5、6章 习题答案
第5章数据库完整性与安全性1. 什么是数据库的完整性?什么是数据库的安全性?两者之间有什么区别和联系?解:数据库的完整性是指数据库中数据的正确性、有效性和相容性,其目的是防止不符合语义、不正确的数据进入数据库,从而来保证数据库系统能够真实的反映客观现实世界。
数据库安全性是指保护数据库,防止因用户非法使用数据库造成数据泄露、更改或破坏。
数据的完整性和安全性是两个不同的概念,但是有一定的联系:前者是为了防止数据库中存在不符合语义的数据,防止错误信息的输入和输出,即所谓垃圾进垃圾出所造成的无效操作和错误结果。
后者是保护数据库防止恶意的破坏和非法的存取。
也就是说,安全性措施的防范对象是非法用户和非法操作,完整性措施的防范对象是不合语义的数据。
2. 什么是数据库的完整性约束条件?完整性约束条件可以分为哪几类?解:完整性约束条件是指数据库中的数据应该满足的语义约束条件。
一般可以分为六类:静态列级约束、静态元组约束、静态关系约束、动态列级约束、动态元组约束、动态关系约束。
静态列级约束是对一个列的取值域的说明,包括以下几个方面:①数据类型的约束,包括数据的类型、长度、单位、精度等;②对数据格式的约束;③对取值范围或取值集合的约束;④对空值的约束;⑤其他约束。
静态元组约束就是规定组成一个元组的各个列之间的约束关系,静态元组约束只局限在单个元组上。
静态关系约束是在一个关系的各个元组之间或者若干关系之间常常存在各种联系或约束。
常见的静态关系约束有:①实体完整性约束;②参照完整性约束;③函数依赖约束。
动态列级约束是修改列定义或列值时应满足的约束条件,包括下面两方面:①修改列定义时的约束;②修改列值时的约束。
动态元组约束是指修改某个元组的值时需要参照其旧值,并且新旧值之间需要满足某种约束条件。
动态关系约束是加在关系变化前后状态上的限制条件,例如事务一致性、原子性等约束条件。
3. 试述DBMS如何实现完整性控制。
解:为了维护数据库的完整性,DBMS提供了以下三种机制:①完整性约束条件定义完整性约束条件也称为完整性规则,是数据库中的数据必须满足的语义约束条件。
《大数据技术原理与操作应用》第5章习题答案
第五章一、单选题1、Zookeeper中的数据存储结构和标准文件系统非常类似,两者采用的层次结构是()。
•A、树形•B、星形•C、网形•D、分布式参考答案:A2、为了保证Leader选举能够通过半数以上台服务器选举支持,因此Zookeeper集群搭建的服务器为()。
•A、2n+2•B、2n•C、2n+1•D、以上说法均错误参考答案:C3、下列选项中,用于获取Zookeeper所包含的信息的Shell命令是()。
•A、ls•B、ls2•C、r•D、get参考答案:D4、当Zookeeper的节点数据发生变更时,被触发的事件是()。
•A、NodeCreated•B、NodeDataChanged•C、NodeChildrentChanged•D、NodeDeleted参考答案:B答案解析:当节点的数据发生变更时,NodeDataChanged事件被触发。
5、下列说法中,关于Zookeeper说法错误的是()。
•A、Apache Zookeeper旨在减轻构建健壮的分布式系统的服务•B、Zookeeper最早起源于雅虎研究院的一个研究小组•C、Zookeeper是一个分布式协调服务的收费框架•D、Zookeeper本质上是一个分布式的小文件存储系统参考答案:C答案解析:Zookeeper是一个分布式协调服务的开源框架,它是由Google的Chubby开源实现。
二、多选题1、下列选项中,属于Zookeeper集群的角色有()。
•A、Follower•B、Worker•C、Observer•D、Leader参考答案:A,C,D2、下列说法中,关于zoo.cfg配置文件中的参数server.1=hadoop01:2888:3888说法正确的是()。
•A、1表示服务器的编号•B、hadoop01表示这个服务器的IP地址•C、2888表示表示Zookeeper服务器之间的通信心跳号•D、3888表示Leader选举的端口号参考答案:A,B3、Zookeeper中,Watcher机制的特点包含()。
大数据技术与应用习题答案第5-6章
1)请阐述大数据存储的定义。
大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。
在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。
因此,大数据的存储是数据分析与应用的前提。
2)文件存储和对象存储有什么区别?文件存储(NAS)相对块存储来说更能兼顾多个应用和更多用户访问,同时提供方便的数据共享手段。
对象存储是一种新的网络存储架构。
存储标准化组织SINA早在2004年就给出了对象存储的定义,但早期多出现在超大规模系统中,所以并不为大众所熟知,相关产品一直也不温不火。
一直到云计算和大数据的概念全民强推,才慢慢进入公众视野。
对象存储的优势是互联网或者公网,主要解决海量数据,海量并发访问的需求。
总体上讲,对象存储同时兼具SAN高级直接访问磁盘特点及NAS的分布式共享特点。
它的核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD),构建存储系统,每个对象存储设备具备一定的职能,能够自动管理其上的数据分布。
3)什么是NoSQL,有什么特点?NoSQL数据库又叫作非关系数据库,它是英文“Not Only SQL”的简写,即“不仅仅是SQL”。
和数据库管理系统(RDBMS)相比,NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。
NoSQL数据库一般都具备水平可扩展的特性,并且可以支持超大规模数据存储,灵活的数据模型也可以很好地支持Web 2.0应用,此外还具有强大的横向扩展能力。
典型的NoSQL数据库包含以下几种:键值数据库、列族数据库、文档数据库和图形数据库。
值得注意的是:每种类型的数据库都能够解决传统关系数据库无法解决的问题。
4)什么是NewSQL,有什么特点?NewSQL 数据库是对各种新的可扩展/高性能数据库的简称,它是一种相对较新的形式,旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分。
电大数据库系统及应用,形考册第6章,习题与参考答案
第6章习题与参考答案一.单项选择题1.下列关于视图的说法,正确的是(B)。
A.视图与基本表一样,也存储数据B.对视图的操作最终都转换为对基本表的操作C.视图的数据源只能是基本表D.所有视图都可以实现对数据的增、删、改、查操作2.在视图的定义语句中,只能包含(A)。
A.数据查询语句B.数据增、删、改语句C.创建表的语句D.全部都可以3.视图对应数据库三级模式中的(A)。
A.外模式B.内模式C.模式D.其他4.下列关于视图的说法,正确的是(B)。
A.通过视图可以提高数据查询效率B.视图提供了数据的逻辑独立性C.视图只能建立在基本表上D.定义视图的语句可以包含数据更改语句5.创建视图的主要作用是(D)。
A.提高数据查询效率B.维护数据的完整性约束C.维护数据的一致性D.提供用户视角的数据6.设有学生表(学号,姓名,所在系)。
下列建立统计每个系的学生人数的视图语句中,正确的是(D)。
A.CREATE VIEW v1ASSELECT 所在系, COUNT(*) FROM 学生表GROUP BY 所在系B.CREATE VIEW v1ASSELECT 所在系, SUM(*) FROM 学生表GROUP BY 所在系C.CREATE VIEW v1(系名,人数) ASSELECT 所在系, SUM(*) FROM 学生表GROUP BY 所在系D.CREATE VIEW v1(系名,人数) ASSELECT 所在系, COUNT(*) FROM 学生表GROUP BY 所在系7.设用户在某数据库中经常需要进行如下查询操作:SELECT * FROM T WHERE C1='A' ORDER BY C2设T表中已在C1列上建立了主键约束,且该表只建有该约束。
为提高该查询的执行效率,下列方法中可行的是(C)。
A.在C1列上建立一个聚集索引,在C2列上建立一个非聚集索引B.在C1和C2列上分别建立一个非聚集索引C.在C2列上建立一个非聚集索引D.在C1和C2列上建立一个组合的非聚集索引8.下列关于索引的说法,正确的是(C)。
大数据技术原理与应用 林子雨版 课后习题答案[精品文档]
第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
大数据技术及应用基于Python语言课后习题答案
大数据技术及应用基于Python语言课后习题答案第一章1【单选题】“程序”就是做一件事情或者解决一个问题所采取的一系列()步骤。
D: 固定A、无序B、随机C、重复D、固定2【单选题】Python语言程序中的语句的行与行之间必须()对齐。
D: 左A、居中B、右C、无需对齐D、左3【单选题】有些语句(如if,else,while)的末尾是冒号“: ”,这样,下面的若干行就要缩进(____)个空格。
至少1个A、至少4个B、至少1个C、必须2个D、最多4个4【单选题】Python3不再区分整数和长整数,统一为()类型。
intA、floatB、stringC、intD、long long5【多选题】以下属于人机交互方式的是()。
BCA、CPU进行计算B、输入文字C、拨动游戏杆D、虚拟现实技术6【多选题】符号“#”后面跟的内容是程序里的()。
ABA、注释B、备注C、可执行语句D、函数调用7【多选题】日常生活中哪些过程可以看作是“程序”?ACA、话剧演出B、音乐会演出C、用电饭煲做米饭D、银行柜员取款服务8【多选题】Python语言最适合的应用领域ABCA、网站开发B、大数据分析C、人工智能应用D、大型3D游戏开发9【判断题】Guido给Python语言起名的原因是他家有只宠物蛇。
错误10【判断题】给第一台计算机编程的第一代程序员是6位女士。
正确11【判断题】Python于2001年发布了第一个版本。
()错误12【判断题】Python语句的行与行之间必须右对齐。
()X13【判断题】if语句末尾应该为分号,下面的若干行语句都需要缩进4个空格。
()X14【判断题】Python是一种高级动态、完全面向对象的语言。
()正确15【判断题】Python版本2.x完全可以被3.x兼容。
()错误第二章1【单选题】Python语言可以在哪些操作系统上运行?DA、LinuxB、macOSC、WindowsD、每个选项都可以2【单选题】Python官方软件包自带的一个集成开发环境是(_____)。
林子雨大数据技术原理及应用第五章课后作业答案
林⼦⾬⼤数据技术原理及应⽤第五章课后作业答案⼤数据技术与原理第五章课后作业黎狸1. 如何准确理解NoSQL的含义?NoSQL是⼀种不同于关系数据库的数据库管理系统设计⽅式,是对⾮关系型数据库的⼀类统称,它采⽤的数据模型并⾮传统关系数据库的关系模型,⽽是类似键/值、列族、⽂档等⾮关系模型。
2. 试述关系数据库在哪些⽅⾯⽆法满⾜Web 2.0应⽤的需求。
主要表现在以下⼏个⽅⾯:(1)⽆法满⾜海量数据的管理需求(2)⽆法满⾜数据⾼并发的需求(3)⽆法满⾜⾼可扩展性和⾼可⽤性的需求3. 为什么说关系数据库的⼀些关键特性在Web 2.0时代成为“鸡肋”?(1)Web2.0⽹站系统通常不要求严格的数据库事务(2)Web2.0不要求严格的读写实时性(3)Web2.0通常不包含⼤量复杂的SQL查询4. 请⽐较NoSQL数据库和关系数据库的优缺点。
①关系数据库。
优点:以完善得关系理论代数作为基础,有严格得标准,⽀持事务ACID四性,⾼校查询,技术成熟,专业公司得技术⽀持;缺点:可扩展性较差、⽆法较好⽀持海量数据存储、数据模型过于死板、⽆法较好⽀持Web2.0应⽤、事务机制影响系统整体性能。
②NoSQL数据库。
优点:⽀持超⼤规模数据存储数据模型灵活⽀持Web2.0,具有强⼤得横向扩展能⼒缺点:缺乏数学理论基础,复杂查询性能不⾼。
不能实现事务强⼀致性,很难实现数据完整性,技术尚不成熟,缺乏专业的技术⽀持,维护较困难。
5. 试述NoSQL数据库的四⼤类型。
答:键值数据库、列族数据库、⽂档数据库和图数据库6. 试述键值数据库、列族数据库、⽂档数据库和图形数据库的适⽤场合和优缺点。
7. 试述CAP理论的具体含义。
C(Consistency):⼀致性,是指任何⼀个读操作总是能够读到之前完成的写操作的结果,也就是在分布式环境中,多点的数据是⼀致的,或者说,所有节点在同⼀时间具有相同的数据A:(Availability):可⽤性,是指快速获取数据,可以在确定的时间内返回操作结果,保证每个请求不管成功或者失败都有响应;P(Tolerance of Network Partition):分区容忍性,是指当出现⽹络分区的情况时(即系统中的⼀部分节点⽆法和其他节点进⾏通信),分离的系统也能够正常运⾏,也就是说,系统中任意信息的丢失或失败不会影响系统的继续运作。
大数据技术与应用习题答案完整共9章
1)请阐述什么是大数据?大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
2)大数据对当今世界有哪些影响?大数据是一种新兴的产业,从提出概述至今不断在推动着世界经济的转型和进一步的发展。
如法国政府在2013年投入近1150万欧元,用于7个大数据市场研发项目。
目的在于通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展。
法国政府在《数字化路线图》中列出了五项将大力支持的战略性高新技术,大数据就是其中一项。
综上所述,从各种各样的大数据中,快速获得有用的信息的能力,就是大数据技术。
这种技术已经对人们的产生和生活方式有了极大的影响,并且还在快速的发展中,不会停下来。
3)大数据有哪些框架?按照对所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类:批处理系统、流处理系统和混合处理系统。
4)企业应当如何应对大数据时代的挑战?大数据在许多企业应用程序中的确扮演着相当重要的角色,大数据的应用对于企业带来的好处有以下几点:(1)结合各种传统企业数据对大数据进行分析和提炼,带给企业更深入透彻的洞察力。
它可以带来更高的生产力,更大的创新和更强的竞争地位。
(2)正确的数据分析可以帮助企业做出明智的业务经营决策的工具。
这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。
而商业智能能够辅助的业务经营决策既可以是作业层的,也可以是管理层和策略层的决策。
(3)促进企业决策流程:增进企业的资讯整合与资讯分析的能力,汇总公司内、外部的资料,整合成有效的决策资讯,让企业经理人大幅增进决策效率与改善决策品质,很大程度上影响了企业的经营和绩效。
5)大数据和云计算的联系和区别是什么?如果将云计算与大数据进行一些比较,最明显的区分在两个方面:第一,在概念上两者有所不同,云计算改变了IT,而大数据则改变了业务。
大数据技术原理与应用-林子雨版-课后习题答案
第一章1.试述信息技术发展史上的3次信息化浪潮及具体内容。
2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创内容阶段,感知式系统阶段。
3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。
4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。
5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种范式。
6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。
7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。
大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。
8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。
答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。
11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。
物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。
12.详细阐述大数据、云计算和物联网三者之间的区别与联系。
第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
《大数据技术原理与操作应用》第2章习题答案
《大数据技术原理与操作应用》第2章习题答案
一、单选题
1.数据挖掘技术主要是()。
A.数据处理技术
B.数据库技术
C.数据分析技术
D.数据模式技术
答案:C
2.下列不属于企业应用的大数据技术的是()。
A.客户关系管理
B.企业资源规划
C.财务风控分析
D.人工智能
答案:D
3.根据观测指标,将相似特征的样本聚类在一起,这一分析过程属于()。
A.数据预处理
B.数据分析
C.聚类分析
D.关联分析
答案:C
4.大数据技术中,批处理指()。
A.在计算机上定义一系列的任务,然后将它们提交给系统,并让系统依次执行任务
B.针对一个个独立的任务,将任务提交给系统
C.实时地处理事件
D.查询数据库
答案:A
二、多选题
5.下列不属于具有大数据处理特点的是()。
A.实时性
B.持续性
C.连续性
D.批处理性
答案:C
6.大数据技术可以分为()和业务数据两大类。
A.结构化数据
B.半结构化数据
C.非结构化数据
D.混合型数据
答案:A、B、C
三、判断题
7.利用大数据技术进行市场营销活动时,可以采用决策树模型进行客户分群分析,从而获取客户价值分类。
大学生大数据技术原理与应用章节测验期末考试答案
大数据技术原理与应用第1章大数据概述1单选(2分)第三次信息化浪潮的标志是:A.个人电脑的普及B.云计算、大数据、物联网技术的普及C.虚拟现实技术的普及D.互联网的普及正确答案:B你选对了2单选(2分)就数据的量级而言,1PB数据是多少TB?A.2048B.1000C.512D.1024正确答案:D你选对了3单选(2分)以下关于云计算、大数据和物联网之间的关系,论述错误的是:A.云计算侧重于数据分析B.物联网可借助于云计算实现海量数据的存储C.物联网可借助于大数据实现海量数据的分析D.云计算、大数据和物联网三者紧密相关,相辅相成正确答案:A你选对了4单选(2分)以下哪个不是大数据时代新兴的技术:A.SparkB.HadoopC.HBaseD.MySQL正确答案:D你选对了5单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于批处理的:A.MapReduceB.DremelC.StormD.Pregel正确答案:A你选对了6单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于流计算的:A.GraphXB.S4C.ImpalaD.Hive正确答案:B你选对了7单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于图计算的:A.PregelB.StormC.CassandraD.Flume正确答案:A你选对了8单选(2分)每种大数据产品都有特定的应用场景,以下哪个产品是用于查询分析计算的:A.HDFSB.S4C.DremelD.MapReduce正确答案:C你选对了9多选(3分)数据产生方式大致经历三个阶段,包括:A.运营式系统阶段B.感知式系统阶段C.移动互联网数据阶段D.用户原创内容阶段正确答案:ABD你选对了10多选(3分)大数据发展三个阶段是:A.低谷期B.成熟期C.大规模应用期D.萌芽期正确答案:BCD你选对了11多选(3分)大数据的特性包括:A.价值密度低B.处理速度快C.数据类型繁多D.数据量大正确答案:ABCD你选对了12多选(3分)图领奖获得者、著名数据库专家Jim Gray博士认为,人类自古以来在科学研究上先后经历哪几种范式:A.计算科学B.数据密集型科学C.实验科学D.理论科学正确答案:ABCD你选对了13多选(3分)大数据带来思维方式的三个转变是:A.效率而非精确B.相关而非因果C.精确而非全面D.全样而非抽样正确答案:ABD你选对了14多选(3分)大数据主要有哪几种计算模式:A.流计算B.图计算C.查询分析计算D.批处理计算正确答案:ABCD你选对了15多选(3分)云计算的典型服务模式包括三种:A.SaaSB.IaaSC.MaaSD.PaaS正确答案:ABD你选对了第2章大数据处理架构Hadoop1单选(2分)启动hadoop所有进程的命令是:A.start-dfs.shB.start-all.shC.start-hadoop.shD.start-hdfs.sh正确答案:B你选对了2单选(2分)以下对Hadoop的说法错误的是:A.Hadoop是基于Java语言开发的,只支持Java语言编程B.Hadoop2.0增加了NameNode HA和Wire-compatibility两个重大特性C.Hadoop MapReduce是针对谷歌MapReduce的开源实现,通常用于大规模数据集的并行计算D.Hadoop的核心是HDFS和MapReduce正确答案:A你选对了3单选(2分)以下哪个不是Hadoop的特性:A.成本高B.支持多种编程语言C.高容错性D.高可靠性正确答案:A你选对了4单选(2分)以下名词解释不正确的是:A.Zookeeper:针对谷歌Chubby的一个开源实现,是高效可靠的协同工作系统B.HBase:提供高可靠性、高性能、分布式的行式数据库,是谷歌BigTable的开源实现C.Hive:一个基于Hadoop的数据仓库工具,用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储D.HDFS:分布式文件系统,是Hadoop项目的两大核心之一,是谷歌GFS的开源实现正确答案:B你选对了5多选(3分)以下哪些组件是Hadoop的生态系统的组件:A.HBaseB.OracleC.HDFSD.MapReduce正确答案:ACD你选对了6多选(3分)以下哪个命令可用来操作HDFS文件:A.hadoop fsB.hadoop dfsC.hdfs fsD.hdfs dfs正确答案:ABD你选对了第3章分布式文件系统HDFS1单选(2分)HDFS的命名空间不包含:A.字节B.文件C.块D.目录正确答案:A你选对了2单选(2分)对HDFS通信协议的理解错误的是:A.客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的B.客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互C.名称节点和数据节点之间则使用数据节点协议进行交互D.HDFS通信协议都是构建在IoT协议基础之上的正确答案:D你选对了3单选(2分)采用多副本冗余存储的优势不包含:A.保证数据可靠性B.容易检查数据错误C.加快数据传输速度D.节约存储空间正确答案:D你选对了4单选(2分)假设已经配置好环境变量,启动Hadoop和关闭Hadoop的命令分别是:A.start-dfs.sh,stop-hdfs.shB.start-hdfs.sh,stop-hdfs.shC.start-dfs.sh,stop-dfs.shD.start-hdfs.sh,stop-dfs.sh正确答案:C你选对了5单选(2分)分布式文件系统HDFS采用主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫,另一类存储具体数据叫 :A.名称节点,主节点B.从节点,主节点C.名称节点,数据节点D.数据节点,名称节点正确答案:C你选对了6单选(2分)下面关于分布式文件系统HDFS的描述正确的是:A.分布式文件系统HDFS是Google Bigtable的一种开源实现B.分布式文件系统HDFS是谷歌分布式文件系统GFS(Google File System)的一种开源实现C.分布式文件系统HDFS比较适合存储大量零碎的小文件D.分布式文件系统HDFS是一种关系型数据库正确答案:B你选对了7多选(3分)以下对名称节点理解正确的是:A.名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问B.名称节点用来负责具体用户数据的存储C.名称节点通常用来保存元数据D.名称节点的数据保存在内存中正确答案:ACD你选对了8多选(3分)以下对数据节点理解正确的是:A.数据节点通常只有一个B.数据节点用来存储具体的文件内容C.数据节点的数据保存在磁盘中D.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作正确答案:BCD你选对了9多选(3分)HDFS只设置唯一一个名称节点带来的局限性包括:A.集群的可用性B.性能的瓶颈C.命名空间的限制D.隔离问题正确答案:ABCD你选对了10多选(3分)以下HDFS相关的shell命令不正确的是:A.hadoop dfs mkdir <path>:创建<path>指定的文件夹B.hdfs dfs -rm <path>:删除路径<path>指定的文件C.hadoop fs -copyFromLocal <path1> <path2>:将路径<path2>指定的文件或文件夹复制到路径<path1>指定的文件夹中D.hadoop fs -ls <path>:显示<path>指定的文件的详细信息正确答案:AC你选对了第4章分布式数据库HBase1单选(2分)HBase是一种数据库A.行式数据库B.关系数据库C.文档数据库D.列式数据库正确答案:D你选对了2单选(2分)下列对HBase数据模型的描述错误的是:A.每个HBase表都由若干行组成,每个行由行键(row key)来标识B.HBase是一个稀疏、多维度、排序的映射表,这张表的索引是行键、列族、列限定符和时间戳C.HBase中执行更新操作时,会删除数据旧的版本,并生成一个新的版本D.HBase列族支持动态扩展,可很轻松地添加一个列族或列正确答案:C你选对了3单选(2分)下列说法正确的是:A.如果不启动Hadoop,则HBase完全无法使用B.HBase的实现包括的主要功能组件是库函数,一个Master主服务器和一个Region服务器C.如果通过HBase Shell插入表数据,可以插入一行数据或一个单元格数据D.Zookeeper是一个集群管理工具,常用于分布式计算,提供配置维护、域名服务、分布式同步等正确答案:D你选对了4单选(2分)在HBase数据库中,每个Region的建议最佳大小是:A.2GB-4GBB.100MB-200MBC.500MB-1000MBD.1GB-2GB正确答案:D你选对了5单选(2分)HBase三层结构的顺序是:A.Zookeeper文件,.MEATA.表,-ROOT-表B.-ROOT-表,Zookeeper文件,.MEATA.表C.Zookeeper文件,-ROOT-表,.MEATA.表D..MEATA.表,Zookeeper文件,-ROOT-表正确答案:C你选对了6单选(2分)客户端是通过级寻址来定位Region:A.三B.二C.一D.四正确答案:A你选对了7单选(2分)关于HBase Shell命令解释错误的是:A.create:创建表B.put:向表、行、列指定的单元格添加数据C.list:显示表的所有数据D.get:通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值正确答案:C你选对了8多选(3分)下列对HBase的理解正确的是:A.HBase是针对谷歌BigTable的开源实现B.HBase是一种关系型数据库,现成功应用于互联网服务领域C.HBase是一个行式分布式数据库,是Hadoop生态系统中的一个组件D.HBase多用于存储非结构化和半结构化的松散数据正确答案:AD你选对了9多选(3分)HBase和传统关系型数据库的区别在于哪些方面:A.数据操作B.数据索引C.数据模型D.存储模式正确答案:ABCD你选对了10多选(3分)访问HBase表中的行,有哪些方式:A.通过某列的值区间B.全表扫描C.通过一个行健的区间来访问D.通过单个行健访问正确答案:BCD你选对了第5章 NoSQL数据库1单选(2分)下列关于NoSQL数据库和关系型数据库的比较,不正确的是:A.NoSQL数据库很容易实现数据完整性,关系型数据库很难实现数据完整性B.NoSQL数据库缺乏统一的查询语言,而关系型数据库有标准化查询语言C.NoSQL数据库的可扩展性比传统的关系型数据库更好D.NoSQL数据库具有弱一致性,关系型数据库具有强一致性正确答案:A你选对了2单选(2分)以下对各类数据库的理解错误的是:A.键值数据库的键是一个字符串对象,值可以是任意类型的数据,比如整型和字符型等B.文档数据库的数据是松散的,XML和JSON 文档等都可作为数据存储在文档数据库中C.图数据库灵活性高,支持复杂的图算法,可用于构建复杂的关系图谱D.HBase数据库是列族数据库,可扩展性强,支持事务一致性正确答案:D你选对了3单选(2分)下列数据库属于文档数据库的是:A.MySQLB.RedisC.MongoDBD.HBase正确答案:C你选对了4单选(2分)NoSQL数据库的三大理论基石不包括:A.最终一致性B.BASEC.ACIDD.CAP正确答案:C你选对了5多选(3分)关于NoSQL数据库和关系数据库,下列说法正确的是:A.NoSQL数据库可支持超大规模数据存储,具有强大的横向扩展能力B.NoSQL数据库和关系数据库各有优缺点,但随着NoSQL的发展,终将取代关系数据库C.大多数NoSQL数据库很难实现数据完整性D.关系数据库有关系代数理论作为基础,NoSQL数据库没有统一的理论基础正确答案:ACD你选对了6多选(3分)NoSQL数据库的类型包括:A.键值数据库B.列族数据库C.文档数据库D.图数据库正确答案:ABCD你选对了7多选(3分)CAP是指:A.一致性B.可用性C.持久性D.分区容忍性正确答案:ABD你选对了8多选(3分)NoSQL数据库的BASE特性是指:A.软状态B.持续性C.最终一致性D.基本可用正确答案:ACD你选对了第6章云数据库1单选(2分)下列Amazon的云数据库属于关系数据库的是:A.Amazon SimpleDBB.Amazon DynamoDBC.Amazon RDSD.Amazon Redshift正确答案:C你选对了2单选(2分)下列关于UMP系统的说法不正确的是:A.Controller服务器向UMP集群提供各种管理服务,实现集群成员管理、元数据存储等功能B.Agent服务器部署在运行MySQL进程的机器上,用来管理每台物理机上的MySQL实例C.UMP系统是低成本和高性能的MySQL云数据库方案D.Mnesia是UMP系统的一个组件,是一个分布式数据库管理系统,且不支持事务正确答案:D你选对了3多选(3分)UMP依赖的开源组件包括A.LVSB.ZooKeeperC.MnesiaD.RabbitMQ正确答案:ABCD你选对了4多选(3分)在UMP系统中,Zookeeper主要发挥的作用包括:A.监控所有MySQL实例B.负责集群负载均衡C.提供分布式锁,选出一个集群的“总管”D.作为全局的配置服务器正确答案:ACD你选对了5多选(3分)UMP系统设计了哪些机制来保证数据安全:A.记录用户操作日志B.数据访问IP白名单C.SSL数据库连接D.SQL拦截正确答案:ABCD你选对了第7章 MapReduce1单选(2分)下列说法错误的是:A.Map函数将输入的元素转换成<key,value>形式的键值对B.Hadoop框架是用Java实现的,MapReduce应用程序则一定要用Java来写C.MapReduce框架采用了Master/Slave架构,包括一个Master和若干个SlaveD.不同的Map任务之间不能互相通信正确答案:B你选对了2单选(2分)在使用MapReduce程序WordCount进行词频统计时,对于文本行“hello hadoop hello world”,经过WordCount程序的Map函数处理后直接输出的中间结果,应是下面哪种形式:A.<"hello",1,1>、<"hadoop",1>和<"world",1>B.<"hello",2>、<"hadoop",1>和<"world",1>C.<"hello",<1,1>>、<"hadoop",1>和<"world",1>D.<"hello",1>、<"hello",1>、<"hadoop",1>和<"world",1>正确答案:D你选对了3单选(2分)对于文本行“hello hadoop hello world”,经过WordCount的Reduce函数处理后的结果是:A.<"hello",<1,1>><"hadoop",1><"world",1>B.<"hello",1><"hello",1><"hadoop",1><"world",1>C.<"hello",1,1><"hadoop",1><"world",1>D.<"hello",2><"hadoop",1><"world",1>正确答案:B你选对了4多选(3分)下列关于传统并行计算框架(比如MPI)和MapReduce并行计算框架比较正确的是:A.前者所需硬件价格贵,可扩展性差,后者硬件便宜,扩展性好B.前者相比后者学习起来更难C.前者是共享式(共享内存/共享存储),容错性差,后者是非共享式的,容错性好D.前者适用于实时、细粒度计算、计算密集型,后者适用于批处理、非实时、数据密集型正确答案:ABCD你选对了5多选(3分)MapReduce1.0的体系结构主要由哪几个部分组成:A.JobTrackerB.TaskTrackerC.ClientD.Task正确答案:ABCD你选对了第8章 Hadoop再探讨1单选(2分)下列说法正确的是:A.HDFS HA可用性不好B.第二名称节点是热备份C.HDFS HA提供高可用性,可实现可扩展性、系统性能和隔离性D.第二名称节点无法解决单点故障问题正确答案:D你选对了2单选(2分)HDFS Federation设计不能解决“单名称节点”存在的哪个问题:A.单点故障问题B.HDFS集群扩展性C.性能更高效D.良好的隔离性正确答案:A你选对了3多选(3分)下列哪些是Hadoop1.0存在的问题:A.抽象层次低B.表达能力有限C.开发者自己管理作业之间的依赖关系D.执行迭代操作效率低正确答案:ABCD你选对了4多选(3分)下列对Hadoop各组件的理解正确的是:A.Oozie:工作流和协作服务引擎B.Pig:处理大规模数据的脚本语言C.Kafka:分布式发布订阅消息系统D.Tez:支持DAG作业的计算框架正确答案:ABCD你选对了5多选(3分)对新一代资源管理调度框架YARN的理解正确的是:A.YARN既是资源管理调度框架,也是一个计算框架B.MapReduce2.0是运行在YARN之上的计算框架,由YARN来为MapReduce提供资源管理调度服务C.YARN可以实现“一个集群多个框架”,即在一个集群上部署一个统一的资源调度管理框架D.YARN的体系结构包含三个组件:ResourceManager,NodeManager,ApplicationMaster正确答案:BCD你选对了第9章数据仓库Hive1单选(2分)下列有关Hive和Impala的对比错误的是:A.Hive与Impala中对SQL的解释处理比较相似,都是通过词法分析生成执行计划B.Hive与Impala使用相同的元数据C.Hive适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询D.Hive在内存不足以存储所有数据时,会使用外存,而Impala也是如此正确答案:D你选对了2单选(2分)下列关于Hive基本操作命令的解释错误的是:A.create table if not exists usr(id bigint,name string,age int);//如usr表不存在,创建表usr,含三个属性id,name,ageB.load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表C.create database userdb;//创建数据库userdbD.insert overwrite table student select * from user where age>10; //向表usr1中插入来自usr表的age大于10的数据并覆盖student表中原有数据正确答案:B你选对了3多选(3分)下列说法正确的是:A.Impala和Hive、HDFS、HBase等工具可统一部署在一个Hadoop平台上B.数据仓库Hive不需要借助于HDFS就可完成数据的存储C.Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据D.HiveQL语法与传统的SQL语法很相似正确答案:ACD你选对了4多选(3分)Impala主要由哪几个部分组成:A.HiveB.ImpaladC.State StoreD.CLI正确答案:BCD你选对了5多选(3分)以下属于Hive的基本数据类型是:A.BINARYB.STRINGC.FLOATD.TINYINT正确答案:ABCD你选对了第10章 Spark1单选(2分)Spark SQL目前暂时不支持下列哪种语言:A.PythonB.JavaC.ScalaD.Lisp正确答案:D你选对了2单选(2分)RDD操作分为转换(Transformation)和动作(Action)两种类型,下列属于动作(Action)类型的操作的是:A.groupByB.filterC.countD.map正确答案:C你选对了3单选(2分)下列说法错误的是:A.在选择Spark Streaming和Storm时,对实时性要求高(比如要求毫秒级响应)的企业更倾向于选择流计算框架StormB.RDD采用惰性调用,遇到“转换(Transformation)”类型的操作时,只会记录RDD生成的轨迹,只有遇到“动作(Action)”类型的操作时才会触发真正的计算C.Spark支持三种类型的部署方式:Standalone,Spark on Mesos,Spark on YARND.RDD提供的转换接口既适用filter等粗粒度的转换,也适合某一数据项的细粒度转换正确答案:D你选对了4单选(2分)下列关于常见的动作(Action)和转换(Transformation)操作的API解释错误的是:A.filter(func):筛选出满足函数func的元素,并返回一个新的数据集B.map(func):将每个元素传递到函数func中,并将结果返回为一个新的数据集C.count():返回数据集中的元素个数D.take(n):返回数据集中的第n个元素正确答案:D你选对了5单选(2分)下列大数据处理类型与其对应的软件框架不匹配的是:A.复杂的批量数据处理:MapReduceB.基于历史数据的交互式查询:ImpalaC.基于实时数据流的数据处理:StormD.图结构数据的计算:Hive正确答案:D你选对了6多选(3分)Apache软件基金会最重要的三大分布式计算系统开源项目包括:A.OracleC.StormD.Spark正确答案:ABC你选对了7多选(3分)Spark的主要特点包括:A.运行模式多样B.运行速度快C.通用性好D.容易使用正确答案:ABCD你选对了8多选(3分)下列关于Scala的说法正确的是:A.Scala运行于Java平台,兼容现有的Java程序B.Scala具备强大的并发性,支持函数式编程C.Scala是一种多范式编程语言D.Scala是Spark的主要编程语言,但Spark还支持Java、Python、R作为编程语言正确答案:ABCD你选对了9多选(3分)Spark的运行架构包括:A.运行作业任务的工作节点 Worker NodeB.每个工作节点上负责具体任务的执行进程 ExecutorC.每个应用的任务控制节点 DriverD.集群资源管理器 Cluster Manager正确答案:ABCD你选对了第11章流计算1单选(2分)流计算秉承一个基本理念,即数据的价值随着时间的流逝而,如用户点击流:A.降低B.不确定C.不变正确答案:A你选对了2单选(2分)Hadoop运行的是MapReduce任务,类似地,Storm运行的任务叫做A.SpoutB.BoltC.TupleD.Topology正确答案:D你选对了3多选(3分)对于一个流计算系统来说,它应达到如下哪些需求:A.海量式B.高性能C.分布式D.实时性正确答案:A、B、C、D你选对了4多选(3分)数据采集系统的基本架构包括哪些部分:A.ControllerB.StoreC.AgentD.Collector正确答案:B、C、D你选对了5多选(3分)以下哪些是开源的流计算框架:A.Facebook PumaB.Yahoo! S4C.IBM InfoSphere StreamsD.Twitter Storm正确答案:B、D你选对了6多选(3分)下面哪几个属于Storm中的Stream Groupings的分组方式:A.按照字段分组B.广播发送C.随机分组D.全局分组正确答案:A、B、C、D你选对了第12章 Flink1单选(2分)以下哪个不是Flink的优势:A.同时支持高吞吐、低延迟、高性能B.不支持增量迭代C.同时支持流处理和批处理D.支持有状态计算正确答案:B你选对了2单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.FlinkMLC.GellyD.CEP正确答案:C你选对了3多选(3分)下面关于Flink的说法正确的是:A.Flink起源于Stratosphere 项目,该项目是在2010年到2014年间由柏林工业大学、柏林洪堡大学和哈索普拉特纳研究所联合开展的B.Flink可以同时支持实时计算和批量计算C.Flink不是Apache软件基金会的项目D.Flink是Apache软件基金会的5个最大的大数据项目之一正确答案:A、B、D你选对了4多选(3分)Flink的主要特性包括:A.精确一次的状态一致性保障B.批流一体化C.精密的状态管理D.事件时间支持正确答案:A、B、C、D你选对了5多选(3分)下面论述正确的是:A.Spark Streaming通过采用微批处理方法实现高吞吐和容错性,但是牺牲了低延迟和实时处理能力B.Storm虽然可以做到低延迟,但是无法实现高吞吐,也不能在故障发生时准确地处理计算状态C.流处理架构需要具备低延迟、高吞吐和高性能的特性,而目前从市场上已有的产品来看,只有Flink 可满足要求D.Flink实现了Google Dataflow流计算模型,是一种兼具高吞吐、低延迟和高性能的实时流计算框架,并且同时支持批处理和流处理正确答案:A、B、C、D你选对了6多选(3分)Flink常见的应用场景包括:A.数据流水线应用B.事件驱动型应用C.地图应用D.数据分析应用正确答案:A、B、D你选对了7多选(3分)Flink核心组件栈分为哪三层:A.物理部署层B.Runtime核心层C.Core层D.API&Libraries层正确答案:A、B、D你选对了8多选(3分)Flink有哪几种部署模式:A.运行在GCE(谷歌云服务)和EC2(亚马逊云服务)上B.YARN集群模式C.Standalone集群模式D.Local模式正确答案:A、B、C、D你选对了9多选(3分)Flink系统主要由两个组件组成,分别为:A.JobManagerB.JobSchedulerC.TaskSchedulerD.TaskManager正确答案:A、D你选对了10多选(3分)在编程模型方面,Flink 提供了不同级别的抽象,以开发流或批处理作业,主要包括哪几个级别的抽象:A.DataStream API(有界或无界流数据)以及 DataSet API(有界数据集)B.Table APIC.状态化的数据流接口D. SQL正确答案:A、B、C、D你选对了第13章图计算1单选(2分)Pregel是一种基于模型实现的并行图处理系统:A.TSPB.STPC.BSPD.SBP正确答案:C你选对了2单选(2分)谷歌在后Hadoop时代的新“三驾马车”不包括:A.CaffeineB.DremelC. PregelD.Hama正确答案:D你选对了3多选(3分)下列哪些是以图顶点为中心的,基于消息传递批处理的并行图计算框架:A.HamaB.GiraphC.PregelD.Neo4j正确答案:A、B、C你选对了4多选(3分)以下关于Pregel图计算框架说法正确的是:A.通常只对满足交换律和结合律的操作才会开启Combiner功能B.Pregel采用检查点机制来实现容错C.对于全局拓扑改变,Pregel采用了惰性协调机制D.Aggregator提供了一种全局通信、监控和数据查看的机制正确答案:A、B、C、D你选对了第14章大数据在不同领域的应用1单选(2分)下列说法错误的是:A.ItemCF算法推荐的是那些和目标用户之前喜欢的物品类似的其他物品B.基于用户的协同过滤算法(简称UserCF算法)是目前业界应用最多的算法erCF算法推荐的是那些和目标用户有共同兴趣爱好的其他用户所喜欢的物品erCF算法的推荐更偏向社会化,而ItemCF算法的推荐更偏向于个性化正确答案:B你选对了2多选(3分)推荐方法包括哪些类型:A.专家推荐B.协同过滤推荐C.基于内容的推荐D.基于统计的推荐正确答案:A、B、C、D你选对了期末试卷1单选(2分)数据产生方式的变革主要经历了三个阶段,以下哪个不属于这三个阶段:A.运营式系统阶段B.感知式系统阶段C.数据流阶段D.用户原创内容阶段正确答案:C你选对了2单选(2分)第三次信息化浪潮的发生标志是以下哪种技术的普及:A.互联网B.CPUC.物联网、云计算和大数据D.个人计算机正确答案:C你选对了3单选(2分)在Flink中哪个是基于批处理的图计算库:A.SQL&Table库B.CEPC. GellyD. FlinkML正确答案:C你选对了4单选(2分)Hadoop的两大核心是和A.MapReduce; HBaseB. HDFS; HBaseC.HDFS; MapReduceD.GFS; MapReduce正确答案:C你选对了5单选(2分)HDFS默认的一个块大小是A.64MBB.8KBC. 32KBD.16KB正确答案:A你选对了6单选(2分)在分布式文件系统HDFS中,负责数据的存储和读取:A.数据节点B.第二名称节点C.名称节点D.主节点正确答案:A你选对了7单选(2分)上传当前目录下的本地文件file.txt到分布式文件系统HDFS的“/path”目录下的Shell命令是:A.hdfs dfs -put /path file.txtB.hadoop dfs -put /path file.txtC.hdfs fs -put file.txt /pathD.hdfs dfs -put file.txt /path正确答案:D你选对了8单选(2分)在HDFS根目录下创建一个文件夹/test,且/test文件夹内还包含一个文件夹dir,正确的shell命令是:A.hadoop fs -mkdir -p /test/dirB.hdfs fs -mkdir -p /test/dirC.hadoop dfs -mkdir /test/dirD.hdfs dfs *mkdir -p /test/dir正确答案:A你选对了9单选(2分)下列有关HBase的说法正确的是:A.在向数据库中插入记录时,HBase和关系数据库一样,每次都是以“行”为单位把整条记录插入数据库B.HBase是针对谷歌BigTable的开源实现,是高可靠、高性能的图数据库C.HBase是一种NoSQL数据库D.HBase数据库表可以设置该表任意列作为索引正确答案:C你选对了10单选(2分)已知一张表student存储在HBase中,向表中插入一条记录{id:2015001,name:Mary,{score:math}:88},其id 作为行键,其中,在插入数学成绩88分时,正确的命令是:A.put 'student','score:math','88'B.put 'student','2015001','score:math','88'C.put 'student','2015001','math','88'D.put 'student','2015001','88'正确答案:B你选对了11单选(2分)NoSQL数据库的三大理论基石不包括:A.ACIDB.最终一致性C.BASED.CAP正确答案:A你选对了12单选(2分)在设计词频统计的MapReduce程序时,对于文本行“hello bigdata hello hadoop”,经过map函数处理后直接输出的结果应该是(没有发生combine和merge操作):A.<"hello",1,1>、<"bigdata",1>和<"hadoop",1>B. <"hello",<1,1>>、<"bigdata",1>和<"hadoop",1>C.<"hello",2>、<"bigdata",1>和<"hadoop",1>D.<"hello",1>、<"hello",1>、<"bigdata",1>和<"hadoop",1>正确答案:D你选对了13单选(2分)假设已经配置好PATH环境变量,启动Hadoop的命令是:A.start-hdfs.shB.start-fs.shC.start-dfs.shD.start-hadoop.sh正确答案:C你选对了14单选(2分)下列说法错误的是:A.HDFS Federation使得HDFS的命名服务能够水平扩展B.第二名称节点是热备份,而HDFS HA不是热备份C.HDFS HA可以解决单点故障问题D.第二名称节点无法解决单点故障问题正确答案:B你选对了15单选(2分)。
《大数据技术原理与操作应用》第4章习题答案
第4章课后习题答案一、单选题1.在 MapReduce 程序中,map() 函数接收的数据格式是(A. 字符串B. 整型C. LongD. 键值对参考答案:D2.每个 Map 任务都有一个内存缓冲区,默认大小是( ) 。
A. 128 MBB. 64 MBC. 100 MBD. 32 MB参考答案:C3.在 MapTask 的 Combine 阶段,当处理完所有数据时,MapTask 会对所有的临时文件进行一次() 。
A. 分片操作B. 合并操作C. 格式化操作D. 溢写操作参考答案:B4.下列选项中,主要用于决定整个 MapReduce 程序性能高低的阶段是( ) 。
A. MapTaskB. ReduceTaskC. 分片、格式化数据源D. Shuffle参考答案:D二、判断题1. MapReduce 编程模型借鉴了面向过程的编程语言的设计思想。
( )参考答案:错2.在MapReduce 程序进行格式化数据源操作时, 是将划分好的分片格式化为键值对“ < key,value > ” 形式的数据。
( )参考答案:对3.带有倒排索引的文件称为“倒排索引文件”,简称“ 倒排文件” 。
( )参考答案:对4.reduce() 函数会将 map( ) 函数输出的键值对作为输入,将相同 key 值的 value 进行汇总,输出新的键值对。
( )参考答案:对5.MapReduce 通过 TextOutputFormat 组件输出到结果文件中。
( )参考答案:对biner 组件可以让 Map 对 key 进行分区,从而可以根据不同的 key 分发到不同的Reduce 中去处理。
( )参考答案:错7.对于 MapReduce 任务来说,一定需要 Reduce 过程。
( )参考答案:错8.在 MapReduce 程序中,只有 Map 阶段涉及 Shuffle 机制。
( )参考答案:错9.MapReduce 的数据流模型可能只有 Map 过程,由 Map 产生的数据直接被写入 HDFS中。
大数据技术与应用习题答案第3-4章
3.7 习题一、选择题1. B2. C3. B4. D5. B6. C7. D8. D二、填空题1.在HDFS文件系统读取文件的过程中,客户端通过对输入流调用_read() 方法开始读取数据;写入文件的过程中客户端通过对输出流调用___write()___方法开始写入数据。
2.HDFS全部文件的元数据是存储在NameNode节点的___硬盘______(硬盘/内存),为了解决这个瓶颈,HDFS产生了____HA_____机制。
三、简答题1. 举例说明Hadoop的体系结构。
Hadoop其实是由一系列的软件库组成的框架。
这些软件库也可称作功能模块,它们各自负责了Hadoop的一部分功能,其中最主要的是Common、HDFS和YARN。
Common提供远程调用RPC、序列化机制,HDFS负责数据的存储,YARN则负责统一资源调度和管理等。
2.HDFS中数据副本的存放策略是什么?HDFS默认的副本系数是3,这适用于大多数情况。
副本存放策略是将第一个副本存放在本地机架的节点上,将第二个副本放在同一机架的另一个节点上,将第三个副本放在不同机架的节点上。
这种策略减少了机架间的数据传输,这就提高了写操作的效率。
Node和DataNode的功能分别是什么?元数据节点NameNode是管理者,一个Hadoop集群只有一个NameNode节点,是一个通常在HDFS实例中的单独机器上运行的软件。
NameNode主要负责HDFS文件系统的管理工作,具体包括命名空间管理(namespace)和文件block管理。
NameNode决定是否将文件映射到DataNode的复制块上。
对于最常见的3个复制块,第一个复制块存储在同一个机架的不同节点上,最后一个复制块存储在不同机架的某个节点上。
NameNode是HDFS的大脑,它维护着整个文件系统的目录树,及目录树里所有的文件和目录,这些信息以两种文件存储在本地文件中:一种是命名空间镜像,也称为文件系统镜像(file system image,FSImage),即HDFS元数据的完整快照,每次NameNode启动时,默认会加载最新的命名空间镜像,另一种是命名空间镜像的编辑日志(edit log)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1)请阐述大数据存储的定义。
大数据存储通常是指将那些数量巨大、难于收集、处理、分析的数据集持久化到计算机中。
在进行大数据分析之前,首先的步骤就是要将海量的数据存储起来,以便今后的使用。
因此,大数据的存储是数据分析与应用的前提。
2)文件存储和对象存储有什么区别?
文件存储(NAS)相对块存储来说更能兼顾多个应用和更多用户访问,同时提供方便的数据共享手段。
对象存储是一种新的网络存储架构。
存储标准化组织SINA早在2004年就给出了对象存储的定义,但早期多出现在超大规模系统中,所以并不为大众所熟知,相关产品一直也不温不火。
一直到云计算和大数据的概念全民强推,才慢慢进入公众视野。
对象存储的优势是互联网或者公网,主要解决海量数据,海量并发访问的需求。
总体上讲,对象存储同时兼具SAN高级直接访问磁盘特点及NAS的分布式共享特点。
它的核心是将数据通路(数据读或写)和控制通路(元数据)分离,并且基于对象存储设备(OSD),构建存储系统,每个对象存储设备具备一定的职能,能够自动管理其上的数据分布。
3)什么是NoSQL,有什么特点?
NoSQL数据库又叫作非关系数据库,它是英文“Not Only SQL”的简写,即“不仅仅是SQL”。
和数据库管理系统(RDBMS)相比,NoSQL不使用SQL作为查询语言,其存储也可以不需要固定的表模式,用户操作NoSQL时通常会避免使用RDBMS的JION操作。
NoSQL数据库一般都具备水平可扩展的特性,并且可以支持超大规模数据存储,灵活的数据模型也可以很好地支持Web 2.0应用,此外还具有强大的横向扩展能力。
典型的NoSQL数据库包含以下几种:键值数据库、列族数据库、文档数据库和图形数据库。
值得注意的是:每种类型的数据库都能够解决传统关系数据库无法解决的问题。
4)什么是NewSQL,有什么特点?
NewSQL 数据库是对各种新的可扩展/高性能数据库的简称,它是一种相对较新的形式,旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分。
这类数据库不仅具有NoSQL对海量数据的存储管理能力,还保持了传统数据库支持ACID和SQL 等特性。
因此,NewSQL 数据库也被定义为下一代数据库的发展方向。
作为一种相对较新的形式,NewSQL旨在使用现有的编程语言和以前不可用的技术来结合SQL和NoSQL中最好的部分,它的目标是将SQL的ACID保证与NoSQL的可扩展性和高性能相结合。
NewSQL数据库改变了数据的定义范围。
它不再是原始的数据类型,如整数、浮点,它的数据可能是整个文件。
此外,NewSQL数据库是非关系的、水平可扩展、分布式并且是开源的。
5)什么是云数据库?
云数据库是指被优化或部署到一个虚拟计算环境中的数据库,是在云计算的大背景下发展起来的一种新兴的共享基础架构的方法,它极大地增强了数据库的存储能力,消除了人员、硬件、软件的重复配置,让软、硬件升级变得更加容易。
因此,云数据库具有高可扩展性、高可用性、采用多租形式和支持资源有效分发等特点,可以实现按需付费和按需扩展。
6)什么是图形数据库?
图形数据库是一种非关系型数据库,它应用图形理论存储实体之间的关系信息。
不过值得注意的是:图形数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。
(1)请阐述什么是大数据分析。
大数据分析的主要任务主要有:第一类是预测任务,目标是根据某些属性的值,预测另外一些特定属性的值。
被预测的属性一般称为目标变量或因变量,被用来做预测的属性称为解释变量和自变量;第二类是描述任务,目标是导出概括数据中潜在联系的模式,包括相关、趋势、聚类、轨迹和异常等。
描述性任务通常是探查性的,常常需要后处理技术来验证和解释结果。
具体可分为分类、回归、关联分析、聚类分析、推荐系统、异常检测、链接分析等几种。
(2)大数据分析的类型有哪些?
大数据分析主要有描述性统计分析、探索性数据分析以及验证性数据分析等。
(3)举例两种数据挖掘的应用场景?
(1)电子邮件系统中垃圾邮件的判断
电子邮件系统判断一封Email是否属于垃圾邮件。
这应该属于文本挖掘的范畴,通常会采用朴素贝叶斯的方法进行判别。
它的主要原理就是,根据电子邮件中的词汇,是否经常出现在垃圾邮件中进行判断。
例如,如果一份电子邮件的正文中包含“推广”、“广告”、“促销”等词汇时,该邮件被判定为垃圾邮件的概率将会比较大。
(2)金融领域中金融产品的推广营销
针对商业银行中的零售客户进行细分,基于零售客户的特征变量(人口特征、资产特征、负债特征、结算特征),计算客户之间的距离。
然后,按照距离的远近,把相似的客户聚集为一类,从而有效地细分客户。
将全体客户划分为诸如:理财偏好者、基金偏好者、活期偏好者、国债偏好者等。
其目的在于识别不同的客户群体,然后针对不同的客户群体,精准地进行产品设计和推送,从而节约营销成本,提高营销效率。
(4)简述数据挖掘的分类算法及应用。
K-Means算法也叫作k均值聚类算法,它是最著名的划分聚类算法,由于简洁和效率使得它成为所有聚类算法中最广泛使用的。
决策树算法是一种能解决分类或回归问题的机器学习算法,它是一种典型的分类方法,最早产生于上世纪60年代。
决策树算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析,因此在本质上决策树是通过一系列规则对数据进行分类的过程。
KNN算法也叫作K最近邻算法,是数据挖掘分类技术中最简单的方法之一。
所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。
神经网络可以指向两种,一个是生物神经网络,一个是人工神经网络。
在这里专指人工神经网络。
它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。