吉林大学《大数据导论》期末考试备考资料41

合集下载

2022年吉林大学数据科学与大数据技术专业《数据库系统原理》科目期末试卷B(有答案)

2022年吉林大学数据科学与大数据技术专业《数据库系统原理》科目期末试卷B(有答案)

2022年吉林大学数据科学与大数据技术专业《数据库系统原理》科目期末试卷B(有答案)一、填空题1、数据库内的数据是______的,只要有业务发生,数据就会更新,而数据仓库则是______的历史数据,只能定期添加和刷新。

2、以子模式为框架的数据库是______________;以模式为框架的数据库是______________;以物理模式为框架的数据库是______________。

3、视图是一个虚表,它是从______导出的表。

在数据库中,只存放视图的______,不存放视图对应的______。

4、关系模型由______________、______________和______________组成。

5、数据库恢复是将数据库从______状态恢复到______的功能。

6、数据库系统是利用存储在外存上其他地方的______来重建被破坏的数据库。

方法主要有两种:______和______。

7、在SQL Server 2000中,新建了一个SQL Server身份验证模式的登录账户LOG,现希望LOG在数据库服务器上具有全部的操作权限,下述语句是为LOG授权的语句,请补全该语句。

EXEC sp_addsrvrolemember‘LOG’,_____;8、数据仓库主要是供决策分析用的______,所涉及的数据操作主要是______,一般情况下不进行。

9、数据库管理系统的主要功能有______________、______________、数据库的运行管理以及数据库的建立和维护等4个方面。

10、在SQL语言中,为了数据库的安全性,设置了对数据的存取进行控制的语句,对用户授权使用____________语句,收回所授的权限使用____________语句。

二、判断题11、关系中任何一列的属性取值是不可再分的数据项,可取自不同域中的数据。

()12、有出现并发操作时,才有可能出现死锁。

()13、在第一个事务以S锁方式读数据R时,第二个事务可以进行对数据R加S锁并写数据的操作。

大数据考试题库和答案

大数据考试题库和答案

大数据考试题库和答案一、单项选择题1. 大数据的4V特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. 以下哪一项不是Hadoop生态系统中的组件?A. HDFSB. MapReduceC. SparkD. Cassandra答案:D3. 在大数据中,以下哪个术语指的是数据的存储格式?A. ETLB. OLAPC. NoSQLD. Hadoop答案:C4. 以下哪个不是大数据技术的优势?A. 处理速度快B. 成本低C. 存储容量小D. 可扩展性高答案:C5. 大数据技术可以应用于以下哪个领域?A. 金融B. 医疗C. 教育D. 所有以上选项答案:D二、多项选择题1. 大数据技术可以解决以下哪些问题?A. 数据挖掘B. 数据存储C. 数据分析D. 数据可视化答案:ABCD2. 以下哪些是大数据技术的关键组成部分?A. 分布式存储B. 分布式计算C. 数据库D. 机器学习答案:ABCD3. 在大数据领域,以下哪些是常见的数据源?A. 社交媒体B. 传感器数据C. 交易记录D. 网络日志答案:ABCD三、判断题1. 大数据技术只能处理结构化数据。

(错误)2. 机器学习是大数据技术的一个重要应用领域。

(正确)3. Hadoop是一个开源的大数据存储和处理框架。

(正确)4. NoSQL数据库不支持事务处理。

(错误)5. 大数据技术可以完全替代传统的数据库技术。

(错误)四、简答题1. 请简述大数据的4V特征。

答案:大数据的4V特征包括:- Volume(体量大):数据量巨大,通常以TB或PB为单位。

- Velocity(速度快):数据生成和处理的速度非常快。

- Variety(种类多):数据类型多样化,包括结构化、半结构化和非结构化数据。

- Veracity(真实性):数据的质量和准确性。

2. 请解释什么是ETL过程。

2022年吉林大学数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案)

2022年吉林大学数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案)

2022年吉林大学数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案)一、选择题1、某时刻进程的资源使用情况见表。

此时的安全序列是()A.P1、P2、P3、P4B. P1、P3、P2、P4C. P1、P4、P3、P2D.不存在2、()不是操作系统的功能。

A.CPU管理B.存储管理C.网络管理D.数据管理3、有若干并发进程均将一个共享变量count的值加1一次,那么有关count中的值的说法正确的是()。

I.肯定有不正确的结果II.肯定有正确的结果,III.若控制这些并发进程互斥执行count加1操作,count中的值正确A. I和IIIB.II和IIIC.IIID. I、II和III的说法均不正确4、下列关于管程的叙述中,错误的是()。

A.管程只能用于实现进程的互斥B.管程是由编程语言支持的进程同步机制C.任何时候只能有一个进程在管程中执行D.管程中定义的变量只能被管程内的过程访问5、若系统中有n个进程,则在阻塞队列中进程的个数最多为()?Α. n B.n-1 C.n-2 D.16、为了使多个进程能有效地同时处理输入和输出,最好使用()结构的缓冲技术。

A.缓冲池B.循环缓冲C.单缓冲D.双缓冲7、程序员利用系统调用打开I/O设备时,通常使用的设备标识是(),A.逻辑设备名B.物理设备名C.主设备号D.从设备号8、下列关于打开文件open()操作和关闭文件close()操作的叙述,只有()是错误的。

A.close()操作告诉系统,不再需要指定的文件了,可以丢弃它B.open()操作告诉系统,开始使用指定的文件C.文件必须先打开,后使用D.目录求必须先打开,后使用9、在系统内存中设置磁盘缓冲区的主要11的是()。

A.减少磁盘1/0次数,B.减少平均寻道时间C.提高磁盘数据可靠性D.实现设备无关性10、若用户进程访问内存时产生缺页,则下列选项中,操作系统可能执行的操作是()。

I.处理越界错误 II.置换页面 II1.分配内存A.仅I、IIB.仅I、IIIC. 仅I、IIID.I,II和III11、系统为某进程分配了4个页框,该进程已访问的页号序列为2,0,2,9,3,4,2,8,2,4,8,4,5,若进程要访问的下页的页号为7,依据LRU算法,应淘汰页的页号是()A.2B.3C.4D.812、在请求分页系统中,页面分配策略与页面置换策略不能组合使用的是()。

大数据期末考试资料

大数据期末考试资料

1、Docker 中镜像、容器和数据卷的概念镜像:类似虚拟机中的快照,更轻量,只读,静态的。

容器:是独立运行的一个或一组应用,以及他们的运行态环境,是轻量级的,功能非常强悍,可读写,动态的。

数据卷:是一个可供一个或多个容器使用的特殊目录,多个容器可共享同一个Volume ,实现数据共享。

2、大数据平台中将物理节点转化成虚拟节点的优缺点优点:解决物理节点维护繁琐的瓶颈,虚拟化具有备份、快照、双机热备等多种功能。

缺点:功能很多是以牺牲硬件性能为代价的。

3、分布式大数据与经典关系数据库的对比经典数据库的数据大小是字节类型,支持交互式得批处理,支持多次读多次写得功能,创建得是静态表,有较高得完整性,在规模上是非线性得,并且可以迅速得做出反应分布式数据库存储数据大小是Pb 级别的,支持批处理但是没有很好的交互性能,一次写多次读,建立的数据库是动态的,有较低的完整性,数据存储是线性的,不能做出及时的反馈信息。

4、CDH 的部署流程①Cloudera Manager 安装A、下载CM 安装包B、运行安装CM②添加服务A 、添加Cloudera Management ServiceB、添加HDFS 服务C、Zookeeper 安装D、YARN 安装E、Hive 安装F、Impala 安装G、CDH 状态一览5、 本课程中的三种大数据定义① 麦肯锡公司最早给出大数据定义: 大数据是超过传统数据库工具的获取、 存储、 分析能力的数据集 ,并不是超过 TB 的才叫大数据。

② 维基百科:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、 管理和处理的数据集。

③ 本书编者: 大数据是超过传统数据库工具、 传统数据结构、 传统程序设计语言、 传统编程思想的获取、存储、分析能力的数据集。

一个高度容错性的系统,适合部署在廉价的机器上。

MapReduce 处理海量数据的并行编程模型和计算框架。

用于大规模数据集的 并行运算。

《大数据导论》复习资料

《大数据导论》复习资料

《大数据导论》复习资料大数据技术是一系列复杂的系统,它为用户提供了“全面而高效的数据收集、处理、分析,有的甚至于深度学习”等功能,此外还可以提供实时感知和决策支持等功能。

它通常会使用自动收集、存储、解码和处理各种不同类型的数据来挖掘数据模式和特征。

大数据技术以有效较高的,可快速部署的方式,各行业中处处展现出自己的神奇作用。

以健康行业为例,连接医疗企业、政府部门、技术服务商以及普通消费者等社会关系,利用大数据联合预防性策略,实现预测保健的功能。

比如,处理来自互联网上的用户活动数据,用来分析健康趋势,以精准个性化的方式为用户提供健康管理和服务。

在教育领域,大数据技术可以应用于详细的学习管理,帮助人们更好地理解学习过程,以及有效改善教育成果,如教育质量等。

例如,学校可以使用大数据分析分析校内学生的行为,以及学习环境与学习成绩之间的关系,从而科学安排课程,改善教材,优化课时安排,并跟踪学习过程的发展和教学质量的改进。

在政府和企业中,应用大数据技术分析战略决策,利用实时数据来辅助决策,缩短决策时间,并为控制及计划工作提供及时准确的信息。

例如,政府可以将其用于官员行政效能评估,帮助完善事务司法,并提高联邦、州级和地方政府的运行效率。

大数据技术可仨用于提高安全性,以及侦测和预测犯罪、灾难和军事行动等行动的可能性。

例如,使用大数据分析可以帮助改善社会安全防护体系,同时帮助采用有效的决策来预防不同类型的活动,如欺诈行为和恐怖袭击等。

大数据技术是一种复杂的技术,其优势包括快速部署,多领域间的交互和融合,以及可持续和可扩展规模等。

但它也存在一定的风险和挑战,例如防止泄漏个人数据,以及利用硬件和软件资源的持续性等。

因此,使用大数据技术的实践者需要遵循诸如存储协议、安全协议和允许的使用等法律规定,建立完善的安全和隐私保护制度,以确保大数据技术的良性发展。

大数据技术概论期末复习题2023-11(附参考答案)

大数据技术概论期末复习题2023-11(附参考答案)

单项选择题1.下列各项不属于数据的是()oA.文本B.图像C.视频D.印象2.下列各项不属于大数据特征的是()oA体量大 B.种类多C真实性 D.数据生成慢3.数据异常值的处理方法不包括()。

A极小值替换 B.删除C忽略 D.视为缺失值进行填补4.下列各项不能用于描述数据集中趋势的是()。

A方差 B.平均数C中位数D.峰值5.下列各项不属于HadoOP的特点是()。

A.存储迅速B.成本高C,计算能力强 D.灵活性强6.在工业网络实时监控系统中,需要连续不断地采集和处理数据。

以下()不属于这种计算模式。

A.在线处理B.实时处理C.流式计算D.批量计算7.下面不是研究数据方法的是()。

A.统计学B.机器学习C.心理分析D.数据挖掘8.下面不属于大数据的处理过程的是()。

A.数据获取B.数据清洗C数据分析 D.数据安全9.下面不属于大数据计算模式的类型的是()。

A.批量计算B.手动计算C.流式计算D,交互式计算10.下列各项属于合规数据的是()oA非法收集隐私信息数据 B.取得使用者同意的个人资料数据C泄露的隐私信息数据 D.垄断数据11.在HadOOP生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是()。

A.HDFSB.MapReduceC.YARND.Storm12.下列属于图数据的主要特性的是()。

A.数据驱动计算B.不规则问题C高数据访问率 D.以上均是13.可以用来查看数值型变量的分布的可视化方法是()。

A.箱线图B.直方图C小提琴图D,以上方法均可以14.如果只是研究两个数值变量之间的关系,最常见的可视化方法是()。

A.直方图B.散点图C饼图 D.折线图15.下列各项不属于批处理系统的特点的是()。

A.可以实现实时的分析报告或自动响应B.可以实现无缝扩展以处理峰值数据量或数据请求C,支持数据在不同系统之间进行交换D.支持作业执行状态的监控16.下列各项属于非结构化数据的是()0A.图像B.二维数据表CHTML文档 D.以上均是17.在大数据的处理流程中,()步骤是将数据转化为图形,以更直观的方式展示和表达。

(完整版)大数据复习题(答案)

(完整版)大数据复习题(答案)

(完整版)大数据复习题(答案)一、单选题1、大数据的起源是(B)。

A:金融B:互联网C:电信D:公共管理2、大数据的最明显特点是(B)。

A:数据类型多样B:数据规模大C:数据价值密度高D:数据处理速度快3、大数据时代,数据使用的最关键是(D)。

A:数据收集B:数据存储C:数据分析D:数据再利用4、云计算分层架构不包括(D)。

A: Iaas B: Paas C: Saas D: Yaas5、大数据技术是由(C)公司首先提出来的。

A:阿里巴巴B:百度C:谷歌D:微软6、数据的精细化程度是指(C),越细化的数据,价值越高。

A:规模B:活性C:颗粒度D:关联性7、数据清洗的方法不包括(C)A:噪声数据清除B:一致性检查C:重复数据记录处理D:缺失值处理智能手环的应用开发,体现了(C)的数据采集技术的应用。

A:网络爬虫B:API接口C:传感器D:统计报表9、下列关于数掲重组的说法中,错误的是(A)。

A:数据的重新生产和采集B:能使数据焕发新的光芒C:关键在于多源数据的融合和集成D:有利于新的数据模式创新10、美国海军军官莫里通过对前人航海日志的分析,绘制考了新的航海路线图,标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的(B)。

A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据11、下列关于含思伯格对大数据特点的说法中,错误的是(D)A:数据规模大B:数据类型多C:处理速度快D:价值密度高12、当前社会中,最为突出的大数据环境是(A)A:互联网B:自然环境C:综合国力D:物联网13、在数据生命周期管理实践中,(B)是执行方法。

A:数据存储和各份规范B:数据管理和维护C:数据价值发觉和利用D:数据应用开发和管理14、下列关于网络用户行为的说法中,错误的是(C)。

A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护15、下列关于聚类挖报技术的说法中,错误的是(B)。

《大数据概论》期末试卷含答案

《大数据概论》期末试卷含答案

《大数据概论》期末试卷含答案1.当前社会中,最为突出的大数据环境是惮选题]*A.互联网(正确答案)B.物联网C.综合国力D.自然资源2.以下哪个不是大数据的特征()惮选题]*A.价值密度低B.数据类型繁多C.访问时间短(正确答案)D.处理速度快3.大数据的起源是()。

佯选题]*A.金融B.电信C.互联网(正确答案)D.公共管理4.第三次信息化浪潮发生在哪一年前后()。

惮选题]*A.1980B.1995C.2010 (正确答案)D. 20195. 以下说法错误的是?() 惮选题]*A.大数据对传统行业有帮助B.大数据是一种思维方式C. 大数据会带来机器智能D. 大数据仅仅是讲数据的体量大(正确答案)6. 下列单位不是数据单位的是()惮选题]*A bitB.N B(正确答案)C.G BD.T B7. ()是长期储存在计算机内、有组织的、可共享的数据集合。

惮选题]*A. 数据库系统B.数据库(正确答案)C数据库管理系统D. 数据结构8. 数据库中存储的是()惮选题]*A. 数据B.数据模型C. 数据及数据间的联系(正确答案)D信息9.以下哪一项属于非结构化数据。

() 惮选题]*A.企业ER P数据B.财务系统数据C.视频监控数据(正确答案)D.日志数据10. HB as e是分布式列式存储系统,记录按什么集中存放。

() 惮选题]*A.列族(正确答案)B.列C. 行D.不确定11.哪一种数据采集方法被看作是软件传感器”。

() 惮选题]*A.传感器B.系统日志(正确答案)C.网络爬虫D. 众包12.在关系数据库系统中,一个关系相当于()。

惮选题]*A.一张二维表(正确答案)B. 一条记录C.一个关系数据库D. 一个关系代数13. 大数据时代,数据使用的关键是惮选题]*A. 数据收集B.数据存储C. 数据分析D. 数据再利用(正确答案)14以下哪一种数据采集方法是网站应用(如搜索引擎)主要的数据采集方式。

() 惮选题]*A.传感器B.系统日志C. 网络爬虫(正确答案)D.众包15. 在数据集合中,每个信息不包含语义错误或相互矛盾的数据。

大数据技术导论期末复习题2023-5

大数据技术导论期末复习题2023-5

一、选择题1可视分析是一种()?【A.】交互式用户界面模型【B.】结构化用户界面模型【C.】非结构化用户界面模型【D.】独立式用户界面模型【答案】A2数据科学的研究对象是()?【A.】药品成分【B.】文学作品【C.】数据界的数据【D.】人类历史【答案】C3下面不是研究数据方法的是()?【A.】统计学【B.】机器学习【C.】心理分析【D.】数据挖掘【答案】C4下面是数据科学的主要研究内容的是()?【A.】数据泄露【B.】数据交易【C.】数据盗窃【D.】数据分析【答案】D5下面不是数据产品开发的特征的是()?【A.】多样性【B.】无竞争性【C.】增值性【D.】层次性【答案】B6下面不属于互联网大数据的是()?【A.】视频【B.】图片【C.】音频【D.】心情【答案】D7下面不属于大数据的特性是()?【A.】数据量大【B.】多样性【C.】真实性差【D.】具有价值【答案】C8下面属于结构化数据的是()?【A.】表格数据【B.】图形【C.】图像【D.】HTML文档【答案】A9下面不属于大数据的处理过程的是()?【A.】数据获取、储存【B.】数据清洗【C.】数据分析【D.】数据安全【答案】D10下面不属于大数据离线处理特点的是()?【A.】数据保存时间短【B.】数据不会发生改变【C.】可进行复杂的批量计算【D.】方便查询计算结果【答案】A11下面不属于大数据处理模式的是()?【A.】离线处理【B.】在线处理【C.】手动计算【D.】交互处理【答案】C12下面仅属于大数据在线处理模式的是()?【A.】批量计算【B.】流式计算【C.】手动计算【D.】交互处理【答案】B13下面不属于流式数据源的是()?【A.】硬盘数据【B.】传感器数据【C.】图像数据【D.】流媒体传输【答案】A14下面不属于流式数据的特点的是()?【A.】实时性【B.】层次性【C.】易失性【D.】突发性【答案】B15下面不属于大数据计算模式的类型的是()?【A.】批量计算【B.】手动计算【C.】流式计算【D.】交互式计算【答案】B16下面不属于数据流技术应用的方式是()?【A.】指定查询【B.】模糊查询【C.】即席计算【D.】中间计算【答案】B17下面不属于判断大数据应用成功的指标是()?【A.】创造价值【B.】具备高速度【C.】在本质上提高【D.】低性能【答案】D18基于任务的定义和分类,下列不属于可视分析关注点的是()?【A.】以用户价值为关注点【B.】以用户意图为关注点【C.】以同户行为为关注点【D.】以软件操作为关注点【答案】A19下面不属于企业大数据应用成功的考虑因素是()?【A.】成本【B.】客户满意度【C.】附加收益【D.】工人满意度【答案】D20下面不属于大数据在通讯行业的应用是()?【A.】预测客户行为【B.】市场监控【C.】智能电表【D.】市场预警【答案】C21MapReduce以什么方式进行分布式计算()?【A.】文本【B.】函数【C.】数据集【D.】矩阵【答案】B22在Hadoop中,将每一次计算请求称为一个()?【A.】文本【B.】函数【C.】数据集【D.】作业【答案】D23在Hadoop中,将每个作业拆分为若干个()?【A.】文本【B.】Map任务【C.】数据集【D.】Reduce任务【答案】B24在Hadoop中,作业服务器被称为()?【A.】Job【B.】Map【C.】Master【D.】Reduce【答案】C25下列不属于一个作业的计算流程的是()?【A.】作业开始【B.】作业修改【C.】Map任务分配【D.】Reduce任务执行【答案】B26下列不属于Map任务的执行的子步骤的是()?【A.】输入准备【B.】输入修改【C.】算法执行【D.】输出生成【答案】B27在MapReduce模型编程中,不属于其步骤的是()?【A.】遍历数据【B.】映射键值【C.】数据分组【D.】数据插补【答案】D28Hadoop的核心是()和MapReduce。

大数据导论题库习题试卷及答案

大数据导论题库习题试卷及答案

《大数据导论》教材配套习题和答案第1章大数据概述一、单选题1、下面关于数据的说法,错误的是:(B)A.数据的根本价值在于可以为人们找出答案B.数据的价值会因为不断使用而削减C.数据的价值会因为不断重组而产生更大的价值D.目前阶段,数据的产生不以人的意志为转移2、第3次信息化浪潮的标志是:(C)A.个人计算机的普及B.互联网的普及C.云计算、大数据和物联网技术的普及D.人工智能的普及3、物联网的发展最终导致了人类社会数据量的第三次跃升,使得数据产生方式进入了:(D)A.手工创建阶段B.运营式系统阶段C.用户原创内容阶段D.感知式系统阶段4、英国的大数据发展战略是:(D)A. 稳步实施“三步走”战略,打造面向未来的大数据创新生态B. 通过发展创新性解决方案并应用于实践来促进大数据发展C. 以大数据等技术为核心应对第四次工业革命D. 紧抓大数据产业机遇,应对脱欧后的经济挑战5. 以下哪个不是大数据的“4V”特性:(D)A.数据量大B.数据类型繁多C.处理速度快D.价值密度高二、多选题1、数据的类型主要包括:(ABCD)A.文本B.图片C.音频D.视频2、计算机系统中的数据组织形式主要有两种,分别是:(AD)A.文件B.视频C.音频D.数据库3、为了让数据变得可用,需要对数据进行三个步骤的处理,分别是:(ACD)A.数据清洗B.数据抽样C.数据管理D.数据分析4、信息科技为大数据时代提供技术支撑,主要体现在哪三个方面:(ABD)A.存储设备容量不断增加B.CPU处理能力大幅提升C.量子计算机全面普及D.网络带宽不断增加5、人类社会的数据产生方式大致经历了哪三个阶段:(BCD)A.手工生产阶段B.运营式系统阶段C.用户原创内容阶段D.感知式系统阶段6、关于“大数据摩尔定律”,以下说法正确的是:(ABC)A.人类社会产生的数据一直都在以每年50%的速度增长B.人类社会的数据量大约每两年就增加一倍C.人类在最近两年产生的数据量相当于之前产生的全部数据量之和D.人类社会的数据量以每年10%的速度增长7、人类自古以来在科学研究上先后历经了哪几种范式:(ABCD)A.实验科学B.理论科学C.计算科学D.数据密集型科学8、大数据将会对社会发展产生深远的影响,具体表现在以下哪几个方面:(ABCD)A.大数据决策成为一种新的决策方式B.大数据成为提升国家治理能力的新途径C.大数据应用促进信息技术与各行业的深度融合D.大数据开发推动新技术和新应用的不断涌现9、大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。

大数据导论期末试题及答案

大数据导论期末试题及答案

大数据导论期末试题及答案一、选择题1. 大数据技术主要用于处理哪方面的数据?A. 小规模结构化数据B. 中等规模半结构化数据C. 大规模非结构化数据D. 所有规模的数据答案:D2. 大数据的四个关键特征分别是什么?A. 数据量大、多样性、高速度、价值高B. 数据量大、多样性、冗余性、处理速度快C. 数据量大、结构化、半结构化、非结构化D. 数据量大、多样性、快速计算、可扩展性答案:A3. Hadoop是一个开源框架,用于分布式处理大规模数据。

它的核心组件包括:A. HDFS和MapReduceB. MySQL和MongoDBC. Tomcat和NginxD. Spark和Storm答案:A4. 哪个技术经常与大数据技术一同使用,可以实现流数据的实时处理?A. 机器学习B. 数据挖掘C. 数据仓库D. 流处理答案:D5. 大数据分析可以为企业带来哪些优势?A. 提供更好的决策支持B. 降低成本和风险C. 发现新的商业机会D. 所有选项都是正确的答案:D二、填空题1. 大数据的主要特征之一是_______。

答案:数据量大2. _______是一个用于处理大规模结构化和半结构化数据的开源框架。

答案:Hadoop3. 大数据技术的应用通常需要具备_______的能力。

答案:高速计算4. _______是一种用于实时处理流数据的技术。

答案:流处理5. 大数据分析能够带来企业的多个优势,包括提供更好的_______、降低成本和风险,以及发现新的商业机会。

答案:决策支持三、简答题1. 请简要介绍大数据的定义及其特征。

答:大数据是指规模超过传统数据库处理能力范围的数据集合。

它具有四个关键特征:数据量大、多样性、高速度和价值高。

数据量大指的是数据量远远超过传统数据库的处理能力,往往需要分布式系统来处理。

多样性表示数据可以是结构化、半结构化或非结构化的。

高速度指的是大数据的产生速度很快,需要进行实时或近实时的处理和分析。

2023年吉林大学数据科学与大数据技术专业《数据库原理》科目期末试卷A(有答案)

2023年吉林大学数据科学与大数据技术专业《数据库原理》科目期末试卷A(有答案)

2023年吉林大学数据科学与大数据技术专业《数据库原理》科目期末试卷A(有答案)一、填空题1、安全性控制的一般方法有____________、____________、____________、和____________视图的保护五级安全措施。

2、数据仓库是______、______、______、______的数据集合,支持管理的决策过程。

3、DBMS的完整性控制机制应具备三个功能:定义功能,即______;检查功能,即______;最后若发现用户的操作请求使数据违背了完整性约束条件,则采取一定的动作来保证数据的完整性。

4、采用关系模型的逻辑结构设计的任务是将E-R图转换成一组______,并进行______处理。

5、从外部视图到子模式的数据结构的转换是由______________实现;模式与子模式之间的映象是由______________实现;存储模式与数据物理组织之间的映象是由______________实现。

6、在SQL语言中,为了数据库的安全性,设置了对数据的存取进行控制的语句,对用户授权使用____________语句,收回所授的权限使用____________语句。

7、主题在数据仓库中由一系列实现。

一个主题之下表的划分可按______、______数据所属时间段进行划分,主题在数据仓库中可用______方式进行存储,如果主题存储量大,为了提高处理效率可采用______方式进行存储。

8、对于非规范化的模式,经过转变为1NF,______,将1NF经过转变为2NF,______,将2NF经过转变为3NF______。

9、在数据库系统封锁协议中,一级协议:“事务在修改数据A前必须先对其加X锁,直到事务结束才释放X锁”,该协议可以防止______;二级协议是在一级协议的基础上加上“事务T在读数据R之前必须先对其加S锁,读完后即可释放S锁”,该协议可以防止______;三级协议是在一级协议的基础上加上“事务T在读数据R之前必须先对其加S锁,直到事务结束后才释放S锁”,该协议可以防止______。

大数据概论期末试题及答案

大数据概论期末试题及答案

大数据概论期末试题及答案第一部分:选择题(每题2分,共20分)1. 大数据的特点不包括:A. 体量大B. 处理速度快C. 数据类型多样D. 难以获取商业价值答案:D2. 大数据分析的主要目的是:A. 预测未来趋势B. 发现数据之间的关联性C. 统计数据分布情况D. 数据可视化展示答案:B3. Hadoop 是一种:A. 数据库管理系统B. 机器学习模型C. 分布式文件系统D. 数据加密算法答案:C4. MapReduce 是一种:A. 数据处理模型B. 数据存储格式C. 数据可视化工具D. 数据清洗算法答案:A5. 数据仓库主要用于:A. 存储大数据B. 数据清洗和处理C. 数据可视化展示D. 决策支持和分析答案:D6. 大数据隐私安全中的 PII 指的是:A. 个人身份信息B. 数据处理算法C. 数据存储格式D. 数据可视化工具答案:A7. 在大数据分析中,常用的数据挖掘方法包括:A. 关联规则挖掘B. 主成分分析C. 聚类分析D. 全部答案均正确答案:D8. 在大数据可视化中,常用的图表类型不包括:A. 折线图B. 饼图C. 热力图D. 词云图答案:D9. 文本挖掘是大数据分析的一个重要环节,以下不属于文本挖掘的任务是:A. 文本分类B. 情感分析C. 文本摘要D. 数据清洗答案:D10. 大数据伦理问题的主要关注点包括:A. 隐私保护B. 数据安全C. 数据质量D. 全部答案均正确答案:D第二部分:简答题(每题10分,共30分)1. 请简要说明大数据的基本特点。

答:大数据的基本特点包括体量大、处理速度快、数据类型多样和价值难以发现。

首先,大数据的体量非常庞大,传统的数据处理方法无法处理如此大量的数据。

其次,大数据要求处理速度快,需要能够在有限的时间内迅速分析和处理数据。

此外,大数据的数据类型非常多样,既包括结构化数据,也包括非结构化数据,如文本、图片、视频等。

最后,由于大数据的规模庞大,其中蕴含着大量的商业价值,但这些价值往往难以被发现和挖掘。

大数据导论期末试卷

大数据导论期末试卷

期末试卷(A)学年第一学期考试课程:大数据分析课程代码:05031074考试形式:闭卷考试考试班级:19大数据命题教师:教研室主任:系(院)主任:教务处长:年月日2019 —2020 学年第一学期期末试卷(A)《大数据分析》(课程代码:05031074 )考试时间:120分钟总分:100分一、判断题(每空1分,共10分)1、大数据是时代发展的潮流与趋势。

()2、matplotlib 是一个Python的2D绘图库。

()3、人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

()4、云计算与大数据联系不大。

()5、Kettle可用于数据清洗。

()6、网络爬虫(Web Spider)又称之为网络机器人、网络蜘蛛。

()7、大数据存储和传统的存储方式是一样的。

()8、Pandas不能进行可视化。

()9、使用编程软件Python也可以任何类型的数据。

()10、tar是一种压缩文件,常用于Windows下。

()二、名词解释题(每题5分,共15分)1、numpy库2、matplotlib库3、pandas库三、问答题(每题5分共35分)1、大数据和云计算的区别是什么?2、请阐述什么是爬虫?3、Scrapy框架的组成部分分别是什么?4、怎么使用Python访问MySql数据库?5. 大数据可视化中numpy库有哪些作用?6、请阐述什么是数据可视化。

7、什么是数据清洗?四、程序题(每题10分,共20分)1、写出使用 matplotlib库绘制线性图的代码2、简述在pandas如何读取csv文件五、论述题(每题20分,共20分)论述在Kettle抽取XML数据的实现过程.并画出流程图。

《大数据分析》期末试卷(A)参考答案及评分标准一、判断题(每题1分,共10分)二、名词解释题(每题5分,共15分)1、numpy库numpy是Python做数据处理的底层库,是高性能科学计算和数据分析的基础。

大数据课程期末考试复习题及答案

大数据课程期末考试复习题及答案

大数据课程期末考试复习题及答案1.有一批海量数据,需要实现复杂计算分析,此时建议使用下面哪个计算引擎?MapReduceSpark (正确答案)YARNHDFS2.有一批海量数据,后期主要侧重于快速的读写,有修改需求,此时建议存储到哪个存储系统中?HDFSHBase (正确答案)MySQLRedis3.在shell命令行中向HDFS上传文件,需要使用哪个命令?uploadsetinsertput (正确答案)4.针对HDFS中NameNode的职责描述,错误的是:NameNode是整个文件系统的管理节点NameNode中负责维护File与Block list的关系NameNode中负责存储文件数据(正确答案)NameNode负责接收用户读写请求5. 3个5M的文件和1个130M的文件,在HDFS中会产生多少个Block 块?35(正确答案)66.HDFS中的哪个进程是负责定期将edits文件中的内容合并到fsimage中的?NameNodeDataNodeSecondaryNameNode (正确答案)NodeManager7.Hive中的数据存储在哪里?HBaseHDFS (正确答案)本地磁盘MapReduce8.Kafka的消费者设置哪种策略可以实现消费最新的数据?before earliestlatest (正确答案)after9.针对HDFS中的小文件问题,可以使用下面哪种解决方案?Sequencef i le (正确答案)NlineFileTextFileDBFile10.MapReduce中,哪个步骤默认是可选的?排序分组规约(正确答案)分区11.MapReduce编程的时候,针对字符串需要使用哪种数据类型?StringText (正确答案)TextWritableStringWritable12.在Hadoop2. x中,一个Block块的大小默认是:64M100M128M (正确答案)256M13.K afka中生产数据时,希望Leader节点回复收到消息才确认接收成功, 此时需要设置ack的值为?1(正确答案)2314.在Hive中,想要实现全局排序需要使用?SORT BYORDER BY (正确答案)CLUSTER BYDISTRIBUTE BY15. Hive中创建外部表,需要使用关键字:createexternal (正确答案)partitionlocation16. Hive中哪种类型的表适合做数据抽样?内部表外部表分区表桶表(正确答案)17.针对MapReduce程序数据倾斜优化的手段,错误的是:增加Reduce任务个数把倾斜的key打散针对join操作,如果有一个小表,可以考虑实现map端join增加Reduce阶段的内存(正确答案)18. YARN中的哪种调度器可以实现多队列且队列内部任务先进先出? FIFO SchedulerCapacity Scheduler(正确答案)Fair SchedulerQueueScheduler19.针对Spark中RDD的描述,错误的是:RDD数据只能存放在内存中(正确答案)RDD在抽象上来说是一种元素数据的集合,它是被分区的RDD提供的有容错性,可以自动从节点失败中恢复过来RDD可以通过集合或者文件来创建20.下面哪个算子可以解决Spark RDD中数据倾斜的问题?reduceByKeymapPartitionsgroupByKeyrepartition (正确答案)21.针对Hive的描述,错误的是:Hive的数据存储在HDFS中Hive不支持数据更新Hive底层执行引擎可以使用TezHive的数据格式是由操作系统决定的(正确答案)22. HDFS中的Federation机制无法解决哪个问题?保证HDFS的高可用(正确答案)提高HDFS集群的读写吞吐率实现良好的隔离性提高HDFS集群的扩展性23. Spark这种架构不适合应用在下面哪个场景中?低延时的海量数据计算需求低延时SQL交互查询需求准实时(秒级)海量数据计算需求海量离线数的分布式存储(正确答案)24. Spark中执行下面哪个算法不会真正执行任务? reduceByKey (正确答案)countByKeyforeachreduce25. Spark中下面哪个算子在执行的时候不会产生Shuffle? distinctreduceByKeymap (正确答案)repartition26.如何指定Hive表中的字段分隔符?row format delimitedlines terminated bycolumn terminated byfields terminated by(正确答案)27.使用什么命令向Hive表中加载数据? load data(正确答案)insert intoadd dataalter table28.如何查看Hive中表tl的详细建表语句?desc tlshow create table tl (正确答案)describe tlshow tl29.在zookeeper中修改节点/abc上的值为1,写法正确的是:set /abc 1(正确答案)create /abc 1modify /abc 1get /abc 130.向HBase的表tl中添加数据,写法正确的是:put ‘ tl' ,' rowkey 1) ,J info' ,' abc'put ‘tl','rowkeyr , 5 info' , ' age:abc5put ‘ tl', ' rowkeyr , level:abc' ,'age:xyz,put ' tl',' rowkey 1'level:abc',' xyz'(正确答案)31. HBase中,如果一个列族中如果有3歹!],那么这3列会分到几个文件中存储?1(正确答案)2 3 432.针对HBase的应用场景的介绍,错误的是:适合半结构和非结构数据适合存储记录稀疏的数据适合存储多版本数据适合海量数据分析(正确答案)33.HRegionServer 包含了 HLog 和?HRegion (正确答案) HMasterHDFSData34.下面Spark中明E个算子容易导致driver端内存溢出? mapcountcollect (正确答案)take35.Spark中想要获取RDD中的前N个元素,需要使用什么算子? collect take (正确答案)count foreach36.Spark中哪一种持久化策略表示只存储到内存,并且不序列化。

《大数据导论》19秋期末考核【标准答案】

《大数据导论》19秋期末考核【标准答案】

《大数据导论》19秋期末考核-0001---------------------------单选题1.以下不是数据仓库基本特征的是()A.数据仓库是面向主题的B.数据仓库是面向事务的C.数据仓库的数据是相对稳定的D.数据仓库的数据是反映历史变化的正确答案:B2.()是MicrosoftOffice的核心组件A. SQLB. WORDC. PPTD. EXCEL正确答案:D3.数据清洗的方法不包括A.缺失值处理B.噪声数据清除C.一致性检查D.重复数据记录处理正确答案:D4.数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。

A.运营式系统阶段B.用户原创内容阶段C.感知式系统阶段正确答案:B5.下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()A.ggplot2workC.ggmapsD.animation正确答案:D6.下列不属于Google云计算平台技术架构的是()A.并行数据处理MapReduceB.分布式锁ChubbyC.结构化数据表BigTableD.弹性云计算EC2正确答案:D7.大数据的最显著特征是()。

A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高正确答案:A8.IaaS是()的简称A.软件即服务B.平台即服务C.基础设施即服务D.硬件即服务正确答案:C9.基础设施即服务的英文简称是A. IaaSB. PaaSC. SaaS正确答案:A10.下列哪个工具常用来开发移动友好地交互地图()A.LeafletB.Visual.lyC.BPizzaPieChartsD. Gephi正确答案:A---------------------------多选题1.数据归约(DataReduction)主要有()A.维度规约B.样本规约C.数据聚集D.离散化概念分层正确答案:A,B,C,D2.以下可以用于数据可视化的是()。

A. R语言B. ExcelC.RapidMinerD. Weka正确答案:A,B,C,D3.医疗大数据特点:除了包含了大数据4个“V”的特点之外还有()A.多态性B.时效性C.不完整性D.冗余性正确答案:A,B,C,D4.大数据存储的特点与挑战有()A.容量问题B.延迟问题C.安全问题D.成本问题正确答案:A,B,C,D5.大数据智能感知层:主要包括()及软硬件资源接入系统A.数据传感体系B.网络通信体系C.传感适配体系D.智能识别体系正确答案:A,B,C,D6.数据预处理的过程主要是A.数据清洗B.数据集成C.数据变换D.数据规约正确答案:A,B,C,D7.交通数据处理包括以下几个步骤()A.数据清洗B.数据映射C.数据组织D.数据聚类正确答案:A,B,C,D8.数据工厂包括A.低能耗数据中心B.超大规模讲分布式架构C.新一代智能自动化运维D.超强云安全正确答案:A,B,C,D9.可视化工具包括()A. ExcelB.GoogleChartC. GephiD. ppt正确答案:A,B,C10.去除噪声使得数据光滑的技术主要有:A. 分箱B. 回归C.离群点分析正确答案:A,B,C---------------------------判断题1.在未来掘金社交数据的道路上,一方面要为用户提供更加精准便捷的良好服务,另一方面也要注重对用户隐私的保护。

《大数据导论》期末试卷一(含答案)

《大数据导论》期末试卷一(含答案)

《大数据导论》考试试卷一《大数据导论》试卷一答案及评分标准一、单项选择题(每题2分,共20分)1、B2、C3、D4、B5、B6、A7、A8、B9、C 10、D二、判断题(每题1分,共8分)1、×2、√3、×4、×5、×6、√7、×8、√三、名词解释(每题3分,共12分)1、大数据——是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

2、云计算——是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备。

3、可视化——是一种使复杂信息能够容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法。

4、网络信息安全——主要是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,网络服务不中断。

四、简答题(第1、2题各7分,第3、4题各8分,共30分)1、答案:(1)大容量及高可扩展性;(1分)(2)高可用性;(1分)(3)高性能;(1分)(4)安全性;(1分)(5)自管理和自修复;(1分)(6)注重成本;(1分)(7)访问接口的多样化。

(1分)2、答案:(1)1D线性数据;(1分)(2)2D地图数据;(1分)(3)3D世界数据;(1分)(4)多维数据;(1分)(5)时态数据;(1分)(6)树型数据;(1分)(7)网络数据。

(1分)3、答案:Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。

用户可以轻松地在Hadoop 上开发和运行处理海量数据的应用程序。

(2分)它主要有以下几个优点:(1)高可靠性。

Hadoop按位存储和处理数据的能力值得人们信赖。

(1分)(2)高扩展性。

Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

2022年吉林大学数据科学与大数据技术专业《计算机网络》科目期末试卷B(有答案)

2022年吉林大学数据科学与大数据技术专业《计算机网络》科目期末试卷B(有答案)

2022年吉林大学数据科学与大数据技术专业《计算机网络》科目期末试卷B(有答案)一、选择题1、比特的传播时延与链路带宽的关系是()。

A.没有关系B.反比关系C.正比关系D.无法确定2、设某段电路的传播时延是20ms,带宽为20Mbivs,则该段电路的时延带宽积为()。

A.2×105bitB.4×105bitC.1×105bitD. 8×105bit3、下面的地址中,属于单播地址的是()。

A.172.31.128.255/18B.10.255.255.255C.192.168.24.59/30D.224.105.5.2114、在一条点对点的链路上,为了减少地址的浪费,子网掩码应该指定为()。

A.255.255.255.252B.255.255.255.248C.255.255.255.240D.255.255.255.1965、以太网中如果发生介质访问冲突,按照二进制指数后退算法决定下一次重发的时间,使用二进制后退算法的理由是()。

A.这种算法简单B.这种算法执行速度快C.这种算法考虑了网络负载对冲突的影响D.这种算法与网络的规模大小无关6、使用海明码进行前向纠错,如果冗余位为4位,那么信息位最多可以用到()位,假定码字为a6a5a4a3a2a1a0,并且有下面的监督关系式:S2=a2+a4+a5+a6两个答案7、下列关于UDP协议的叙述中,正确的是()。

I.提供无连接服务Ⅱ.提供复用/分用服务Ⅲ.通过差错校验,保障可靠数据传输A.仅IB.仅I、ⅡC.仅Ⅱ、ⅢD. I、Ⅱ、IⅢ8、下列关于TCP的叙述中,正确的是()。

I.TCP是一个点到点的通信协议Ⅱ.TCP提供了无连接的可靠数据传输IⅡ.TCP将来自上层的字节流组织成IP数据报,然后交给IPIV.TCP将收到的报文段组成字节流交给上层A.I、Ⅱ、ⅣB. I、ⅢC.仅ⅣD.Ⅲ、Ⅳ9、假设拥塞窗口为20KB,接收窗口为30KB,TCP能够发送的最大字节数是()。

《大数据导论》复习资料

《大数据导论》复习资料

《大数据导论》课程期末复习资料《大数据导论》课程讲稿章节目录:第1章大数据概述(1)大数据的概念(2)大数据的特征(3)大数据的数据类型(4)大数据的技术(5)大数据的应用第2章大数据采集与预处理(1)大数据采集(2)大数据预处理概述(3)数据清洗(4)数据集成(5)数据变换(6)数据规约第3章大数据存储(1)大数据存储概述(2)数据存储介质(3)存储系统结构(4)云存储概述(5)云存储技术(6)新型数据存储系统(7)数据仓库第4章大数据计算平台(1)云计算概述(2)云计算平台(3)MapReduce平台(4)Hadoop平台(5)Spark平台第5章大数据分析与挖掘(1)大数据分析概述(2)大数据分析的类型及架构(3)大数据挖掘(4)大数据关联分析(5)大数据分类(6)大数据聚类(7)大数据分析工具第6章大数据可视化(1)大数据可视化概述(2)大数据可视化方法(3)大数据可视化工具第7章社交大数据(1)社交大数据(2)国内社交网络大数据的应用(3)国外社交网络大数据的应用第8章交通大数据(1)交通大数据概述(2)交通监测应用(3)预测人类移动行为应用第9章医疗大数据(1)医疗大数据简介(2)临床决策分析应用(3)医疗数据系统分析第10章大数据的挑战与发展趋势(1)大数据发展面临的挑战(2)大数据的发展趋势一、客观部分:(单项选择、多项选择)(一)、单项选择1.以下不是NoSQL数据库的是()A。

MongoDBB。

HBaseC。

CassandraD。

DB2★考核知识点:NoSQL与NewSQL主流系统参考讲稿章节:3.7附1.1.1(考核知识点解释):目前市场上主要的NoSQL数据存储工具有:BigTable、Dynamo 、Hbase、MongoDB、CouchDB、Hypertable还存在一些其他的开源的NoSQL数据库,Neo4j、Oracle Berkeley DB、Apache Cassandra等另外,NewSQL数据库。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

不是技术也能看懂云计算,大数据,人工智能我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。

所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。

一、云计算最初是实现资源管理的灵活性我们首先来说云计算,云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。

管数据中心就像配电脑什么叫计算,网络,存储资源呢?就说你要买台笔记本电脑吧,你是不是要关心这台电脑什么样的CPU啊?多大的内存啊?这两个我们称为计算资源。

这台电脑要能上网吧,需要有个网口可以插网线,或者有无线网卡可以连接我们家的路由器,您家也需要到运营商比如联通,移动,电信开通一个网络,比如100M的带宽,然后会有师傅弄一根网线到您家来,师傅可能会帮您将您的路由器和他们公司的网络连接配置好,这样您家的所有的电脑,手机,平板就都可以通过您的路由器上网了。

这就是网络。

您可能还会问硬盘多大啊?原来硬盘都很小,10G之类的,后来500G,1T,2T的硬盘也不新鲜了。

(1T是1024G),这就是存储。

对于一台电脑是这个样子的,对于一个数据中心也是同样的。

想象你有一个非常非常大的机房,里面堆了很多的服务器,这些服务器也是有CPU,内存,硬盘的,也是通过类似路由器的设备上网的。

这个时候的一个问题就是,运营数据中心的人是怎么把这些设备统一的管理起来的呢?灵活就是想啥时要都有,想要多少都行管理的目标就是要达到两个方面的灵活性。

哪两个方面呢?比如有个人需要一台很小很小的电脑,只有一个CPU,1G内存,10G的硬盘,一兆的带宽,你能给他吗?像这种这么小规格的电脑,现在随便一个笔记本电脑都比这个配置强了,家里随便拉一个宽带都要100M。

然而如果去一个云计算的平台上,他要想要这个资源的时候,只要一点就有了。

所以说它就能达到两个方面灵活性。

第一个方面就是想什么时候要就什么时候要,比如需要的时候一点就出来了,这个叫做时间灵活性。

第二个方面就是想要多少呢就有多少,比如需要一个很小很小的电脑,可以满足,比如需要一个特别大的空间,以云盘为例,似乎云盘给每个人分配的空间动不动就就很大很大,随时上传随时有空间,永远用不完,这个叫做空间灵活性。

空间灵活性和时间灵活性,也即我们常说的云计算的弹性。

为了解决这个弹性的问题,经历了漫长时间的发展。

物理设备不灵活首先第一个阶段就是物理机,或者说物理设备时期。

这个时期相当于客户需要一台电脑,我们就买一台放在数据中心里。

物理设备当然是越来越牛,例如服务器,内存动不动就是百G内存,例如网络设备,一个端口的带宽就能有几十G 甚至上百G,例如存储,在数据中心至少是PB级别的(一个P是1024个T,一个T是1024个G)。

然而物理设备不能做到很好的灵活性。

首先它不能够达到想什么时候要就什么时候要、比如买台服务器,哪怕买个电脑,都有采购的时间。

突然用户告诉某个云厂商,说想要开台电脑,如果使用物理服务器,当时去采购啊就很难,如果说供应商啊关系一般,可能采购一个月,供应商关系好的话也需要一个星期。

用户等了一个星期后,这时候电脑才到位,用户还要登录上去开始慢慢部署自己的应用,时间灵活性非常差。

第二是空间灵活性也不行,例如上述的用户,要一个很小很小的电脑,现在哪还有这么小型号的电脑啊。

不能为了满足用户只要一个G的内存是80G硬盘的,就去买一个这么小的机器。

但是如果买一个大的呢,因为电脑大,就向用户多收钱,用户说他只用这么小的一点,如果让用户多付钱就很冤。

虚拟化灵活多了有人就想办法了。

第一个办法就是虚拟化。

用户不是只要一个很小的电脑么?数据中心的物理设备都很强大,我可以从物理的CPU,内存,硬盘中虚拟出一小块来给客户,同时也可以虚拟出一小块来给其他客户,每个客户都只能看到自己虚的那一小块,其实每个客户用的是整个大的设备上其中的一小块。

虚拟化的技术能使得不同的客户的电脑看起来是隔离的,我看着好像这块盘就是我的,你看这呢这块盘就是你的,实际情况可能我这个10G和您这个10G是落在同样一个很大很大的这个存储上的。

而且如果事先物理设备都准备好,虚拟化软件虚拟出一个电脑是非常快的,基本上几分钟就能解决。

所以在任何一个云上要创建一台电脑,一点几分钟就出来了,就是这个道理。

这个空间灵活性和时间灵活性就基本解决了。

虚拟世界的赚钱与情怀在虚拟化阶段,最牛的公司是Vmware,是实现虚拟化技术比较早的一家公司,可以实现计算,网络,存储的虚拟化,这家公司很牛,性能也做得非常好,然后虚拟化软件卖的也非常好,赚了好多的钱,后来让EMC(世界五百强,存储厂商第一品牌)给收购了。

但是这个世界上还是有很多有情怀的人的,尤其是程序员里面,有情怀的人喜欢做一件什么事情呢?开源。

这个世界上很多软件都是有闭源就有开源,源就是源代码。

就是说某个软件做的好,所有人都爱用,这个软件的代码呢,我封闭起来只有我公司知道,其他人不知道,如果其他人想用这个软件,就要付我钱,这就叫闭源。

但是世界上总有一些大牛看不惯钱都让一家赚了去。

大牛们觉得,这个技术你会我也会,你能开发出来,我也能,我开发出来就是不收钱,把代码拿出来分享给大家,全世界谁用都可以,所有的人都可以享受到好处,这个叫做开源。

比如最近蒂姆·伯纳斯·李就是个非常有情怀的人,2017年,他因“发明万维网、第一个浏览器和使万维网得以扩展的基本协议和算法”而获得2016年度的图灵奖。

图灵奖就是计算机界的诺贝尔奖。

然而他最令人敬佩的是,他将万维网,也就是我们常见的www的技术无偿贡献给全世界免费使用。

我们现在在网上的所有行为都应该感谢他的功劳,如果他将这个技术拿来收钱,应该和比尔盖茨差不多有钱。

例如在闭源的世界里有windows,大家用windows都得给微软付钱,开源的世界里面就出现了Linux。

比尔盖茨靠windows,Office这些闭源的软件赚了很多钱,称为世界首富,就有大牛开发了另外一种操作系统Linux。

很多人可能没有听说过Linux,很多后台的服务器上跑的程序都是Linux上的,比如大家享受双十一,支撑双十一抢购的系统,无论是淘宝,京东,考拉,都是跑在Linux上的。

再如有apple就有安卓。

apple市值很高,但是苹果系统的代码我们是看不到的。

于是就有大牛写了安卓手机操作系统。

所以大家可以看到几乎所有的其他手机厂商,里面都装安卓系统,因为苹果系统不开源,而安卓系统大家都可以用。

在虚拟化软件也一样,有了Vmware,这个软件非常非常的贵。

那就有大牛写了两个开源的虚拟化软件,一个叫做Xen,一个叫做KVM,如果不做技术的,可以不用管这两个名字,但是后面还是会提到。

虚拟化的半自动和云计算的全自动虚拟化软件似乎解决了灵活性问题,其实不全对。

因为虚拟化软件一般创建一台虚拟的电脑,是需要人工指定这台虚拟电脑放在哪台物理机上的,可能还需要比较复杂的人工配置,所以使用Vmware的虚拟化软件,需要考一个很牛的证书,能拿到这个证书的人,薪资是相当的高,也可见复杂程度。

所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别的大,一般在十几台,几十台,最多百台这么一个规模。

这一方面会影响时间灵活性,虽然虚拟出一台电脑的时间很短,但是随着集群规模的扩大,人工配置的过程越来越复杂,越来越耗时。

另一方面也影响空间灵活性,当用户数量多的时候,这点集群规模,还远达不到想要多少要多少的程度,很可能这点资源很快就用完了,还得去采购。

所以随着集群的规模越来越大,基本都是千台起步,动辄上万台,甚至几十上百万台,如果去查一下BAT,包括网易,包括谷歌,亚马逊,服务器数目都大的吓人。

这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置,几乎是不可能的事情,还是需要机器去做这个事情。

人们发明了各种各样的算法来做这个事情,算法的名字叫做调度(Scheduler)。

通俗一点的说,就是有一个调度中心,几千台机器都在一个池子里面,无论用户需要多少CPU,内存,硬盘的虚拟电脑,调度中心会自动在大池子里面找一个能够满足用户需求的地方,把虚拟电脑启动起来做好配置,用户就直接能用了。

这个阶段,我们称为池化,或者云化,到了这个阶段,才可以称为云计算,在这之前都只能叫虚拟化。

云计算的私有与公有云计算大致分两种,一个是私有云,一个是公有云,还有人把私有云和公有云连接起来称为混合云,我们暂且不说这个。

私有云就是把虚拟化和云化的这套软件部署在别人的数据中心里面,使用私有云的用户往往很有钱,自己买地建机房,自己买服务器,然后让云厂商部署在自己这里,Vmware后来除了虚拟化,也推出了云计算的产品,并且在私有云市场赚的盆满钵满。

所谓公有云就是虚拟化和云化软件部署在云厂商自己数据中心里面的,用户不需要很大的投入,只要注册一个账号,就能在一个网页上点一下创建一台虚拟电脑,例如AWS也即亚马逊的公有云,例如国内的阿里云,腾讯云,网易云等。

亚马逊呢为什么要做公有云呢?我们知道亚马逊原来是国外比较大的一个电商,它做电商的时候也肯定会遇到类似双11的场景,在某一个时刻大家都冲上来买东西。

当大家都冲上买东西的时候,就特别需要云的时间灵活性和空间灵活性。

因为它不能时刻准备好所有的资源,那样太浪费了。

但也不能什么都不准备,看着双十一这么多用户想买东西登不上去。

所以需要双十一的时候,创建一大批虚拟电脑来支撑电商应用,过了双十一再把这些资源都释放掉去干别的。

所以亚马逊是需要一个云平台的。

然而商用的虚拟化软件实在是太贵了,亚马逊总不能把自己在电商赚的钱全部给了虚拟化厂商吧。

于是亚马逊基于开源的虚拟化技术,如上所述的Xen或者KVM,开发了一套自己的云化软件。

没想到亚马逊后来电商越做越牛,云平台也越做越牛。

而且由于他的云平台需要支撑自己的电商应用,而传统的云计算厂商多为IT厂商出身,几乎没有自己的应用,因而亚马逊的云平台对应用更加的友好,迅速发展成为云计算的第一品牌,赚了很多钱。

在亚马逊公布其云计算平台财报之前,人们都猜测,亚马逊电商赚钱,云也赚钱吗?后来一公布财报,发现不是一般的赚钱,仅仅去年,亚马逊AWS年营收达122亿美元,运营利润31亿美元。

云计算的赚钱与情怀公有云的第一名亚马逊过得很爽,第二名Rackspace过的就一般了。

没办法,这就是互联网行业的残酷性,多是赢者通吃的模式。

所以第二名如果不是云计算行业的,很多人可能都没听过了。

第二名就想,我干不过老大怎么办呢?开源吧。

如上所述,亚马逊虽然使用了开源的虚拟化技术,但是云化的代码是闭源的,很多想做又做不了云化平台的公司,只能眼巴巴的看着亚马逊挣大钱。

相关文档
最新文档