大数据与云计算简答题资料讲解
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据与云计算简答
题
一、云计算与大数据的定义、特征
1、云计算的定义:是一种商业计算模型。
它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。
(维基百科)一种基于互联网的计算方式,通过这种方式,共享软硬件资源和信息,可以按需提供给计算机和其他设备。
云计算能够给用户提供可靠的、自定义的、最大化资源利用的服务,是一种崭新的分布式计算模式。
云计算的类型可以分为基础设施即服务(Iaas)、平台即服务(Pass)、软件即服务(Saas)。
2、云计算的特征:超大规模、虚拟化、高可靠性、高可伸缩性、按需服务、极其廉价。
(1)服务资源池化:通过虚拟化技术,对存储、计算、内存、网络等资源化,按用户需求动态地分配。
(2)可扩展性:用户随时随地可以根据实际需要,快速弹性地请求和购买服务资源,扩展处理能力。
(3)宽带网络调用:用户使用各种客户端软件,通过网络调用云计算资源。
(4)可度量性:服务资源的使用可以被监控、报告给用户和服务商,并可以根据具体使用类型收取费用。
(5)可靠性:自动检测失效节点,通过数据的冗余能够继续正常工作,提供高质量的服务,达到服务等级协议要求。
3、大数据的定义:(维基百科)指利用常用软件工具捕获、管理和处理数据所耗时间超过科容忍时间的数据集,即大数据泛指大规模、超大规模的数据集,因可从中挖掘出有价值的信息而备受关注。
4、大数据的特征(5V特征):
(1)数据体量(Volume)巨大,指收集和分析的数据量非常大,从TB级别跃升至PB级别;
(2)处理速度(Velocity)快,需要对数据进行近实时的分析;
(3)数据类别(Variety)大,大数据来自多种数据源,数据种类和格式日渐丰富,包括结构化、半结构化和非结构化等多种数据形式;
(4)数据真实性(Veracity),大数据中的内容是与真实世界中的发生息息相关的,研究大数据就是从庞大的网络数据中提取能够解释和预测现实事件的过程。
(5)价值密度低,商业价值(Value)高,通过分析数据可以得出如何抓住机遇及收获价值。
二、云计算安全,可信云以及用户对云计算信任的预期?
由于云服务的“外包”特性,用户对云提供商是否能够对其数据安全提供保障,对其应用程序是否按照约定的方式安全执行产生了怀疑,亦即云服务的可信性问题。
云服务的可信问题不仅指服务计算环境受其开放、共享等特点而导致服务结果可能受云服务提供商的主观意志等因素导致的不可信。
用户对云服务的安全怀疑主要集中在客观与主观两个方面:客观来说,云计算的集中服务模式使其更容易成为安全攻击的目标,而云计算技术的大规模分布式处理也大大增加了安全管理的难度,因此服务商是否具有足够的安全管理能力来保证用户信息安全值得怀疑;主观方面,由于云计算模式下,用户信息的存储、管理以及应用处理都在云服务方完成,用户丧失控制权,此时如何保证服务方忠实履行自己的服务协议,保证服务质量,并且不会通过自己的特权来违规使用用户资源获利成为必须要解决的问题。
如果云服务的行为和结果总是与用户预期的行为和结果一致,那么就可以说云服务是可信的。
要讨论云服务的可信性,需要明确3个方面的问题:1)用户的界定。
不同用户拥有的信息安全敏感度不同,对于云安全性认定也不同。
2)服务行为的区分。
不同类型服务涉及到的可信问题也不同。
云上运行开放性服务,云的便利性使其更具有竞争性;但是内部业务,涉及企业机密对服务环境的安全要求就会很高。
3)信任预期的度量。
不同用户针对不同类型的服务,其安全诉求也不同。
用户对云服务的信任预期可分为3类:
1)完全信任,用户完全信任云服务方茴负责保护用户的利益,此假设下,服务是否可信取决于云服务方是否能够具有足够的能力保障系统的安全性,维护用户利益不被侵犯。
2)条件信任,用户对云服务方有所怀疑,但是信任经过某种手段验证的云服务。
3)最低信任,用户怀疑云服务方的动机与能力,因此对服务方的信任为最低水平,仅信任服务的可用性、性能、容错等最低保障,其余安全问题靠用户自己解决。
三、大数据来源、处理基本流程和处理模式?
1、大数据的来源:传感器,气候信息,公开信息如杂志、报纸、文章,还包括购买交易记录,网络日志,病历,军事监控,视频和图像档案,及大型电子商务等。
根据来源不同,大致分为如下几种类型:
(1)人类活动:人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据;
(2)计算机:给类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息;
(3)物理世界:各类数字设备、科学实验与观察所采集的数据,如摄像头、医疗物联网、气象业务系统等。
2、大数据的处理基本流程:大数据的技术体系涉及大数据的采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据可视化分析及大数据隐私与安全等几个方面。
从层次的观点,大数据系统可分解成3层:基础设施层、计算层和应用
层。
3、大数据的处理模式:大数据分析是在强大的支撑平台上运行分析算法发现隐藏在大数据中的潜在价值的过程,根据处理时间的需求,大数据的分析处理可以分为两类:
(1)流式处理:流式处理假设数据的潜在价值是数据的新鲜度,因此流式处理方式应尽可能快地处理数据并得到结果。
在这种方式下,数据以流的方式到达。
在数据连续到达的过程中,由于流携带了大量数据,只有小部分的流数据被保存在有限的内存中。
流处理理论和技术已研究多年,代表性的开源系统包括Storm,S4和Kafka。
流处理方式用于在线应用,通常工作在秒或毫秒级别。
(2)批处理:在批处理方式中,数据首先被存储,随后被分析。
MapReduce是非常重要的批处理模型。
它的核心思想是,数据首先被分成若干小数据块chunks,随后这些数据块被并行处理并以分布的方式产生中间结果,最后这些中间结果被合并并产生最终结果。
MapReduce分配与数据存储位置距
离较近的计算资源,以避免数据传输的通信开销。
由于简单高效,MapReduce 被广泛应用于生物信息、wed挖掘和机器学习中。
四、大数据安全与隐私?
计算机使得越来越多的数据以数字化的形式存储在电脑中,互联网技术的发展使数据的传输、共享更加便利,而数据隐私问题则越来越严重。
大数据在存储、处理、传输等过程中面临安全风险,具有数据安全和隐私保护需求。
呈现出的安全隐私问题主要有:
1)大数据时代的安全与传统安全相比,变得更加复杂;
2)使用过程中的安全问题;
3)对大数据分析较高的企业和团体,面临更多的安全挑战;
4)基于位置的隐私数据暴露严重;
5)缺乏相关的法律法规保证;
6)大数据的共享问题;
7)数据动态性;
8)多元数据的融合挑战;
目前针对上述问题,主要研究解决方法有:文件访问控制技术、基础设备加密、匿名化保护技术、加密保护技术、数据水印技术、数据溯源技术、基于数据失真的技术、基于可逆的置换算法。
五、云计算与大数据的关系?
大数据产生主要归结于互联网、移动设备、物联网和云计算等快速崛起,全球数据量大幅提升。
大数据与云计算两者是相辅相成的,云计算和大数据实际上是工具与用途的关系,即云计算为大数据提供了有力的工具和途径,大数
据为云计算提供了很有用武之地。
大数据着眼于“数据”,关注实际业务,云计算着眼于“计算”,关注IT基础架构,着重数据处理能力。
相同点:1)目的相同,都是为数据存储和处理服务,需要占用大量的存储和计算资源;2)技术相似,大数据根植于云计算,云计算关键技术中的海量数据存储技术、海量数据管理技术、MapReduce编程模型,都是大数据技术的基础。
不同点:1)背景,大数据不能胜任社交网络和物联网产生的大量异构但有价值数据,云计算基于互联网服务日益丰富和频繁;2)目标,大数据充分挖掘海量数据中的信息,云计算扩展和管理计算机软硬件资源和能力;3)对象,大数据对各种数据,云计算对IT资源、能力和应用;4)推动能力,大数据从事数据存储与处理的软件厂商和拥有大量数据的企业,云计算针对存储及计算设备的生产厂商和拥有计算及存储资源的企业;5)价值,大数据发现数据中的价值,云计算节省IT资源部署成本。