第二篇小论文--海量数据存储研究 背景意义

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

研究背景

随着信息科技的发展,人们进入了数字信息时代,各种电子数据产生的越来越多,学校、企业、政府机关等大量纸质的数据已经被电子化。各种处理和记录系统产生的海量的数据;各种WEB应用网站每天产生的日志数据和每天用户上传的数据等都达到TB等级,如此海量数据的存储和备份已经成为一个热点问题。大量的数据混合处理之后可能会收到不同的效果,对于某些应用,例如用户行为分析,一般算法再好也不如大量的数据带来的效果更好,而这些分析的前提是数据如何存储。从这些角度上看,数据已经成为一种财富,很多公司都很重视数据这种无形的资产。例如目前很多公司在做的一项工作就是基于用户操作日志的行为分析,从分析结果中获得潜在的商机。但是快速分析的前提是如何保存这些日志数据才能提供更快的读取速度,以便加快算法产出分析的结果,同时还要保证这些数据高效的存储。

数据的存储面临的问题是数据量增加的同时,物理储存设备的访问速度没有增加。数据的一般存储方式是使用本地化存储或者使用RAID技术,本地化存储存在着严重的硬件速度瓶颈。单机的CPU、内存和硬盘等硬件有限,存储效率都停留在很低的级别,而且不具备容灾备份的功能,不能满足^^量数据的存储的需求,RAID技术采用分布式存储,利用多台机器的性能来提高系统整体的性能,提升了系统的存储效率,同时RAID具有容错的功能。但是面对海量数据的存储,使用RAID的方式需要花费巨大的资金,同时RAID虽然具有备份的能力,但是存储策略和自动修复功能都不完善。

面对如此海量数据的存储和分析的问题,人们提出了云计算解决方案,而且越来越多的科研机构和企业开始关注云计算这种新的计算模式。云计算框架的发展,带来了商业模式和计算方式的革命性转变,完全改变了过去数据主要集中在本地存储和本地计算的传统模式,使得企业机构、学校实验室和科研机构能够方便快捷地通过网络方式提升系统的计算力和存储空间,极大地降低了这些地方的硬件等基础设施的浪费和闲置,有效的提高了人力资源的效率,为企业、学校和科研机构节约了大量的资金和人力支出。

云计算的存储系统是伴随云计算技术发展出来的一种存储模式,它通过网络技术和分布式文件系统将分散的存储设备连接成一个虚拟的整体,组合成一个高效、快速、安全、可靠的存储系统。存储系统上层通过云框架软件组织硬件提供数据存储和高速访问的服务。本文基于此研究如何满足海量数据的高速存储,目前的云框架的存储策略还不是很成熟,而且每种存储策略都是适应实际需求而产生的,所以本文主要是根据实际需求,基于云计算框架设计一种优化的存储策略.来满足我们的实际情况的需要。

云计算已经成为新时代的计算模型和储存模型。云计算综合了虚拟化技术、分布式计算、并行计算、网格计算等技术,所以云计算具有更加优秀的架构来存储数据。云计算的分布式文件系统具有容错性、安全性的特点。云计算的实现方式是利用数以万计的廉价机器和存储设备搭建存储平台和计算平台,这些异构的设备通过云平台变成高可靠、高可扩展的系统,提供给用户存储和计算的云平台。谷歌云计算框架的存储系统为GFS(Google File System),GFS与传统的分布式文件系统有着很多相同的设计目标,例如,性能、可伸缩性、可靠性和可用性等。谷歌的设计还基于谷一歌对他们自己的应用的负载情况和技术环境的观察,GFS 和早期文件系统的假设都有明显的不同,谷歌已经针对不同的应用部署了多套GFS集群。最大的一个集群拥有超过1000个存储节点,超过300TB的硬盘空间,被不同机器上的数百个客户端连续不断的频繁访问。这种设计思想能很好的满足海量数据的存储,因此谷歌的GFS文件系统一直被人们所提倡。Hadoop框架的HDFS文件系统是谷歌的GFS文件系统的开源实现,实现了 GFS的功能,具有高度容错性、可靠性和稳定性。

Hadoop 就是近年来应用最多的分布式文件系统之一。通过Hadoop可以完成海量数据的存储和分析。

2.研究意义

Nutch是一个开源的搜索引擎,它使用Java语言开发,具有跨平台应用的优点,Nutch作为网络爬虫和lucene的结合,功能上极其强悍,每个月数以亿计的网页爬取量,网页搜索的高速,开源的功能剖析都是我们选择研究它的关键因素,同时Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一

流的Web搜索引擎,Nutch能够做到每个月爬取几十亿网页,并为这些网页维护一个索引,对索引文件进行每秒上千次的搜索,最后能够提供高质量的搜索结果。

此外Nutch中基于Hadoop的MapReduce编程模型和分布式文件系统HDFS,都可以让爬取的海量数据可以快速高效地实现运行在数百台乃至数千数万台计算机上,能够在短时间内完成海量数据的计算和分析。

3.研究目的(解决什么主要问题)

随着现在科学技术的飞速发展,网络上信息的规模正在以指数趋势上升。整个互联网每天都会产生海量的数据,所以Nutch分布式网络爬虫每天爬取到的数据量日益剧增,几乎是呈几何倍数的增长着,怎样高效率地对爬取到的海量数据进行存储目前已经成为人们越来越关注的问题。传统的基于单机或者集中式的数据管理模式已经不适合海量数据的存储。

本文设计并实现了一种管理和存储海量数据的平台模型,该模型利用Hadoop分布式集群,以HDFS分布式文件系统、MapReduce并行计算模型、Zookeeper同步协同系统以及Hbase分布式数据库技术作为存储海量数据的方法。这种模型利用大量廉价的硬件设备组成的集群来构建一个高可靠性和良好扩展性的并行分布式系统来存储海量数据。

4.研究现状

Hadoop 是近年来IT 界研究的热点之一,现在很多公司和科研单位对Hadoop 技术进行了研究。对Hadoop 的研究主要集中在海量数据存储和使用MapReduce 进行数据处理。

黄晓云等人对Hadoop 的基本原理和工作过程做了的研究,采用Hadoop 平台完成了分布式海量数据存储系统,对Hadoop 技术做了些有益的尝试和探索。李云桃等人设计了海量数据处理系统。采用Hadoop平台中的MapReduce 完成了分布式计算;朱珠等人对海量日志进行了分析,都研究了分析日志的一些方法和规律。

相关文档
最新文档