Google大数据发展与应用总结归纳
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
精心整理
IT
2019年9月11日
目录
一、简述 (4)
二、Google经典三篇大数据论文介绍 (5)
2.1、GFS (5)
一、大数据时代的来临
1.大数据的概念:
按照维基百科上的定义,所谓“大数据”(big data)在当今的互联网业指的是这样一种现象:一个网络公司日常运营所生成和积累用户网络行为的数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭”。这些数据量是如此之大,已经不是以我们所熟知的多少G和多少T为单位来衡量,而是以P
(1000个T),E(一百万个T)或Z(
据。
大数据泛指巨量的数据集,
尔街日报》将大数据时代、
竞争、生产力提高的前沿。
加快了信息化向社会经济各方面、大众
1MB(兆字
,2008年是1GB(1GB等于1024MB),
(即10亿GB或1000PB)的时间在2001
年是一周,而2013年仅需一天,即一天产生的信息量可刻满1.88亿张DVD光盘。我国网民数居世界之首,每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易,单日数据产生量超过50TB(1TB等于1000GB),存储量40PB(1PB等于1000TB)。百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。一个8Mbps(兆比特每秒)的摄像头一小时能产生3.6GB 数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十
PB。医院也是数据产生集中的地方。现在,一个病人的CT影像数据量达几十GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代正在到来。
如何通过强大的机器算法更迅速地完成数据的价值“提纯”,成为目前大数据背景下亟待解决的难题。
处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显着特征。根据IDC的“数字宇宙”报告,预计到2020年,全球数据使用量将达到35.2ZB (1ZB=210EB)。在如此海量的数据面前,处理数据的效率就是企业的生命二、Google经典三篇大数据论文介绍
3.1、Caffeine:处理个体修改
公布时间:2010年。
Google并没有止步于MapReduce。事实上,随着Internet的指数增长,从零开始重算所有搜索索引变得不切实际。取而代之,Google开发了一个更有价
3.2、Pregel:可扩展的图计算
Pregel(BFS)、PageRank google
MapReduce来做,但是效率很低;也可以用已有Parallel BGL或者CGMgraph
内在的计算模型比MapReduce
●成百上千的硬盘的磁盘IO统计信息
●Google数据中心上运行的任务的资源监控
●Google代码库的符号和依赖关系分析
Dremel基于互联网搜索和并行DBMS的概念。首先,它的架构借鉴了用在分布式搜索引擎中的服务树概念。就像一个web搜索请求一样,查询请求被推入此
“天窗计划”
谷歌另一个有意思的研究项目是“天窗计划”。“天窗计划”可以预估在房顶安装太阳能设备后可以节省的开支。谷歌地球的图像库里拥有全年的日照情况和天气变化数据,“天窗计划”可以计算安装太阳能板的屋顶空间,判断使用太阳能带来的价值和可以节省的能源费用,并将用户与太阳能电池板提供商连接起来。这是我们对不断扩大的数据库的又一创新使用:帮助我们对重大项目作出更明智的决定。在这个案例中,能源消耗就是这个重要项目。目前,全美41个州的4300
多万户居民可以使用“天窗计划”。用户提供一个指标,它就可以来可以测算出可能节省的开支,以及并网发电后可能带来的收益。通过测算你的房子或地区进行独特定制,最终推动太阳能在更大范围的使用。
治理空气污染
第三个例子由Google Earth Outreach和环境守护基金(the Environmental Defense Fund)牵头完成。他们测量了铺设在道路下的天然气管道的甲烷泄露情况。
谷歌通过适配谷歌街景(Google Streetview)汽车来完成这一任务。这些汽车携
图获取街景图片内容的同时,
的浓度。使用这些数据,
第安纳波利斯)
链接: