大数据处理：Hadoop体系架构

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据处理
Hadoop体系架构
1
提纲
Hadoop发展历程 Hadoop的框架 Hadoop的核心组件 Hadoop的应用现状
2
Hadoop的由来
3
Hadoop发展历程
4
Hadoop发展历程
Hadoop起源于Apache Nutch，Nutch项目开始于2002年，是一个开源的网络搜索引擎，本身也是由Lucene项目的一部分。 2004年，Google发表了论文，向全世界介绍了MapReduce。 2005年初，Nutch上有了一个可工作的MapReduce应用，当年，所有主要的Nutch算法被移植到使用MapReduce和NDFS来运行。 2006年2月，他们从Nutch转移出来成为一个独立的Lucene子项目，成为Hadoop。在2008年2月，雅虎宣布其搜索引擎产品部署在一个拥有1万个内核的 Hadoop集群上。 2008年7月，Hadoop打破世界纪录，成为最快排序1TB数据的系统。运行在一个910节点的集群，Hadoop在209秒内排序了1TB的数据，击败了前一年的297秒冠军。同年11月，谷歌报告它的MapReduce实现执行1TB数据的排序只用了68秒。在2009年5月，有报道宣称Yahoo的团队使用Hadoop对1TB的数据进行排序只花了62秒时间。
10
Hadoop数据分析 – Hive和Pig
11
Hadoop数据分析 – Hive
来源： Ashish Thusoo, Joydeep Sen Sarma, et al., Facebook, “Hive: A Warehousing Solution over A MapReduce Framework”, Proceedings of the VLDB Endowment, Aug. 2009. Why Hive？（/）
17
Hadoop应用现状
Hadoop的应用案例
Yahoo通过集群运行Hadoop，以支持广告系统和Web搜索的研究； Facebook 借助集群运行Had网页数据的挖掘工作；
HCE-基于C++的MapReduce运行环境 HDFS2-分布式NameNode实现 – 存储3千万个文件，3千万个数据块，内存占用约为12GB，其中块管理约占7.8GB，目录树约占4.3GB – 存储10亿个文件，10亿个数据块，内存占用约为380GB，其中块管理约占240GB，目录树约占140GB HDFS透明压缩存储 DISQL-大数据分析语言
12
Hadoop数据分析 – Pig
来源： Christopher Olston, Benjamin Reed, Utkarsh Srivastava, et al., Yahoo!, "Pig Latin: A Not-so-foreign Language for Data Processing", ACM SIGMOD, 2008. Why Pig？（/）
/book/architecture.html#arch.overview HDFS is a distributed file system that is well suited for the storage of large files. It's documentation states that it is not, however, a general purpose file system, and does not provide fast individual record lookups in files. HBase, on the other hand, is built on top of HDFS and provides fast record lookups (and updates) for large tables. HBase internally puts your data in indexed "StoreFiles" that exist on HDFS for high-speed lookups.
Hive is a data warehouse system for Hadoop that facilitates easy data summarization, ad-hoc queries, and the analysis of large datasets stored in Hadoop compatible file systems. Hive provides a mechanism to project structure onto this data and query the data using a SQL-like language called HiveQL. 数据库 vs. 数据仓库：存取（面向事务） vs. 分析（面向主题）
Apache HCatalog is a table and storage management service for data created using Apache Hadoop.
Providing a shared schema and data type mechanism. Providing a table abstraction so that users need not be concerned with where or how their data is stored. Providing interoperability across data processing tools such as Pig, Map Reduce, and Hive.
16
Hadoop数据集成 – Sqoop
来源： Aaron Kimball为Hadoop开发的一个小模块（2009 年），并由Cloudera支持成为Apache开源项目。 Why Sqoop？（/ ）
Apache Sqoop is a tool designed for efficiently transferring bulk data between Apache Hadoop and structured datastores such as relational databases.
Apache Pig is a platform for analyzing large data sets that consists of a high-level language for expressing data analysis programs, coupled with infrastructure for evaluating these programs. Pig's language layer currently consists of a textual language called Pig Latin. Pig vs. Hive：数据准备 vs. 数据呈现 Pig Latin：面向关系型的流式数据处理语言
5
Hadoop技术族
6
基于Hadoop的大数据处理框架
7
Hadoop核心 – 基础架构（HDFS+MR）
8
Hadoop核心 – 运行机制
9
Hadoop数据存储 – Why HBase？
来源： Fay Chang, Jeffrey Dean, et. al., Bigtable: A Distributed Storage System for Structured Data, Seventh Symposium on Operating Syቤተ መጻሕፍቲ ባይዱtem Design and Implementation, 2006. Why HBase？
13
Hadoop数据分析 – 感受Pig及对比Hive
14
Hadoop数据集成
15
Hadoop数据集成 – HCatalog
来源：Hortonworks，2010年3月提出，2011年5月发布。 Why HCatalog？（/hcatalog/ ）
淘宝的Hadoop 系统用于存储并处理电子商务交易的相关数据；中国移动研究院基于Hadoop 的“大云”（BigCloud）系统用于对数据进行分析和并对外提供服务。
18
谢谢!
19