Hive数据仓库实践-1 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hive数据仓库实践第1课

法律声明

【声明】本视频和幻灯片为炼数成金网络课程的教学资料，所有资料只能在课程内使用，不得在课程以外范围散播，违者将可能被追究法律和经济责任。

课程详情访问炼数成金培训网站

《Hive数据仓库实践》课程简介

⏹互联网时代下，数据量的急剧增长，传统的数据仓库已经无法满足。Hive作为Hadoop生态圈中

的数据仓库解决方案随着开源社区的快速发展而逐步成熟，慢慢的在某些场景下替代企业级数据仓库，成为各大互联网公司数据仓库建设的必选方案，可以这么说，Hive已经成为大数据数据仓库的事实标准。

⏹本课程将从Hive的基本概念入手，深入解析Hive的使用方式、HQL语法以及常用的仓库模式设计

和Hive优化方法，并对未来Hive的发展和高级特性做一些简单介绍，并通过最后的案例实践巩固学习内容。通过本课程的学习，将能够胜任大多数互联网场景下的大数据分析和数据开发任务。

《Hive数据仓库实践》课程简介-续

⏹授课对象：

–面向数据分析和数据开发，希望从事和进一步了解互联网数据仓库以及数据分析的学员

⏹培养目标：

–掌握Hive的基本原理，掌握Hive的基本使用，掌握HiveQL的基本语法和常用优化措施，了解Hive数据仓库设计的方法，能够胜任数据仓库分析和数据开发的角色

⏹预备基础：

–对Hadoop有一定的基础和认识

–了解SQL, 有使用MySQL/MSSQLServer/Oracle等数据分析基础

–有基本的Linux命令操作经验和Java开发经验

⏹课程讨论QQ群：565241360

《Hive数据仓库实践》课程大纲

⏹ 1. Hadoop与MapReduce

⏹ 2. Hive的基本概念与QuickStart

⏹ 3. 数据类型与文件格式

⏹ 4. HiveQL：数据定义

⏹ 5. HiveQL：数据操作

⏹ 6. HiveQL：数据查询

⏹7. Hive函数与自定义函数

⏹8. Hive常用模式设计

⏹9. Hive调优

⏹10. Hive新特性与其他

⏹11. 案例与综合实战

第1课Hadoop与MapReduce

附：实验环境说明

大数据处理框架Hadoop简介

⏹Hadoop是Apache的一个开源的分布式计算平台，以HDFS分布式文件系统和MapReduce分

布式计算框架为核心，为用户提供了一套底层透明的分布式基础设施

⏹Hadoop框架中最核心设计就是：HDFS和MapReduce。HDFS提供了海量数据的存储

,MapReduce提供了对数据的计算。

⏹Hadoop框架中最核心的设计就是：HDFS 和MapReduce

–HDFS是Hadoop分布式文件系统，具有高容错性、高伸缩性，允许用户基于廉价硬件部署，构建分布式存储系统，为分布式计算存储提供了底层支持

–MapReduce提供简单的API，允许用户在不了解底层细节的情况下，开发分布式并行程序，利用大规模集群资源，解决传统单机无法解决的大数据处理问题

–设计思想起源于Google GFS、MapReduce Paper

⏹Doug Cutting在Yahoo开发，2008年贡献给Apache基金会

Hadoop历史

Hadoop的优势

⏹弹性可扩展

–通过简单增加集群节点，线性扩展集群存储和计算资源

⏹健壮高容错

–故障检测和自动恢复，允许通用硬件失效而不影响整个集群可用性

⏹成本低廉

–采用廉价通用硬件部署，无需高端设备

⏹简单易用

–API简单，允许用户不了解底层情况下，写出高效的分布式计算应用程序

HDFS

⏹HDFS: Hadoop Distributed File System,Hadoop的分布式文件系统

⏹一个HDFS 集群包含一个节点，称为NameNode，该节点管理文件系统名

称空间并规范客户端对文件的访问。另外，Data node （DataNodes）将数据作为块存储在文件中

MapReduce编程框架

MapReduce框架系统实现

最简单的WordCount采用MR算法

WordCount——MR Java API实现

WordCount——MR Java API实现（续）

Hadoop经历了从1.0到2.0的革命性进步

Hadoop2.0 架构

Hadoop生态系统

◆随着Hadoop的越来越流行，基于

Hadoop的各种处理框架和系统越

来越多，逐渐形成了一个基于

Hadoop的生态系统

◆Hadoop已经不是狭义的HDFS和

MapReduce计算框架，更多的是

指广义的大数据处理生态系统

Hadoop大数据处理栈

Hive简介

⏹Hive是基于Hadoop的一个数据仓库工具

⏹可以将结构化的数据文件映射为一张数据库表，并提供简单的类SQL(HQL)查询功能，可以将

HQL语句转换为MapReduce任务进行运行

⏹学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的

MapReduce应用

⏹适合数据仓库的ETL和统计分析

⏹由Facebook开发并开源，贡献给Apache基金会

数据仓库选型（续）