Hive数据仓库实践-1

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Hive数据仓库实践第1课

法律声明

【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。

课程详情访问炼数成金培训网站

《Hive数据仓库实践》课程简介

⏹互联网时代下,数据量的急剧增长,传统的数据仓库已经无法满足。Hive作为Hadoop生态圈中

的数据仓库解决方案随着开源社区的快速发展而逐步成熟,慢慢的在某些场景下替代企业级数据仓库,成为各大互联网公司数据仓库建设的必选方案,可以这么说,Hive已经成为大数据数据仓库的事实标准。

⏹本课程将从Hive的基本概念入手,深入解析Hive的使用方式、HQL语法以及常用的仓库模式设计

和Hive优化方法,并对未来Hive的发展和高级特性做一些简单介绍,并通过最后的案例实践巩固学习内容。通过本课程的学习,将能够胜任大多数互联网场景下的大数据分析和数据开发任务。

《Hive数据仓库实践》课程简介-续

⏹授课对象:

–面向数据分析和数据开发,希望从事和进一步了解互联网数据仓库以及数据分析的学员

⏹培养目标:

–掌握Hive的基本原理,掌握Hive的基本使用,掌握HiveQL的基本语法和常用优化措施,了解Hive数据仓库设计的方法,能够胜任数据仓库分析和数据开发的角色

⏹预备基础:

–对Hadoop有一定的基础和认识

–了解SQL, 有使用MySQL/MSSQLServer/Oracle等数据分析基础

–有基本的Linux命令操作经验和Java开发经验

⏹课程讨论QQ群:565241360

《Hive数据仓库实践》课程大纲

⏹ 1. Hadoop与MapReduce

⏹ 2. Hive的基本概念与QuickStart

⏹ 3. 数据类型与文件格式

⏹ 4. HiveQL:数据定义

⏹ 5. HiveQL:数据操作

⏹ 6. HiveQL:数据查询

⏹7. Hive函数与自定义函数

⏹8. Hive常用模式设计

⏹9. Hive调优

⏹10. Hive新特性与其他

⏹11. 案例与综合实战

第1课Hadoop与MapReduce

附:实验环境说明

大数据处理框架Hadoop简介

⏹Hadoop是Apache的一个开源的分布式计算平台,以HDFS分布式文件系统和MapReduce分

布式计算框架为核心,为用户提供了一套底层透明的分布式基础设施

⏹Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储

,MapReduce提供了对数据的计算。

⏹Hadoop框架中最核心的设计就是:HDFS 和MapReduce

–HDFS是Hadoop分布式文件系统,具有高容错性、高伸缩性,允许用户基于廉价硬件部署,构建分布式存储系统,为分布式计算存储提供了底层支持

–MapReduce提供简单的API,允许用户在不了解底层细节的情况下,开发分布式并行程序,利用大规模集群资源,解决传统单机无法解决的大数据处理问题

–设计思想起源于Google GFS、MapReduce Paper

⏹Doug Cutting在Yahoo开发,2008年贡献给Apache基金会

Hadoop历史

Hadoop的优势

⏹弹性可扩展

–通过简单增加集群节点,线性扩展集群存储和计算资源

⏹健壮高容错

–故障检测和自动恢复,允许通用硬件失效而不影响整个集群可用性

⏹成本低廉

–采用廉价通用硬件部署,无需高端设备

⏹简单易用

–API简单,允许用户不了解底层情况下,写出高效的分布式计算应用程序

HDFS

⏹HDFS: Hadoop Distributed File System,Hadoop的分布式文件系统

⏹一个HDFS 集群包含一个节点,称为NameNode,该节点管理文件系统名

称空间并规范客户端对文件的访问。另外,Data node (DataNodes)将数据作为块存储在文件中

MapReduce编程框架

MapReduce框架系统实现

最简单的WordCount采用MR算法

WordCount——MR Java API实现

WordCount——MR Java API实现(续)

Hadoop经历了从1.0到2.0的革命性进步

Hadoop2.0 架构

Hadoop生态系统

◆随着Hadoop的越来越流行,基于

Hadoop的各种处理框架和系统越

来越多,逐渐形成了一个基于

Hadoop的生态系统

◆Hadoop已经不是狭义的HDFS和

MapReduce计算框架,更多的是

指广义的大数据处理生态系统

Hadoop大数据处理栈

Hive简介

⏹Hive是基于Hadoop的一个数据仓库工具

⏹可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL(HQL)查询功能,可以将

HQL语句转换为MapReduce任务进行运行

⏹学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的

MapReduce应用

⏹适合数据仓库的ETL和统计分析

⏹由Facebook开发并开源,贡献给Apache基金会

数据仓库选型(续)

相关文档
最新文档