Hive数据仓库实践-1
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hive数据仓库实践第1课
法律声明
【声明】本视频和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被追究法律和经济责任。
课程详情访问炼数成金培训网站
《Hive数据仓库实践》课程简介
⏹互联网时代下,数据量的急剧增长,传统的数据仓库已经无法满足。Hive作为Hadoop生态圈中
的数据仓库解决方案随着开源社区的快速发展而逐步成熟,慢慢的在某些场景下替代企业级数据仓库,成为各大互联网公司数据仓库建设的必选方案,可以这么说,Hive已经成为大数据数据仓库的事实标准。
⏹本课程将从Hive的基本概念入手,深入解析Hive的使用方式、HQL语法以及常用的仓库模式设计
和Hive优化方法,并对未来Hive的发展和高级特性做一些简单介绍,并通过最后的案例实践巩固学习内容。通过本课程的学习,将能够胜任大多数互联网场景下的大数据分析和数据开发任务。
《Hive数据仓库实践》课程简介-续
⏹授课对象:
–面向数据分析和数据开发,希望从事和进一步了解互联网数据仓库以及数据分析的学员
⏹培养目标:
–掌握Hive的基本原理,掌握Hive的基本使用,掌握HiveQL的基本语法和常用优化措施,了解Hive数据仓库设计的方法,能够胜任数据仓库分析和数据开发的角色
⏹预备基础:
–对Hadoop有一定的基础和认识
–了解SQL, 有使用MySQL/MSSQLServer/Oracle等数据分析基础
–有基本的Linux命令操作经验和Java开发经验
⏹课程讨论QQ群:565241360
《Hive数据仓库实践》课程大纲
⏹ 1. Hadoop与MapReduce
⏹ 2. Hive的基本概念与QuickStart
⏹ 3. 数据类型与文件格式
⏹ 4. HiveQL:数据定义
⏹ 5. HiveQL:数据操作
⏹ 6. HiveQL:数据查询
⏹7. Hive函数与自定义函数
⏹8. Hive常用模式设计
⏹9. Hive调优
⏹10. Hive新特性与其他
⏹11. 案例与综合实战
第1课Hadoop与MapReduce
附:实验环境说明
大数据处理框架Hadoop简介
⏹Hadoop是Apache的一个开源的分布式计算平台,以HDFS分布式文件系统和MapReduce分
布式计算框架为核心,为用户提供了一套底层透明的分布式基础设施
⏹Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储
,MapReduce提供了对数据的计算。
⏹Hadoop框架中最核心的设计就是:HDFS 和MapReduce
–HDFS是Hadoop分布式文件系统,具有高容错性、高伸缩性,允许用户基于廉价硬件部署,构建分布式存储系统,为分布式计算存储提供了底层支持
–MapReduce提供简单的API,允许用户在不了解底层细节的情况下,开发分布式并行程序,利用大规模集群资源,解决传统单机无法解决的大数据处理问题
–设计思想起源于Google GFS、MapReduce Paper
⏹Doug Cutting在Yahoo开发,2008年贡献给Apache基金会
Hadoop历史
Hadoop的优势
⏹弹性可扩展
–通过简单增加集群节点,线性扩展集群存储和计算资源
⏹健壮高容错
–故障检测和自动恢复,允许通用硬件失效而不影响整个集群可用性
⏹成本低廉
–采用廉价通用硬件部署,无需高端设备
⏹简单易用
–API简单,允许用户不了解底层情况下,写出高效的分布式计算应用程序
HDFS
⏹HDFS: Hadoop Distributed File System,Hadoop的分布式文件系统
⏹一个HDFS 集群包含一个节点,称为NameNode,该节点管理文件系统名
称空间并规范客户端对文件的访问。另外,Data node (DataNodes)将数据作为块存储在文件中
MapReduce编程框架
MapReduce框架系统实现
最简单的WordCount采用MR算法
WordCount——MR Java API实现
WordCount——MR Java API实现(续)
Hadoop经历了从1.0到2.0的革命性进步
Hadoop2.0 架构
Hadoop生态系统
◆随着Hadoop的越来越流行,基于
Hadoop的各种处理框架和系统越
来越多,逐渐形成了一个基于
Hadoop的生态系统
◆Hadoop已经不是狭义的HDFS和
MapReduce计算框架,更多的是
指广义的大数据处理生态系统
Hadoop大数据处理栈
Hive简介
⏹Hive是基于Hadoop的一个数据仓库工具
⏹可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL(HQL)查询功能,可以将
HQL语句转换为MapReduce任务进行运行
⏹学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的
MapReduce应用
⏹适合数据仓库的ETL和统计分析
⏹由Facebook开发并开源,贡献给Apache基金会
数据仓库选型(续)