深入浅出的hive学习总结资料
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hive的数据模型—桶表
桶表是对数据进行哈希取值,然后放到不同文件中存储。 创建表 create table bucket_table(id string) clustered by(id) into 4 buckets;
加载数据 set hive.enforce.bucketing = true; insert into table bucket_table select name from stu; insert overwrite table bucket_table select name from stu; 数据加载到桶表时,会对字段取hash值,然后与桶的数量取模。把 数据放到对应的文件中。
Hive的安装
启动 #hive hive>show tables; hive>create table test(id int,name string); hive>quit;
Hive的metastore
metastore是hive元数据的集中存放地。metastore默 认使用内嵌的derby数据库作为存储引擎 Derby引擎的缺点:一次只能打开一个会话
什么是Hive(二)
Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。 Hive的表其实就是HDFS的目录,按表名把文件 夹分开。如果是分区表,则分区值是子文件夹, 可以直接在M/R Job里使用这些数据。
Hive的系统架构
•用户接口,包括 CLI, JDBC/ODBC,WebUI •元数据存储,通常是存储在关系 数据库如 mysql, derby 中 •解释器、编译器、优化器、执行 器 •Hadoop:用 HDFS 进行存储, 利用 MapReduce 进行计算
Hive的数据模型-内部表
创建数据文件inner_table.dat 创建表 hive>create table inner_table (key string); 加载数据 hive>load data local inpath '/root/inner_table.dat' into table inner_table; 查看数据 select * from inner_table select count(*) from inner_table 删除表 drop table inner_table
基本数据类型 tinyint/smallint/int/bigint float/double boolean string • 复杂数据类型 Array/Map/Struct • 没有date/datetime
Hive的数据存储
Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式 存储结构主要包括:数据库、文件、表、视图 Hive默认可以直接加载文本文件(TextFile),还支持
Hive的数据模型-分区表
alter table partition_table add partition (daytime='201302-04',city='bj'); 通过load data 加载数据
alter table partition_table drop partition (daytime='201302-04',city='bj') 元数据,数据文件删除,但目录daytime=2013-02-04还在
使用Mysql作为外置存储引擎,多用户同时访问
Hive运行模式
Hive的运行模式即任务的执行环境 分为本地与集群两种 我们可以通过mapred.job.tracker 来指明 设置方式: hive > SET mapred.job.tracker=local;
Hive的启动方式
1、hive 命令行模式,直接输入#/hive/bin/hive的执行 程序,或者输入 #hive --service cli 2、 hive web界面的 (端口号9999) 启动方式 #hive --service hwi & 用于通过浏览器来访问hive http://hadoop0:9999/hwi/ 3、 hive 远程服务 (端口号10000) 启动方式 #hive --service hiveserver &
sequence file
创建表时,指定Hive数据的列分隔符与行分隔符, Hive即可解析数据
Hive的数据模型-数据库
类似传统数据库的DataBase 默认数据库"default" 使用#hive命令后,不使用hive>use <数据库名>,系统 默认的数据库。可以显式使用hive> use default; 创建一个新库 hive > create database test_dw;
Hive的数据模型-百度文库区表
创建数据文件partition_table.dat 创建表 create table partition_table(rectime string,msisdn string) partitioned by(daytime string,city string) row format delimited fields terminated by '\t' stored as TEXTFILE; 加载数据到分区 load data local inpath '/home/partition_table.dat' into table partition_table partition (daytime='2013-02-01',city='bj'); 查看数据 select * from partition_table select count(*) from partition_table •删除表 drop table partition_table
Hive的数据模型-分区表
CREATE TABLE tmp_table #表名 ( title string, # 字段名称 字段类型 minimum_bid double, quantity bigint, have_invoice bigint )COMMENT '注释:XXX' #表注释 PARTITIONED BY(pt STRING) #分区表字段(如果你文件非常之大的话,采用分区表可以快
Hive的数据模型-表
Table 内部表 Partition 分区表 External Table 外部表 Bucket Table 桶表
Hive的数据模型-内部表
与数据库中的 Table 在概念上是类似 每一个 Table 在 Hive 中都有一个相应的目录存储数 据。例如,一个表 test,它在 HDFS 中的路径为:/ warehouse/test。 warehouse是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的 目录 所有的 Table 数据(不包括 External Table)都保存 在这个目录中。 删除表时,元数据与数据都会被删除
什么是Hive(一)
Hive 是建立在 Hadoop 上的数据仓库基础构架。它 提供了一系列的工具,可以用来进行数据提取转化加 载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的 类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用 户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完 成的复杂的分析工作。
抽样查询 select * from bucket_table tablesample(bucket 1 out of 4 on id);
Hive的数据模型-外部表
指向已经在 HDFS 中存在的数据,可以创建 Partition 它和 内部表 在元数据的组织上是相同的,而实际数据的 存储则有较大的差异 内部表 的创建过程和数据加载过程(这两个过程可以在 同一个语句中完成),在加载数据的过程中,实际数据会 被移动到数据仓库目录中;之后对数据对访问将会直接在 数据仓库目录中完成。删除表时,表中的数据和元数据将 会被同时删除 外部表 只有一个过程,加载数据和创建表同时完成,并 不会移动到数据仓库目录中,只是与外部数据建立一个链 接。当删除一个 外部表 时,仅删除该链接
Hive的数据模型-外部表
CREATE EXTERNAL TABLE page_view ( viewTime INT, userid BIGINT, page_url STRING, referrer_url STRING, ip STRING COMMENT 'IP Address of the User', country STRING COMMENT 'country of origination‘ ) COMMENT 'This is the staging page view table' ROW FORMAT DELIMITED FIELDS TERMINATED BY '44' LINES TERMINATED BY '12' STORED AS TEXTFILE LOCATION 'hdfs://centos:9000/user/data/staging/page_view';
Hive的系统架构
用户接口主要有三个:CLI,JDBC/ODBC和 WebUI 1. CLI,即Shell命令行 2. JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 3. WebGUI是通过浏览器访问 Hive Hive 将元数据存储在数据库中(metastore),目前只支持 mysql、derby。 Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是 否为外部表等),表的数据所在目录等 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、 编译、优化以及查询计划(plan)的生成。生成的查询计划存储在 HDFS 中,并在随后由 MapReduce 调用执行 Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包 含 * 的查询,比如 select * from table 不会生成 MapRedcue 任务)
过滤出按分区字段划分的数据)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' # 字段是用什么分割开的 STORED AS SEQUENCEFILE; #用哪种方式存储数据,SEQUENCEFILE是hadoop自带的文件压
缩格式
一些相关命令 SHOW TABLES; # 查看所有的表 SHOW TABLES '*TMP*'; #支持模糊查询 SHOW PARTITIONS TMP_TABLE; #查看表有哪些分区 DESCRIBE TMP_TABLE; #查看表结构
Hive的数据模型-分区表
Partition 对应于数据库的 Partition 列的密集索引 在 Hive 中,表中的一个 Partition 对应于表下的一 个目录,所有的 Partition 的数据都存储在对应的 目录中
例如:test表中包含 date 和 city 两个 Partition, 则对应于date=20130201, city = bj 的 HDFS 子目录为: /warehouse/test/date=20130201/city=bj 对应于date=20130202, city=sh 的HDFS 子目录为; /warehouse/test/date=20130202/city=sh
Hive与传统数据库
查询语言 数据存储位置 数据格式 HiveQL HDFS 用户定义 SQL Raw Device or 本地FS 系统决定
数据更新
索引 执行 执行延迟 可扩展性 数据规模
不支持
新版本有,但弱 MapReduce 高 高 大
支持
有 Executor 低 低 小
Hive的数据类型