hive数据类型 - 360文档中心

合集下载

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

hive数据类型

我们常把hive和关系数据库进行比较，也正是因为hive很多知识点和关系数据库类似。

关系数据库里有表（table），分区，hive里也有这些东西，这些东西在hive技术里称为hive的数据模型。今天本文介绍hive的数据类型，数据模型以及文件存储格式。这些知识大家可以类比关系数据库的相关知识。

首先我要讲讲hive的数据类型。

Hive支持两种数据类型，一类叫原子数据类型，一类叫复杂数据类型。

原子数据类型包括数值型、布尔型和字符串类型，具体如下表所示：

由上表我们看到hive不支持日期类型，在hive里日期都是用字符串来表示的，而常用的日期格式转化操作则是通过自定义函数进行操作。

hive是用java开发的，hive里的基本数据类型和java的基本数据类型也是一一对应的，除了string类型。有符号的整数类型：TINYINT、SMALLINT、INT和BIGINT分别等价于java的byte、short、int和long原子类型，它们分别为1字节、2字节、4字节和8字节有符号整数。Hive的浮点数据类型FLOAT和DOUBLE,对应于java的基本类型float和double 类型。而hive的BOOLEAN类型相当于java的基本数据类型boolean。

对于hive的String类型相当于数据库的varchar类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储2GB的字符数。

Hive支持基本类型的转换，低字节的基本类型可以转化为高字节的类型，例如TINYINT、SMALLINT、INT可以转化为FLOAT，而所有的整数类型、FLOAT以及STRING类型可以转化为DOUBLE类型，这些转化可以从java语言的类型转化考虑，因为hive就是用java编写的。当然也支持高字节类型转化为低字节类型，这就需要使用hive的自定义函数CAST了。

复杂数据类型包括数组（ARRAY）、映射（MAP）和结构体（STRUCT），具体如下表所示：

下面我们看看hive使用复杂数据类型的实例，建表：

查询语句：

接下来我们来看看hive的数据模型，hive的数据模型包括：database、table、partition和bucket。下面我将一一论述这四种数据模型。

1.Database：相当于关系数据库里的命名空间（namespace），它的作用是将用户和数据库的应用隔离到不同的数据库或模式中，该模型在hive 0.6.0之后的版本支持，hive提供了create database dbname、use dbname以及drop database dbname这样的语句。

2.表（table）：hive的表逻辑上由存储的数据和描述表格中的数据形式的相关元数据组成。表存储的数据存放在分布式文件系统里，例如HDFS，元数据存储在关系数据库里，当我们创建一张hive的表，还没有为表加载数据的时候，该表在分布式文件系统，例如hdfs上就是一个文件夹（文件目录）。Hive里的表友两种类型一种叫托管表，这种表的数据文件存储在hive 的数据仓库里，一种叫外部表，这种表的数据文件可以存放在hive数据仓库外部的分布式文件系统上，也可以放到hive数据仓库里（注意：hive的数据仓库也就是hdfs上的一个目录，这个目录是hive数据文件存储的默认路径，它可以在hive 的配置文件里进行配置，最终也会存放到元数据库里）。

下面是创建托管表的实例语句：

外部表创建的实例：

大家看到了创建外部表时候table之前要加关键字external，同时还要用location命令指定文件存储的路径，如果不使用locaction数据文件也会放置到hive的数据仓库里。

这两种表在使用的区别主drop命令上，drop是hive删除表的命令，托管表执行drop命令的时候，会删除元数据和存储的数据，而外部表执行drop命令时候只删除元数据库里的数据，而不会删除存储的数据。另外我还要谈谈表的load命令，hive加载数据时候不会对元数据进行任何检查，只是简单的移动文件的位置，如果源文件格式不正确，也只有在做查询操作时候才能发现，那个时候错误格式的字段会以NULL来显示。

3.分区（partition）：hive里分区的概念是根据“分区列”的值对表的数据进行粗略划分的机制，在hive存储上就体现在表的主目录（hive的表实际显示就是一个文件夹）下的一个子目录，这个文件夹的名字就是我们定义的分区列的名字，没有实际操作经验的人可能会认为分区列是表的某个字段，其实不是这样，分区列不是表里的某个字段，而是独立的列，我们根据这个列存储表的里的数据文件。使用分区是为了加快数据分区的查询速度而设计的，我们在查询某个具体分区列里的数据时候没必要进行全表扫描。下面我就举一个分区使用的实例：

创建分区：

加载数据：

在hive数据仓库里实际存储的路径如下所示：

我们看到在表logs的目录下有了两层子目录dt=2013-06-02和country=cn 查询操作：

下面这段文字是我引用博客园里风生水起的博文：

示例：

建临时表student_tmp，并导入数据：

hive> desc student_tmp;

OK

id int

age int

name string

stat_date string

Time taken: 0.106 seconds

hive> select * from student_tmp;

OK

1 20 zxm 20120801

2 21 ljz 20120801

3 19 cds 20120801

4 18 mac 20120801

5 22 android 20120801

6 23 symbian 20120801

7 25 wp 20120801

Time taken: 0.123 seconds

建student表：

hive>create table student(id INT, age INT, name STRING)

>partitioned by(stat_date STRING)