大数据性能优化之Hive优化
深入理解Hive的查询执行计划与优化策略
深入理解Hive的查询执行计划与优化策略Hive是一种在Hadoop生态系统中运行的数据仓库工具,它提供了Hive查询语言(HQL),允许用户以类似于SQL的方式进行数据查询和分析。
然而,由于Hive在Hadoop上运行,数据量通常庞大且分布广泛,因此查询性能和效率成为关键问题。
为了优化Hive查询,我们需要深入了解Hive的查询执行计划和优化策略。
一、查询执行计划在Hive中,查询执行计划是指查询语句在执行之前的逻辑计划和执行计划。
逻辑计划描述了执行查询所需的转换和操作,而执行计划则是根据物理资源和数据分布来优化查询的实际执行计划。
1. 逻辑计划Hive将查询语句转换为逻辑计划,该计划是一个以树状结构表示的操作符序列。
这些操作符包括从表中选择数据、过滤数据、合并结果等。
逻辑计划不关心具体的物理资源和数据分布,只考虑查询语句的语义和逻辑关系。
2. 执行计划执行计划是根据逻辑计划和物理资源进行优化的实际计划。
在生成执行计划时,Hive会考虑查询的数据分布、数据倾斜、数据压缩等因素,以及执行查询所需的资源(CPU、内存等)。
执行计划可以通过Explain命令来查看,它显示了Hive的查询优化过程。
二、优化策略为了提高查询性能和效率,Hive提供了多种优化策略。
下面介绍几种常用的优化策略:1. 分区剪枝分区剪枝是指在执行查询时,根据查询条件的分区键过滤无关分区,从而减少数据扫描的量和执行时间。
Hive会在执行计划中添加分区剪枝操作,根据查询条件和分区键的关系自动剪除不需要扫描的分区。
2. 列剪枝列剪枝是指根据查询语句中所需的列,优化执行计划,只从存储中读取必要的列数据,而不是读取整个表的数据。
这样可以减少磁盘I/O和数据传输的量,从而提高查询性能。
3. 合并MapReduce任务Hive通常使用MapReduce作为执行引擎,将查询转换为多个MapReduce任务进行并行计算。
然而,如果多个任务可以合并为一个任务,可以显著减少任务之间的数据传输和开销,提高执行效率。
Hive优化
优化常用的手段
•解决数据倾斜问题 •减少job数(合并MapReduce,用Multi-group by) •设置合理的map reduce的task数,能有效提升性能。 •数据量较大的情况下,慎用count(distinct)。 •对小文件进行合并,针对文件数据源。
优化案例
1、Join原则 • 将条目少的表/子查询放在 Join的左边。 原因是在 Join 操作的 Reduce 阶段,位于 Join左边的表的内容 会被加载进内存,将条目少的表放在左边,可以有 效减少发生内存溢出的几率。 • • 当一个小表关联一个超大表时,容易发生数据倾斜, 可以用MapJoin把小表全部加载到内存在map端进行 join,避免reducer处理。 • 如:SELECT /*+ MAPJOIN(user) */ l.session_id, ername from user u join page_views l on (u. id=er_id) ;
优化案例
4、设置合理reducer个数 reducer个数的设定极大影响执行效率 •不指定reducer个数的情况下,Hive分配reducer个数基于以下: 参数1:hive.exec.reducers.bytes.per.reducer(默认为1G) 参数2 :hive.exec.reducers.max(默认为999) •计算reducer数的公式 •N=min(参数2,总输入数据量/参数1) set mapred.reduce.tasks=13; •reduce个数并不是越多越好 同map一样,启动和初始化reduce也会消耗时间和资源;有多少个 reduce,就会有多少个输出文件。 Reducer数过多: 生成了很多个小文件,那么如果这些小文件作为下一个任务的输 入,则也会出现小文件过多的问题。 Reducer过少: 影响执行效率。
Hive优化
Hive优化1 概述1.1 Hive的特征1.可以通过SQL轻松访问数据的工具,从而实现数据仓库的任务,报告和数据分析等。
2.可以使已经存储的数据结构化。
3.可以直接访问存储在HDFS或者其他数据存储系统中的文件。
4.Hive除了支持MapReduce计算引擎之外还支持Spark和Tez这两种分布式计算引擎。
5.提供了类似sql查询语句的HiveSql对数据进行分析。
6.存储格式多样化。
1.2 Hive优势Hive的强大之处不是在与将数据转换成特定格式,而是利用Hadoop本身的InputFormat API来从不同的数据源中读取数据,然后使用OutputFormat API将数据写成不同的格式。
所以对于不同的数据源,或者写出不同的格式就需要不同的对应的InputFormat和OutputFormat类的实现。
Hive拥有统一的元数据管理,所以和spark,impala等SQL引擎通用。
(通用指的是拥有了统一的Metastore之后,在Hive中创建一张表,在spark/impala中能通用,反之在spark中创建一张表,在Hive中也是能用的)只需要共用元数据,就可以切换SQL引擎了。
Hive使用SQL语法,提供快速开发能力,还可以通过用户定义的函数,用户定义的聚合和用户定义的表函数进行扩展,避免了去写MapReduce,减少开发人员学习成本。
Hive中不仅可以使用逗号和制表符分隔文本文件。
还可以使用sequence File、RC、ORC、Parquet。
Hive指在最大限度的提高可伸缩性,性能,可扩展性,容错性以及与其输出格式的松散耦合。
数据离线处理:日志分析,海量数据结构化分析。
2 Hive函数Hive的SQL可以通过用户定义的函数,用户定义的聚合和用户定义的表函数进行扩展当Hive提供的内置函数无法满足你的业务需求时,此时就可以考虑使用用户自定义函数UDF(用户定义函数),UDAF(用户定义聚合函数),UDTF(用户定义表函数)的区别:▪udf 一进一出▪udaf 聚集函数,多进一出▪udtf 一进多出3 Hive优化3.1 慎用api大数据场景下不害怕数据量大,但是害怕数据倾斜。
深入理解Hive查询优化与执行计划
深入理解Hive查询优化与执行计划Hive是一个构建在Hadoop之上的数据仓库基础架构,具有高扩展性和容错性。
它提供了类似于SQL的查询语言——HiveQL,使得开发者可以使用SQL语句而不需要了解复杂的MapReduce编程。
尽管Hive在读取大型数据集时表现出色,但在进行复杂查询时,性能可能会受到影响。
为了优化查询性能并提高执行计划的效率,我们需要深入理解Hive查询优化与执行计划。
Hive查询优化的目标是提高查询性能和降低资源消耗。
为了实现这一目标,Hive查询优化器会尝试优化查询计划,选择更有效的操作顺序和算法,以减少数据读取和转换的开销。
下面将介绍一些常见的Hive查询优化技术。
首先是分区和分桶。
Hive能够根据表的列值将数据分成不同的分区,这样可以将查询范围限制在特定的分区上,减少查询的数据量。
分桶则是将数据分成更小的单位,使得查询操作只需要在一个桶(bucket)中进行,从而加快查询速度。
其次是索引和统计信息。
在Hive中,我们可以通过创建索引来加快查询速度。
索引可以在某些列上创建,从而快速定位满足特定条件的行。
另外,Hive还可以收集统计信息,例如表的大小、列的不同值的数量等,通过这些统计信息,优化器能够根据查询条件评估并选择更优的执行计划。
还有一项重要的优化技术是数据倾斜处理。
在某些情况下,某些列的值分布极不均匀,导致某些任务运行时间较长。
为了解决这个问题,可以通过数据重塑、倾斜处理或使用动态分区等方法来解决数据倾斜问题。
一旦我们了解了Hive查询优化技术,我们就需要关注执行计划的生成和调优。
执行计划是Hive为我们的查询所准备的一系列任务和操作的有序列表。
对于复杂的查询,执行计划的优化非常关键。
Hive将查询分成多个阶段,并将每个阶段分解成更小的任务。
任务的划分依赖于数据的分区和桶,以及并行处理的配置。
根据查询的复杂性和数据规模,Hive 可能生成很多任务,这些任务会在集群中并行执行。
数据分析利器之hive优化十大原则
数据分析利器之hive优化⼗⼤原则hive之于数据民⼯,就如同锄头之于农民伯伯。
hive⽤的好,才能从地⾥(数据库)⾥挖出更多的数据来。
⽤过hive的朋友,我想或多或少都有类似的经历:⼀天下来,没跑⼏次hive,就到下班时间了。
hive在极⼤数据或者数据不平衡等情况下,表现往往⼀般,因此也出现了presto、spark-sql等替代品。
今天不谈其它,就来说说关于hive,个⼈的⼀点⼼得。
⼀. 表连接优化1. 将⼤表放后头Hive假定查询中最后的⼀个表是⼤表。
它会将其它表缓存起来,然后扫描最后那个表。
因此通常需要将⼩表放前⾯,或者标记哪张表是⼤表:/*streamtable(table_name) */2. 使⽤相同的连接键当对3个或者更多个表进⾏join连接时,如果每个on⼦句都使⽤相同的连接键的话,那么只会产⽣⼀个MapReduce job。
3. 尽量尽早地过滤数据减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使⽤到的字段。
4. 尽量原⼦化操作尽量避免⼀个SQL包含复杂逻辑,可以使⽤中间表来完成复杂的逻辑⼆. ⽤insert into替换union all如果union all的部分个数⼤于2,或者每个union部分数据量⼤,应该拆成多个insert into 语句,实际测试过程中,执⾏时间能提升50%如:insert overwite table tablename partition (dt= ....) select ..... from ( select ... from Aunion all select ... from B union all select ... from C ) R where ...;可以改写为:insert into table tablename partition (dt= ....) select .... from A WHERE ...; insert into table tablename partition (dt= ....) select ....from B WHERE ...; insert into table tablename partition (dt= ....) select .... from C WHERE ...;三. order by & sort byorder by : 对查询结果进⾏全局排序,消耗时间长。
hive优化要点总结电脑资料
hive优化要点总结电脑资料再好的硬件没有充分利用起来,都是白扯淡,比方:通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此严密相连的是模型设计,好的模型特别重要. reduce个数过少没有真正发挥hadoop并行计算的威力,但reduce 个数过多,会造成大量小文件问题,数据量、资源情况只有自己最清楚,找到个折衷点,比方:假设其中有一个表很小使用map join,否那么使用普通的reduce join,注意hive会将join前面的表数据装载内存,所以较小的一个表在较大的表之前,减少内存资源的消耗在hive里有两种比较常见的处理方法第一是使用Combinefileinputformat,将多个小文件打包作为一个整体的inputsplit,减少map任务数set mapred.max.split.size=256000000;set mapred.min.split.size.per.node=256000000set Mapred.min.split.size.per.rack=256000000sethive.input.format=bineHiveI nputFormat第二是设置hive参数,将额外启动一个MR Job打包小文件hive.merge.mapredfiles = false 是否合并Reduce输出文件,默认为Falsehive.merge.size.per.task = 256*1000*1000 合并文件的大小在hive里比较常用的处理方法第一通过hive.groupby.skewindata=true控制生成两个MR Job,第一个MR Job Map的输出结果随机分配到reduce做次预汇总,减少某些key值条数过多某些key条数过小造成的数据倾斜问题第二通过hive.map.aggr = true(默认为true)在Map端做biner,假设map各条数据根本上不一样, 聚合没什么意义,做biner反而画蛇添足,hive里也考虑的比较周到通过参数hive.groupby.mapaggr.checkinterval = 100000 (默认)hive.map.aggr.hash.min.reduction=0.5(默认),预先取100000条数据聚合,如果聚合后的条数/100000>0.5,那么不再聚合multi insert适合基于同一个源表按照不同逻辑不同粒度处理插入不同表的场景,做到只需要扫描源表一次,job个数不变,减少源表扫描次数union all用好,可减少表的扫描次数,减少job的个数,通常预先按不同逻辑不同条件生成的查询union all后,再统一group by计算,不同表的union all相当于multiple inputs,同一个表的union all,相当map一次输出多条集群参数种类繁多,举个例子比方可针对特定job设置特定参数,比方jvm重用,reduce copy线程数量设置(适合map较快,输出量较大)如果任务数多且小,比方在一分钟之内完成,减少task数量以减少任务初始化的消耗,:blog.csdn./u011750989/article/details/12024301。
Hive的10种优化总结
Hive的10种优化总结Hive作为⼤数据领域常⽤的数据仓库组件,在平时设计和查询时要特别注意效率。
影响Hive效率的⼏乎从不是数据量过⼤,⽽是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。
对Hive的调优既包含对HiveSQL语句本⾝的优化,也包含Hive配置项和MR⽅⾯的调整。
列裁剪和分区裁剪最基本的操作。
所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。
以我们的⽇历记录表为例:select uid,event_type,record_datafrom calendar_record_logwhere pt_date >= 20190201 and pt_date <= 20190224and status = 0;当列很多或者数据量很⼤时,如果select *或者不指定分区,全列扫描和全表扫描效率都很低。
Hive中与列裁剪优化相关的配置项是hive.optimize.cp,与分区裁剪优化相关的则是hive.optimize.pruner,默认都是true。
在HiveSQL解析阶段对应的则是ColumnPruner逻辑优化器。
谓词下推在关系型数据库如MySQL中,也有谓词下推(Predicate Pushdown,PPD)的概念。
它就是将SQL语句中的where谓词逻辑都尽可能提前执⾏,减少下游处理的数据量。
例如以下HiveSQL语句:select a.uid,a.event_type,b.topic_id,b.titlefrom calendar_record_log aleft outer join (select uid,topic_id,title from forum_topicwhere pt_date = 20190224 and length(content) >= 100) b on a.uid = b.uidwhere a.pt_date = 20190224 and status = 0;对forum_topic做过滤的where语句写在⼦查询内部,⽽不是外部。
hive优化总结
hive优化总结在大数据处理领域中,Hadoop已经成为主流的框架之一。
Hadoop 的一个重要组件是Hive,这是一个基于Hadoop的数据仓库基础工具。
Hive的目标是提供一个类SQL查询的接口,以便于对存储于Hadoop集群中的数据进行分析和查询。
然而,在实际使用中,Hive的性能和效率往往会受到限制。
本文将介绍一些提高Hive性能和优化的技巧和方法。
首先,要注意数据分区。
在Hive中,数据分区可以将数据以更细粒度的方式进行组织和存储,从而提高查询效率。
通过将数据分区存储在不同的目录中,Hive可以避免扫描整个数据集,并仅从感兴趣的分区中读取数据。
因此,正确地定义和使用数据分区是提高Hive性能的重要步骤之一。
其次,使用合适的表格式也是优化Hive的关键。
Hive支持多种表格式,例如文本、序列文件和列式存储等。
每种表格式都有自己的特点和适用场景。
在选择表格式时,需要考虑数据大小、查询类型以及存储需求等因素。
例如,对于需要频繁进行聚合操作的场景,列式存储格式通常更加高效。
另外,可以使用分桶技术来改善Hive的性能。
分桶是将表按照某个列的值进行分组,使得具有相同分桶值的数据存储在相同的桶中。
通过使用分桶技术,Hive可以更快地进行连接操作和过滤操作,从而提高查询效率。
在选择分桶列时,应选择具有较高的基数和较为均匀分布的列。
此外,使用Hive的索引功能也能够加速查询。
Hive支持对表中的列创建索引,从而可以更快地定位和访问数据。
通过使用索引,Hive可以减少全表扫描的开销,并且在一些特定的查询场景下,索引的使用可以显著提高查询性能。
然而,需要注意的是,索引会增加数据的存储空间和更新的成本,因此在使用索引时需要进行权衡。
最后,合理地配置Hive参数也是优化Hive性能的一项重要工作。
Hive的性能受到许多配置参数的影响,例如内存大小、并行度和任务调度等。
根据具体的场景和需求,可以对这些参数进行调整,以获得更好的性能和效率。
hive优化总结
hive优化总结Hive优化总结Hive是一种建立在Hadoop之上的开源数据仓库解决方案,它可以使用类似SQL的查询语言来处理大规模数据集。
然而,由于数据集的规模越来越庞大,并且查询的复杂度也在增加,Hive的性能可能会受到影响。
因此,对Hive进行优化是提高查询效率和性能的关键。
一、数据分区在Hive中,数据分区是一种将数据按照特定的列进行划分存储的方式。
通过合理地选择分区列,可以提高查询性能。
例如,在时间序列数据中,通过将数据按照时间列进行分区,可以将查询仅限于需要的时间范围,提高查询效率。
二、数据压缩Hive支持多种数据压缩格式,如Gzip、Snappy和LZO等。
使用数据压缩可以显著减少存储空间,并且对于IO密集型操作,如数据扫描,也可以显著提高性能。
在选择数据压缩格式时,需要综合考虑存储空间和查询性能之间的权衡。
三、分桶类似于数据分区,分桶也是一种将数据进行划分的方式。
不同的是,分桶是将数据按照某一列的哈希值进行划分,可以提高数据的均衡性。
通过通过使用分桶,可以提高数据的访问效率,尤其是对于某些需要经常进行随机访问的操作。
四、合理使用索引在Hive中,可以使用B树索引来加速查询。
合理地创建索引可以显著提高查询性能。
然而,索引也会带来额外的存储开销和维护成本,因此需要权衡是否使用索引。
通常情况下,索引适用于数据量较小、查询频繁的情况下。
五、数据倾斜处理在大规模数据集中,数据倾斜是一个不可避免的问题。
数据倾斜会导致查询性能不均衡,某些任务的执行时间远远超出了预期。
针对数据倾斜问题,可以使用一些优化技术,如数据倾斜的处理和随机均匀分布。
六、并行执行并行执行是提高Hive查询性能的一个关键技术。
在Hive中,可以通过设置合适的查询并行度,将一个复杂的查询分解为多个子任务并行执行。
这样可以加快查询速度,提高整体的性能。
七、动态分区动态分区是一种在查询时根据查询条件动态创建分区的技术。
通过使用动态分区,可以避免在每次插入数据时都需要手动创建分区的操作,简化了操作流程,提高了数据的管理效率。
大数据性能优化之Hive优化
大数据性能优化之Hive优化一、引言Hive是建立在Hadoop之上的数据仓库基础设施,用于处理大规模数据集。
然而,在处理大数据时,Hive的性能可能会受到一些因素的影响,如数据倾斜、查询优化等。
因此,本文将介绍一些Hive性能优化的方法,以提高查询效率和减少执行时间。
二、数据倾斜处理1. 了解数据倾斜的原因:数据倾斜是指在某些列或者分区中,数据的分布不均匀,导致某些任务的执行时间明显延长。
2. 使用随机数分桶:通过在表中添加一个随机数列,并使用该列进行分桶,可以将数据均匀分布到不同的桶中,从而减少数据倾斜的影响。
3. 使用动态分区:动态分区可以根据数据的值自动创建分区,避免了手动创建分区时可能浮现的数据倾斜问题。
三、查询优化1. 使用合适的数据存储格式:选择合适的存储格式可以提高查询性能。
例如,使用列式存储格式(如Parquet或者ORC)可以减少I/O操作,提高查询效率。
2. 使用分区和索引:通过将数据分成多个分区,并在常用的查询列上创建索引,可以减少扫描的数据量,提高查询速度。
3. 避免全表扫描:尽量避免使用SELECT *的方式查询数据,而是明确指定需要查询的列,减少不必要的数据读取。
4. 使用合适的连接方式:在Hive中,可以使用JOIN操作连接多个表。
为了提高查询性能,应尽量避免使用大表与大表的JOIN,可以考虑使用MAPJOIN或者BUCKET JOIN等方式来优化连接操作。
四、资源配置和调优1. 调整内存参数:根据集群的硬件资源和数据规模,合理配置Hive的内存参数,如mapreduce.map.memory.mb、mapreduce.reduce.memory.mb等,以充分利用集群资源。
2. 并行度调整:通过调整mapreduce.job.reduces参数,控制并行度,使得任务能够充分利用集群资源,提高数据处理速度。
3. 合理设置数据压缩:使用数据压缩可以减少磁盘占用和I/O操作,但过多的压缩会增加CPU负载。
完全掌握Hive数据库管理与优化
完全掌握Hive数据库管理与优化Hive数据库管理与优化Hive是一个建立在Hadoop之上的数据仓库工具,它提供了一个类似于关系型数据库的查询语言HiveQL来方便用户进行数据分析与处理。
在大数据时代,Hive数据库管理与优化变得至关重要。
本文将分享一些方法和策略,帮助您完全掌握Hive数据库的管理与优化。
1. 数据模型优化在Hive中,良好的数据模型设计可以大大提高查询性能。
以下是一些优化数据模型的技巧:- 分区表:将数据分区为更小的片段,可以加快查询,减少所需扫描的数据量。
- 分桶表:分桶可以在大数据集上提供更好的查询性能。
可以根据数据的散列值将数据划分为多个桶,以便更快地定位和读取特定数据。
- 压缩表:压缩表可以减少磁盘空间的使用,并提高数据加载和查询性能。
- 使用适当的数据类型:使用合适的数据类型来存储数据,可以减少存储空间的使用,并提高查询性能。
- 避免使用过多的JOIN操作:JOIN操作需要较大的计算和资源消耗,应该尽量避免过多的JOIN操作。
2. 分区和索引管理在Hive中,对分区和索引进行适当的管理也是提高性能的重要一环。
- 分区维护:如果表中的数据在某个字段上有明显的划分,应使用分区来提高查询性能。
在添加新数据时,需要维护分区的方式,以便查询时可以尽快定位到所需的数据。
- 索引的选择和创建:根据查询的需求,选择合适的字段创建索引,可以显著提高查询性能。
索引可以减少全表扫描的需求,但也需要在维护索引和存储开销之间进行权衡。
3. 查询优化针对Hive查询的优化策略如下:- 抽样查询:对于大规模的数据集,可以使用抽样查询来加快查询速度。
通过对数据的随机抽样,可以减少所需扫描的数据量。
- 合并小文件:在Hive中,如果表中存在大量小文件,会导致查询效率低下。
因此,应定期对小文件进行合并,以减少查询的数据量。
- 合理使用缓存:Hive提供了查询结果缓存功能,可以将查询中的部分结果缓存在内存中。
hive常用优化方法大全
hive常用优化方法大全hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以通过类SQL语句快速实现简单的MapReduce统计,十分适合数据仓库的统计分析。
在使用hive的过程中,可以进行hive优化,以下是常用的hive优化方法:1. join连接时的优化:当三个或多个以上的表进行join操作时,如果每个on使用相同的字段连接时只会产生一个mapreduce;2. join连接时的优化:当多个表进行查询时,从左到右表的大小顺序应该是从小到大,原因是hive在对每行记录操作时会把其他表先缓存起来,直到扫描最后的表进行计算;3. 在where字句中增加分区过滤器;4. 当可以使用left semi join 语法时不要使用inner join,前者效率更高,原因是对于左表中指定的一条记录,一旦在右表中找到立即停止扫描;5. 如果所有表中有一张表足够小,则可置于内存中,这样在和其他表进行连接的时候就能完成匹配,省略掉reduce过程,设置属性即可实现,set hive.auto.covert.join=true; 用户可以配置希望被优化的小表的大小 set hive.mapjoin.smalltable.size=2500000; 如果需要使用这两个配置可置入$HOME/.hiverc文件中;6. 同一种数据的多种处理:从一个数据源产生的多个数据聚合,无需每次聚合都需要重新扫描一次;7. limit调优:limit语句通常是执行整个语句后返回部分结果,sethive.limit.optimize.enable=true;8. 开启并发执行:某个job任务中可能包含众多的阶段,其中某些阶段没有依赖关系可以并发执行,开启并发执行后job任务可以更快的完成,设置属性:set hive.exec.parallel=true;9. hive提供的严格模式,禁止3种情况下的查询模式:a:当表为分区表时,where字句后没有分区字段和限制时,不允许执行;b:当使用order by语句时,必须使用limit字段,因为order by 只会产生一个reduce任务。
浅析腾讯TDW对Hive的应用和优化
S QL , 访 问此 库 、 表的权限, 以达 到 权 限控 制 。
_性能差
H i v e 0 . 4 1 版本在查询优化上较为简单, 有很多S O L 翻译的MR 执行效率很低 , 或者不合理 。性能差 , 不仅浪费了机 器资源, 也相对影响了产品的口碑。 -不够稳定
甚 至是 M a p R e d u c e 的 后 台 日志 进 行 问题 定 位 。在
・为Hi v e 增加了一些与权 限相关的元数据表用 来存放角色、 权限相关的元数据信息 。 ・增 加了相关的 S Q L 语法 ,包括c r e a t e r o l e 、 g r a n t 、 r e v o k e 等命令 , 这些命令能够实现将权 限相关的信息记录在元数据中。
通过以上三个方面的功能扩充 , 完善 了T D W权限 管理 , 提高 了用户数据存入T D W的安全 性,同时 方便了T D W管理员的日常工作 。
H i v e 0 . 4 . 1 版本在生产环境中经常会出现卡死 、 元
数据损 坏、进程异 常退出等问题,造成了服务 中 ・兼容 Or a c l e 的分 区功能
D W研发和应 本身存 在一些问题 , 在技术上 不够成熟 , 严重制 数据仓库应该具备的很 多功能。在T 约了T D W的运营和推广 , 表现在以下几个方面。 用阶段, 功 能的缺失 曾使T D W不断受到业 务的挑 战, 这些挑战~度影 响到T D w的应用推广进度和
口碑 ,因此 , 我们 对Hi v e 进 行 了大量 的功 能 扩充 。
Co v e r S t o r y 封 面 报 道 l大 数 据
hive优化总结
hive优化总结Hive是一个基于Hadoop的数据仓库基础设施工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能。
然而,由于Hive处理大规模数据集时的复杂性,其性能可能不够理想。
因此,在实际应用中,我们需要对Hive进行优化,以提高其查询性能和效率。
首先,我们可以使用合适的存储格式来存储数据。
Hive支持多种存储格式,例如文本、Parquet和ORC。
对于大规模数据集,使用列式存储格式(如ORC)比行式存储格式(如文本)更高效。
列式存储格式可以减少I/O操作,提高查询性能。
其次,我们可以使用分区表和分桶表来优化查询。
分区表是将数据按照一定的规则分成多个分区存储的表,可以根据查询的条件只读取特定的分区,减少了不必要的数据读取和处理。
分桶表则是将数据分成多个桶存储,可以根据查询的条件只读取特定的桶,同样可以提高查询的效率。
另外,我们可以通过合理的数据压缩方式来减少存储空间,提高查询性能。
Hive支持多种数据压缩算法,如Snappy、LZO和Gzip。
选择合适的压缩算法可以在保证数据准确性的前提下减少存储空间,从而加快查询速度。
此外,我们还可以通过适当的索引使用来提高查询性能。
Hive 支持B树索引和位图索引。
B树索引适用于范围查询,而位图索引适用于离散值查询。
根据实际的查询场景,选择适合的索引类型可以加快查询速度。
另外,我们可以使用合适的硬件和网络配置来提高查询性能。
Hive的主要性能瓶颈包括CPU、内存和磁盘I/O。
通过增加硬件资源,如增加CPU核心数和内存容量,可以提高查询的并发能力和计算速度。
另外,优化网络传输的带宽和延迟也可以减少数据传输的时间,缩短查询的响应时间。
最后,我们可以使用MapReduce、Spark或Tez等并行计算框架来加快查询速度。
Hive支持多种执行引擎,可以根据具体的需求选择合适的执行引擎。
并行计算框架可以将查询任务并行化处理,并利用集群中的多台机器同时进行计算,从而加快查询速度。
如何在Hive中优化复杂查询和大规模数据处理
如何在Hive中优化复杂查询和大规模数据处理Hive是一个基于Hadoop的数据仓库基础设施工具。
它允许开发人员使用类似于SQL的查询语言进行交互式分析大规模数据。
然而,在处理复杂查询和大规模数据时,Hive性能可能会受到挑战。
为了优化这些查询和数据处理过程,我们需要采取一些措施来提高Hive的性能和效率。
下面我将介绍一些在Hive中优化复杂查询和大规模数据处理的方法。
1. 数据分区Hive中的数据可以根据某个列进行分区,将数据分散存储在不同的目录中。
通过对数据进行分区,可以提高查询的效率。
例如,如果数据按日期分区,则在查询特定日期范围的数据时,Hive只会扫描与该日期范围相关的分区,而不是扫描整个数据集。
2. 数据压缩数据压缩是减少存储和I/O开销的有效方法。
在Hive中,可以使用压缩算法对数据进行压缩。
常见的压缩算法包括Snappy、Gzip和LZO。
压缩后的数据占用更少的磁盘空间,并且在数据传输过程中占用更少的带宽,从而提高了查询和数据处理的效率。
3. 数据筛选和列裁剪在编写查询语句时,应该尽量避免全表扫描。
通过添加过滤条件和只选择需要的列,可以减少查询的数据量和执行时间。
只选择需要的列也可以减少网络传输的数据量,提高查询性能。
4. 合理使用索引Hive支持某些类型的索引,如Bitmap索引和Bloom过滤器索引。
索引可以加快查询速度,但同时也会增加数据加载和维护的开销。
因此,应该在需要快速响应查询的字段上使用索引,并在维护索引和查询性能之间进行权衡。
5. 优化数据倾斜当数据在分区或者某个字段上出现倾斜时,可能会导致查询性能下降。
在这种情况下,可以尝试使用一些技术来处理数据倾斜,如动态分区、随机化键值、使用其他字段重新分区等。
6. 使用Tez引擎Hive默认使用MapReduce作为底层执行引擎,但Tez引擎在某些场景下可以提供更好的性能。
Tez引擎使用了图执行模型,可以优化任务之间的依赖关系和数据流,从而提高查询的并行度和执行速度。
Hive调优及优化的12种方式
Hive调优及优化的12种⽅式Hive调优及优化的12种⽅式请记住:在数据处理中,不怕数据量⼤,就怕数据倾斜!针对于Hive内部调优的⼀些⽅式01.请慎重使⽤COUNT(DISTINCT col);原因:distinct会将b列所有的数据保存到内存中,形成⼀个类似hash的结构,速度是⼗分的块;但是在⼤数据背景下,因为b列所有的值都会形成以key值,极有可能发⽣OOM解决⽅案:所以,可以考虑使⽤Group By 或者 ROW_NUMBER() OVER(PARTITION BY col)⽅式代替COUNT(DISTINCT col)02.⼩⽂件会造成资源的多度占⽤以及影响查询效率原因:众所周知,⼩⽂件在HDFS中存储本⾝就会占⽤过多的内存空间,那么对于MR查询过程中过多的⼩⽂件⼜会造成启动过多的Mapper Task, 每个Mapper都是⼀个后台线程,会占⽤JVM的空间在Hive中,动态分区会造成在插⼊数据过程中,⽣成过多零碎的⼩⽂件(请回忆昨天讲的动态分区的逻辑)不合理的Reducer Task数量的设置也会造成⼩⽂件的⽣成,因为最终Reducer是将数据落地到HDFS中的解决⽅案:在数据源头HDFS中控制⼩⽂件产⽣的个数,⽐如采⽤Sequencefile作为表存储格式,不要⽤textfile,在⼀定程度上可以减少⼩⽂件(常见于在流计算的时候采⽤Sequencefile格式进⾏存储)减少reduce的数量(可以使⽤参数进⾏控制)慎重使⽤动态分区,最好在分区中指定分区字段的val值最好数据的校验⼯作,⽐如通过脚本⽅式检测hive表的⽂件数量,并进⾏⽂件合并合并多个⽂件数据到⼀个⽂件中,重新构建表03.请慎重使⽤SELECT *原因:在⼤数据量多字段的数据表中,如果使⽤ SELECT * ⽅式去查询数据,会造成很多⽆效数据的处理,会占⽤程序资源,造成资源的浪费解决⽅案:在查询数据表时,指定所需的待查字段名,⽽⾮使⽤ * 号04.不要在表关联后⾯加WHERE条件原因:⽐如以下语句:SELECT * FROM stu as tLEFT JOIN course as t1ON t.id=t2.stu_idWHERE t.age=18;请思考上⾯语句是否具有优化的空间?如何优化?解决⽅案:采⽤谓词下推的技术,提早进⾏过滤有可能减少必须在数据库分区之间传递的数据量谓词下推的解释:所谓谓词下推就是通过嵌套的⽅式,将底层查询语句尽量推到数据底层去过滤,这样在上层应⽤中就可以使⽤更少的数据量来查询,这种SQL技巧被称为谓词下推(Predicate pushdown)那么上⾯语句就可以采⽤这种⽅式来处理:SELECT * FROM (SELECT * FROM stu WHERE age=18) as tLEFT JOIN course AS t1on t.id=t1.stu_id05.处理掉字段中带有空值的数据原因:⼀个表内有许多空值时会导致MapReduce过程中,空成为⼀个key值,对应的会有⼤量的value值, ⽽⼀个key的value会⼀起到达reduce造成内存不⾜解决⽅式:1、在查询的时候,过滤掉所有为NULL的数据,⽐如:create table res_tbl asselect n.* from(select * from res where id is not null ) nleft join org_tbl o on n.id = o.id;2、查询出空值并给其赋上随机数,避免了key值为空(数据倾斜中常⽤的⼀种技巧)create table res_tbl asselect n.* from res nfull join org_tbl o oncase when n.id is null then concat('hive', rand()) else n.id end = o.id;06.设置并⾏执⾏任务数通过设置参数 hive.exec.parallel 值为 true,就可以开启并发执⾏。
深入理解Hive查询优化和性能调优
深入理解Hive查询优化和性能调优在大数据处理领域,Hive是一种广泛应用的数据仓库基础设施,因其在分布式环境下进行数据查询和分析的高效性而备受推崇。
然而,在使用Hive进行查询时,我们经常需要进行优化和性能调优,以提升查询的执行效率。
本文将深入探讨Hive查询优化和性能调优的相关内容。
首先,我们需要理解查询优化的基本概念。
查询优化旨在通过改变查询的物理执行计划,提升查询性能。
Hive使用了一种叫做“解耦”的方式来完成查询优化。
具体而言,Hive将查询语句转化为一系列的MapReduce作业,并通过对这些作业的优化来提高查询性能。
在进行Hive查询优化时,我们可以从多个方面着手。
首先,我们可以考虑对查询进行重写或者改进。
在Hive中,我们可以使用关键字“EXPLAIN”来查看查询的执行计划,并结合查询的特点进行优化。
例如,如果查询中包含子查询,我们可以将其改写为Join操作,以减少数据的扫描和传输量。
此外,我们还可以使用合适的分区策略和分桶技术,将数据进行划分和排序,以提高查询的效率。
其次,我们可以利用索引来改善查询性能。
Hive支持使用索引来加速查询操作。
通过建立适当的索引,我们可以减少查询数据的数量,从而提高查询速度。
在Hive中,我们可以使用CREATE INDEX语句来创建索引,并使用USE INDEX语句来指定使用哪个索引。
需要注意的是,使用索引会增加数据的存储空间,因此需要权衡存储成本和查询性能之间的关系。
另外,我们还可以通过适当配置Hive的参数来提高查询性能。
Hive提供了一系列的配置参数,可以根据查询的特点和需求进行调整。
例如,我们可以通过设置hive.exec.parallel参数来控制查询的并行度,从而提高查询的执行效率。
此外,我们还可以调整内存相关的参数,如hive.execution.engine,hive.optimize.auto,来优化查询的内存使用和执行计划生成。
大数据性能优化之Hive优化
Hive性能优化1.概述本人在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。
下面开始本篇文章的优化介绍。
2.介绍首先,我们来看看hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。
jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。
原因是map reduce作业初始化的时间是比较长的。
sum,count,max,min 等UDAF,不怕数据倾斜问题,hadoop 在map 端的汇总合并优化,使数据倾斜不成问题。
count(distinct ),在数据量大的情况下,效率较低,如果是多count(distinct )效率更低,因为count(distinct)是按group by 字段分组,按distinct字段排序,一般这种分布方式是很倾斜的。
举个例子:比如男uv 女uv,像淘宝一天30亿的pv,如果按性别分组,分配2个reduce, 每个reduce处理15亿数据。
面对这些问题,我们能有哪些有效的优化手段呢?下面列出一些在工作有效可行的优化手段:好的模型设计事半功倍。
解决数据倾斜问题。
减少job数。
设置合理的map reduce的task数,能有效提升性能。
(比如,10w+级别的计算,用160个reduce,那是相当的浪费,1个足够)。
了解数据分布,自己动手解决数据倾斜问题是个不错的选择。
set hive.groupby.skewindata=true这是通用的算法优化,但算法优化有时不能适应特定业务背景,开发人员了解业务,了解数据,可以通过业务逻辑精确有效的解决数据倾斜问题。
数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。
对小文件进行合并,是行至有效的提高调度效率的方法,假如所有的作业设置合理的文件数,对云梯的整体调度效率也会产生积极的正向影响。
优化Hive查询性能的实用技巧与策略
优化Hive查询性能的实用技巧与策略Hive是一种基于Hadoop的数据仓库解决方案,它提供了SQL方式的查询接口,方便用户进行大规模数据处理和分析。
然而,随着数据规模的增长,Hive查询性能可能会受到限制。
为了解决这个问题,本文将介绍一些优化Hive查询性能的实用技巧与策略。
1. 数据分区和分桶在Hive中,数据分区和分桶是提高查询性能的重要手段。
数据分区将表按照特定的列进行划分,使得查询只需要在特定分区上进行,而不是全表扫描。
数据分桶进一步将分区内的数据进行划分,可以减少每个分区内的数据量,加快查询速度。
2. 合理使用索引虽然Hive并不直接支持索引,但可以通过基于HBase或者Apache Phoenix等存储引擎来实现索引功能。
对于经常被查询的列,可以考虑在存储引擎中建立索引,以加快查询速度。
3. 使用分布式缓存Hive提供了分布式缓存功能,可以将一些常用的小数据集缓存在集群中的每个节点上,避免重复加载大量数据。
这样可以减少网络传输和数据加载时间,提高查询性能。
4. 优化数据倾斜数据倾斜是指在表的某个列上,某些值的分布极不均匀,导致查询任务在某些节点上运行时间过长。
解决数据倾斜问题的方法包括增加分区、使用随机前缀和调整reduce端的负载均衡等。
5. 优化查询语句合理设计查询语句是提高Hive查询性能的关键。
首先,避免在查询条件中使用非等值的操作,例如NOT、<、>等,这些操作会增加查询的计算复杂度。
其次,尽量使用Join语句替代子查询,因为子查询需要额外的计算和数据传输。
最后,使用物化视图可以将查询的结果缓存在缓存中,避免重复计算。
6. 调整Hive的配置参数Hive的性能也受到一些配置参数的影响,根据具体的需求可以适当调整这些参数来提高性能。
例如,可以通过调整mapred.reduce.tasks参数来增加reduce端的并发度,从而提高查询的并行度和速度。
7. 使用压缩和序列化Hive支持多种压缩和序列化格式,可以通过设置相关参数来选择适合的压缩算法和序列化格式。
大数据开发实战:Hive优化实战1-数据倾斜及join无关的优化
⼤数据开发实战:Hive优化实战1-数据倾斜及join⽆关的优化 Hive SQL的各种优化⽅法基本都和数据倾斜密切相关。
Hive的优化分为join相关的优化和join⽆关的优化,从项⽬的实际来说,join相关的优化占了Hive优化的⼤部分内容,⽽join相关的优化⼜分为mapjoin可以解决的join优化和mapjoin⽆法解决的join优化。
1、数据倾斜 倾斜来⾃于统计学⾥的偏态分布。
所谓偏态分布,即统计数据峰值与平均值不相等的频率分布,根据峰值⼩于或⼤于平均值可分为正偏函数和负偏函数,其偏离的程度可⽤偏态系数刻画。
对应分布式数据处理来说,希望数据平均分布到每个处理节点。
如果以每个处理节点为X轴,每个节点处理的数据为Y轴,我希望的柱状图如下: 但是实际上由于业务数据本⾝的问题或者分布算法的问题,每个节点分配到的数据量很可能是下⾯的样式: 更极端情况出现下⾯的样式: 也就是说,只有待分到最多数据的节点处理完数据,整个数据处理任务才算完成,此时分布式的意义⼤⼤折扣了。
实际上,即使每个节点分配到的数据量⼤致相同,数据仍然可能倾斜, ⽐如考虑统计词频的极端问题,如果某个节点分配的词都是⼀个词,那么显然此节点需要的耗时将很长。
Hive的优化正是采⽤各种措施和⽅法对上述场景的倾斜问题进⾏优化和处理。
2、Hive优化 在实际的Hive SQL开发的过程中,Hive SQL 性能的问题上实际上只有⼀⼩部分和数据倾斜有关,很多时候,Hive SQL运⾏慢是由于开发⼈员对于使⽤的数据了解不够以及⼀些不良的习惯引起的。
开发⼈员需要确定以下⼏点: 1、需要计算的指标真的需要从数据仓库公共明细层来⾃⾏汇总吗?是不是数据公共层团队开发公共汇总层已经可以满⾜⾃⼰的需求?对应⼤众的、KPI相关的指标等通常设计良好的数据仓库公共层 肯定已经包含了,直接使⽤即可。
2、真的需要扫描那么多分区吗,⽐如对于销售事务明细表来说,扫描⼀年的分区和扫描⼀周的分区所带来的计算、IO开销完全是两个数量级,所耗费时间肯定是不同的,所以开发⼈员要仔细考虑因为需求, 尽量不浪费计算和存储资源。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hive性能优化1.概述本人在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。
下面开始本篇文章的优化介绍。
2.介绍首先,我们来看看hadoop的计算框架特性,在此特性下会衍生哪些问题?•数据量大不是问题,数据倾斜是个问题。
•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。
原因是map reduce作业初始化的时间是比较长的。
•sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map 端的汇总合并优化,使数据倾斜不成问题。
•count(distinct ),在数据量大的情况下,效率较低,如果是多count(distinct )效率更低,因为count(distinct)是按group by 字段分组,按distinct字段排序,一般这种分布方式是很倾斜的。
举个例子:比如男uv,女uv,像淘宝一天30亿的pv,如果按性别分组,分配2个reduce,每个reduce处理15亿数据。
面对这些问题,我们能有哪些有效的优化手段呢?下面列出一些在工作有效可行的优化手段:•好的模型设计事半功倍。
•解决数据倾斜问题。
•减少job数。
•设置合理的map reduce的task数,能有效提升性能。
(比如,10w+级别的计算,用160个reduce,那是相当的浪费,1个足够)。
•了解数据分布,自己动手解决数据倾斜问题是个不错的选择。
set hive.groupby.skewindata=true;这是通用的算法优化,但算法优化有时不能适应特定业务背景,开发人员了解业务,了解数据,可以通过业务逻辑精确有效的解决数据倾斜问题。
•数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。
•对小文件进行合并,是行至有效的提高调度效率的方法,假如所有的作业设置合理的文件数,对云梯的整体调度效率也会产生积极的正向影响。
•优化时把握整体,单个作业最优不如整体最优。
而接下来,我们心中应该会有一些疑问,影响性能的根源是什么?3.性能低下的根源hive性能优化时,把HiveQL当做M/R程序来读,即从M/R的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面。
RAC(Real Application Cluster)真正应用集群就像一辆机动灵活的小货车,响应快;Hadoop就像吞吐量巨大的轮船,启动开销大,如果每次只做小数量的输入输出,利用率将会很低。
所以用好Hadoop的首要任务是增大每次任务所搭载的数据量。
Hadoop的核心能力是parition和sort,因而这也是优化的根本。
观察Hadoop处理数据的过程,有几个显著的特征:•数据的大规模并不是负载重点,造成运行压力过大是因为运行数据的倾斜。
•jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联对此汇总,产生几十个jobs,将会需要30分钟以上的时间且大部分时间被用于作业分配,初始化和数据输出。
M/R作业初始化的时间是比较耗时间资源的一个部分。
•在使用SUM,COUNT,MAX,MIN等UDAF函数时,不怕数据倾斜问题,Hadoop在Map端的汇总合并优化过,使数据倾斜不成问题。
•COUNT(DISTINCT)在数据量大的情况下,效率较低,如果多COUNT(DISTINCT)效率更低,因为COUNT(DISTINCT)是按GROUP BY字段分组,按DISTINCT字段排序,一般这种分布式方式是很倾斜的;比如:男UV,女UV,淘宝一天30亿的PV,如果按性别分组,分配2个reduce,每个reduce处理15亿数据。
•数据倾斜是导致效率大幅降低的主要原因,可以采用多一次Map/Reduce 的方法,避免倾斜。
最后得出的结论是:避实就虚,用job 数的增加,输入量的增加,占用更多存储空间,充分利用空闲CPU 等各种方法,分解数据倾斜造成的负担。
4.配置角度优化我们知道了性能低下的根源,同样,我们也可以从Hive的配置解读去优化。
Hive系统内部已针对不同的查询预设定了优化方法,用户可以通过调整配置进行控制,以下举例介绍部分优化的策略以及优化控制选项。
4.1列裁剪Hive 在读数据的时候,可以只读取查询中所需要用到的列,而忽略其它列。
例如,若有以下查询:SELECT a,b FROM q WHERE e<10;在实施此项查询中,Q 表有5 列(a,b,c,d,e),Hive 只读取查询逻辑中真实需要的3 列a、b、e,而忽略列c,d;这样做节省了读取开销,中间表存储开销和数据整合开销。
裁剪所对应的参数项为:hive.optimize.cp=true(默认值为真)4.2分区裁剪可以在查询的过程中减少不必要的分区。
例如,若有以下查询:SELECT*FROM (SELECTT a1,COUNT(1) FROM T GROUPBY a1) subq WHERE subq.prtn=100; #(多余分区)SELECT*FROM T1 JOIN (SELECT*FROM T2) subq ON (T1.a1=subq.a2) WHERE subq.prtn=100;查询语句若将“subq.prtn=100”条件放入子查询中更为高效,可以减少读入的分区数目。
Hive 自动执行这种裁剪优化。
分区参数为:hive.optimize.pruner=true(默认值为真)4.3JOIN操作在编写带有join 操作的代码语句时,应该将条目少的表/子查询放在Join 操作符的左边。
因为在Reduce 阶段,位于Join 操作符左边的表的内容会被加载进内存,载入条目较少的表可以有效减少OOM (out of memory)即内存溢出。
所以对于同一个key 来说,对应的value 值小的放前,大的放后,这便是“小表放前”原则。
若一条语句中有多个Join,依据Join 的条件相同与否,有不同的处理方法。
4.3.1JOIN原则在使用写有Join 操作的查询语句时有一条原则:应该将条目少的表/子查询放在Join 操作符的左边。
原因是在Join 操作的Reduce 阶段,位于Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生OOM 错误的几率。
对于一条语句中有多个Join 的情况,如果Join 的条件相同,比如查询:INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROMpage_view p JOINuser u ON (erid = erid) JOIN newuser x ON(erid = erid);•如果Join 的key 相同,不管有多少个表,都会则会合并为一个Map-Reduce•一个Map-Reduce 任务,而不是‘n’ 个•在做OUTER JOIN 的时候也是一样如果Join 的条件不相同,比如:INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROMpage_view p JOINuser u ON (erid = erid) JOIN newuser x on (u.age = x.age);Map-Reduce 的任务数目和Join 操作的数目是对应的,上述查询和以下查询是等价的:INSERT OVERWRITE TABLE tmptable SELECT*FROM page_view pJOINuser u ON (erid = erid); INSERT OVERWRITE TABLE pv_users SELECT x.pageid, x.age FROM tmptable x JOIN newuser y ON (x.age =y.age);4.4MAP JOIN操作Join 操作在Map 阶段完成,不再需要Reduce,前提条件是需要的数据在Map 的过程中可以访问到。
比如查询:INSERT OVERWRITE TABLE pv_users SELECT/*+ MAPJOIN(pv) */pv.pageid, u.age FROM page_view pv JOINuser u ON (erid = erid);可以在Map 阶段完成Join,如图所示:相关的参数为:•hive.join.emit.interval = 1000•hive.mapjoin.size.key = 10000•hive.mapjoin.cache.numrows = 100004.5GROUP BY操作进行GROUP BY操作时需要注意一下几点:•Map端部分聚合事实上并不是所有的聚合操作都需要在reduce部分进行,很多聚合操作都可以先在Map端进行部分聚合,然后reduce端得出最终结果。
这里需要修改的参数为:hive.map.aggr=true(用于设定是否在map 端进行聚合,默认值为真)hive.groupby.mapaggr.checkinterval=100000(用于设定map 端进行聚合操作的条目数)•有数据倾斜时进行负载均衡此处需要设定hive.groupby.skewindata,当选项设定为true 是,生成的查询计划有两个MapReduce 任务。
在第一个MapReduce 中,map 的输出结果集合会随机分布到reduce 中,每个reduce 做部分聚合操作,并输出结果。
这样处理的结果是,相同的Group By Key 有可能分发到不同的reduce 中,从而达到负载均衡的目的;第二个MapReduce 任务再根据预处理的数据结果按照Group By Key 分布到reduce 中(这个过程可以保证相同的Group By Key 分布到同一个reduce 中),最后完成最终的聚合操作。
4.6合并小文件我们知道文件数目小,容易在文件存储端造成瓶颈,给HDFS 带来压力,影响处理效率。
对此,可以通过合并Map和Reduce的结果文件来消除这样的影响。
用于设置合并属性的参数有:•是否合并Map输出文件:hive.merge.mapfiles=true(默认值为真)•是否合并Reduce 端输出文件:hive.merge.mapredfiles=false(默认值为假)•合并文件的大小:hive.merge.size.per.task=256*1000*1000(默认值为256000000)5.程序角度优化5.1熟练使用SQL提高查询熟练地使用SQL,能写出高效率的查询语句。