首页 / 更多教程 / (转)Hive SQL的编译过程

(转)Hive SQL的编译过程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了(转)Hive SQL的编译过程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7932字，纯文字阅读大概需要12分钟。

内容图文

作用

② SimpleFetchOptimizer

优化没有GroupBy表达式的聚合查询

② MapJoinProcessor

MapJoin，需要SQL中提供hint，0.11版本已不用

② BucketMapJoinOptimizer

BucketMapJoin

② GroupByOptimizer

Map端聚合

① ReduceSinkDeDuplication

合并线性的OperatorTree中partition/sort key相同的reduce

① PredicatePushDown

谓词前置

① CorrelationOptimizer

利用查询中的相关性，合并有相关性的Job，HIVE-2206

ColumnPruner

字段剪枝

表格中①的优化器均是一个Job干尽可能多的事情/合并。②的都是减少shuffle数据量，甚至不做Reduce。

CorrelationOptimizer优化器非常复杂，都能利用查询中的相关性，合并有相关性的Job，参考 Hive Correlation Optimizer

对于样例SQL，有两个优化器对其进行优化。下面分别介绍这两个优化器的作用，并补充一个优化器ReduceSinkDeDuplication的作用

PredicatePushDown优化器

断言判断提前优化器将OperatorTree中的FilterOperator提前到TableScanOperator之后

(转)Hive SQL的编译过程 - 文章图片

NonBlockingOpDeDupProc优化器

NonBlockingOpDeDupProc优化器合并SEL-SEL 或者 FIL-FIL 为一个Operator

(转)Hive SQL的编译过程 - 文章图片

ReduceSinkDeDuplication优化器

ReduceSinkDeDuplication可以合并线性相连的两个RS。实际上CorrelationOptimizer是ReduceSinkDeDuplication的超集，能合并线性和非线性的操作RS，但是Hive先实现的ReduceSinkDeDuplication

譬如下面这条SQL语句

from (select key, value from src group by key, value) s select s.key group by s.key;

经过前面几个阶段之后，会生成如下的OperatorTree，两个Tree是相连的，这里没有画到一起

(转)Hive SQL的编译过程 - 文章图片

这时候遍历OperatorTree后能发现前前后两个RS输出的Key值和PartitionKey如下

	Key	PartitionKey
childRS	key	key
parentRS	key,value	key,value

ReduceSinkDeDuplication优化器检测到：1. pRS Key完全包含cRS Key，且排序顺序一致；2. pRS PartitionKey完全包含cRS PartitionKey。符合优化条件，会对执行计划进行优化。

ReduceSinkDeDuplication将childRS和parentheRS与childRS之间的Operator删掉，保留的RS的Key为key,value字段，PartitionKey为key字段。合并后的OperatorTree如下：

(转)Hive SQL的编译过程 - 文章图片

Phase5 OperatorTree生成MapReduce Job的过程

OperatorTree转化为MapReduce Job的过程分为下面几个阶段

对输出表生成MoveTask
从OperatorTree的其中一个根节点向下深度优先遍历
ReduceSinkOperator标示Map/Reduce的界限，多个Job间的界限
遍历其他根节点，遇过碰到JoinOperator合并MapReduceTask
生成StatTask更新元数据
剪断Map与Reduce间的Operator的关系

对输出表生成MoveTask

由上一步OperatorTree只生成了一个FileSinkOperator，直接生成一个MoveTask，完成将最终生成的HDFS临时文件移动到目标表目录下

MoveTask[Stage-0]
Move Operator

开始遍历

将OperatorTree中的所有根节点保存在一个toWalk的数组中，循环取出数组中的元素（省略QB1，未画出）

(转)Hive SQL的编译过程 - 文章图片

取出最后一个元素TS[p]放入栈 opStack{TS[p]}中

Rule #1 TS% 生成MapReduceTask对象，确定MapWork

发现栈中的元素符合下面规则R1（这里用python代码简单表示）

"".join([t + "%" for t in opStack]) == "TS%"

生成一个MapReduceTask[Stage-1]对象，MapReduceTask[Stage-1]对象的MapWork属性保存Operator根节点的引用。由于OperatorTree之间之间的Parent Child关系，这个时候MapReduceTask[Stage-1]包含了以TS[p]为根的所有Operator

(转)Hive SQL的编译过程 - 文章图片

Rule #2 TS%.*RS% 确定ReduceWork

继续遍历TS[p]的子Operator，将子Operator存入栈opStack中
当第一个RS进栈后，即栈opStack = {TS[p], FIL[18], RS[4]}时，就会满足下面的规则R2

"".join([t + "%" for t in opStack]) == "TS%.*RS%"

这时候在MapReduceTask[Stage-1]对象的ReduceWork属性保存JOIN[5]的引用

(转)Hive SQL的编译过程 - 文章图片

Rule #3 RS%.*RS% 生成新MapReduceTask对象，切分MapReduceTask

继续遍历JOIN[5]的子Operator，将子Operator存入栈opStack中

当第二个RS放入栈时，即当栈opStack = {TS[p], FIL[18], RS[4], JOIN[5], RS[6]}时，就会满足下面的规则R3

"".join([t + "%" for t in opStack]) == “RS%.*RS%” //循环遍历opStack的每一个后缀数组

这时候创建一个新的MapReduceTask[Stage-2]对象，将OperatorTree从JOIN[5]和RS[6]之间剪开，并为JOIN[5]生成一个子OperatorFS[19]，RS[6]生成一个TS[20]，MapReduceTask[Stage-2]对象的MapWork属性保存TS[20]的引用。

新生成的FS[19]将中间数据落地，存储在HDFS临时文件中。

(转)Hive SQL的编译过程 - 文章图片

继续遍历RS[6]的子Operator，将子Operator存入栈opStack中

当opStack = {TS[p], FIL[18], RS[4], JOIN[5], RS[6], JOIN[8], SEL[10], GBY[12], RS[13]}时，又会满足R3规则

同理生成MapReduceTask[Stage-3]对象，并切开 Stage-2 和 Stage-3 的OperatorTree

(转)Hive SQL的编译过程 - 文章图片

R4 FS% 连接MapReduceTask与MoveTask

最终将所有子Operator存入栈中之后，opStack = {TS[p], FIL[18], RS[4], JOIN[5], RS[6], JOIN[8], SEL[10], GBY[12], RS[13], GBY[14], SEL[15], FS[17]}满足规则R4

"".join([t + "%" for t in opStack]) == “FS%”

这时候将MoveTask与MapReduceTask[Stage-3]连接起来，并生成一个StatsTask，修改表的元信息

(转)Hive SQL的编译过程 - 文章图片

合并Stage

此时并没有结束，还有两个根节点没有遍历。

将opStack栈清空，将toWalk的第二个元素加入栈。会发现opStack = {TS[du]}继续满足R1 TS%，生成MapReduceTask[Stage-5]

(转)Hive SQL的编译过程 - 文章图片

继续从TS[du]向下遍历，当opStack={TS[du], RS[7]}时，满足规则R2 TS%.*RS%

此时将JOIN[8]保存为MapReduceTask[Stage-5]的ReduceWork时，发现在一个Map对象保存的Operator与MapReduceWork对象关系的Map<Operator, MapReduceWork>对象中发现，JOIN[8]已经存在。此时将MapReduceTask[Stage-2]和MapReduceTask[Stage-5]合并为一个MapReduceTask

(转)Hive SQL的编译过程 - 文章图片

同理从最后一个根节点TS[c]开始遍历，也会对MapReduceTask进行合并

(转)Hive SQL的编译过程 - 文章图片

切分Map Reduce阶段

最后一个阶段，将MapWork和ReduceWork中的OperatorTree以RS为界限剪开

(转)Hive SQL的编译过程 - 文章图片

OperatorTree生成MapReduceTask全貌

最终共生成3个MapReduceTask，如下图

(转)Hive SQL的编译过程 - 文章图片

Phase6 物理层优化器

这里不详细介绍每个优化器的原理，单独介绍一下MapJoin的优化器

名称	作用
Vectorizer	HIVE-4160，将在0.13中发布
SortMergeJoinResolver	与bucket配合，类似于归并排序
SamplingOptimizer	并行order by优化器，在0.12中发布
CommonJoinResolver + MapJoinResolver	MapJoin优化器

MapJoin原理

(转)Hive SQL的编译过程 - 文章图片

MapJoin简单说就是在Map阶段将小表读入内存，顺序扫描大表完成Join。

上图是Hive MapJoin的原理图，出自Facebook工程师Liyin Tang的一篇介绍Join优化的slice，从图中可以看出MapJoin分为两个阶段：

通过MapReduce Local Task，将小表读入内存，生成HashTableFiles上传至Distributed Cache中，这里会对HashTableFiles进行压缩。
MapReduce Job在Map阶段，每个Mapper从Distributed Cache读取HashTableFiles到内存中，顺序扫描大表，在Map阶段直接进行Join，将数据传递给下一个MapReduce任务。

(转)Hive SQL的编译过程 - 文章图片

如果Join的两张表一张表是临时表，就会生成一个ConditionalTask，在运行期间判断是否使用MapJoin

CommonJoinResolver优化器

CommonJoinResolver优化器就是将CommonJoin转化为MapJoin，转化过程如下

深度优先遍历Task Tree
找到JoinOperator，判断左右表数据量大小
对与小表 + 大表 => MapJoinTask，对于小/大表 + 中间表 => ConditionalTask

遍历上一个阶段生成的MapReduce任务，发现MapReduceTask[Stage-2] JOIN[8]中有一张表为临时表，先对Stage-2进行深度拷贝（由于需要保留原始执行计划为Backup Plan，所以这里将执行计划拷贝了一份），生成一个MapJoinOperator替代JoinOperator，然后生成一个MapReduceLocalWork读取小表生成HashTableFiles上传至DistributedCache中。

(转)Hive SQL的编译过程 - 文章图片

MapReduceTask经过变换后的执行计划如下图所示

(转)Hive SQL的编译过程 - 文章图片

MapJoinResolver优化器

MapJoinResolver优化器遍历Task Tree，将所有有local work的MapReduceTask拆成两个Task

(转)Hive SQL的编译过程 - 文章图片

最终MapJoinResolver处理完之后，执行计划如下图所示

(转)Hive SQL的编译过程 - 文章图片

Hive SQL编译过程的设计

从上述整个SQL编译的过程，可以看出编译过程的设计有几个优点值得学习和借鉴

使用Antlr开源软件定义语法规则，大大简化了词法和语法的编译解析过程，仅仅需要维护一份语法文件即可。
整体思路很清晰，分阶段的设计使整个编译过程代码容易维护，使得后续各种优化器方便的以可插拔的方式开关，譬如Hive 0.13最新的特性Vectorization和对Tez引擎的支持都是可插拔的。
每个Operator只完成单一的功能，简化了整个MapReduce程序。

社区发展方向

Hive依然在迅速的发展中，为了提升Hive的性能，hortonworks公司主导的Stinger计划提出了一系列对Hive的改进，比较重要的改进有：

Vectorization - 使Hive从单行单行处理数据改为批量处理方式，大大提升了指令流水线和缓存的利用率
Hive on Tez - 将Hive底层的MapReduce计算框架替换为Tez计算框架。Tez不仅可以支持多Reduce阶段的任务MRR，还可以一次性提交执行计划，因而能更好的分配资源。
Cost Based Optimizer - 使Hive能够自动选择最优的Join顺序，提高查询速度
Implement insert, update, and delete in Hive with full ACID support - 支持表按主键的增量更新

我们也将跟进社区的发展，结合自身的业务需要，提升Hive型ETL流程的性能

参考

Antlr: http://www.antlr.org/
Wiki Antlr介绍: http://en.wikipedia.org/wiki/ANTLR
Hive Wiki: https://cwiki.apache.org/confluence/display/Hive/Home
HiveSQL编译过程: http://www.slideshare.net/recruitcojp/internal-hive
Join Optimization in Hive: Join Strategies in Hive from the 2011 Hadoop Summit (Liyin Tang, Namit Jain)
Hive Design Docs: https://cwiki.apache.org/confluence/display/Hive/DesignDocs

(转)Hive SQL的编译过程

标签：

本文系统来源：http://www.cnblogs.com/thinkpad/p/4690648.html

内容总结

以上是互联网集市为您收集整理的(转)Hive SQL的编译过程全部内容，希望文章能够帮你解决(转)Hive SQL的编译过程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/453717.html

来源：【匿名】

【上一篇】数据库索引学习【下一篇】关于IE的RegExp.exec的问题

更多 ►

【(转)Hive SQL的编译过程】教程文章相关的互联网学习教程文章

hive优化：大表关联数据倾斜问题

A表：单副本14.9G,1002354875条数据 B表：单副本1.5G，40102307条数据两个表通过partition_path字符串去full outer join关联，没有优化前执行要88分钟第一种优化：在sql结尾使用distribute by rand() ，reduce个数88个，但是还是有数据倾斜 select * from A full outer join B on a.partition_path =b.join_path distribute by rand() 第二种优化：经过日志查看数据倾斜的key是 tmp.db，于是思考将这个数据不进行join关联...

3、Hive-sql优化，数据倾斜处理【图】

set mapred.reduce.tasks=20;#在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true;#增加同一个sql允许并行任务的最大线程数 set hive.exec.parallel.thread.number=8;#设置reducer内存大小 set mapreduce.reduce.memory.mb=4096; set mapreduce.reduce.java.opts=-Xmx3584m; -- -Xmx 设置堆的最大空间大小。#mapjoin相关设置，小表加载到内存，无reduceset hive.mapjoin.smalltable.filesize=2500...

kafka数据定时导入hive便于后续做数据清洗【代码】

文章目录问题背景解决过程注意事项问题背景kafka数据定时导入到hive，后续做数据清洗： flume,confulent都需要单独部署服务，比较繁琐。调查其他可选方案，参考以下文章：参考资料综合比较，camus 简单，比较方便接入。主要分两步： 1、采用mapreduce过程处理数据从kafka导入hadoop 2、hadoop数据接入hive管理。解决过程1、下载源码，本地构建jar包。参考文章camus源码 2、查看camus.properties配置文件，支持的功能选项期间需要...

DBeaver之连接hive初体验【图】

工作中第一次和搞大数据的同事配合，他让我用hue看hive数据，，由于本人英语菜逼，hue全英文的页面看不习惯，遂找了一个DBeaver工具，我也是第一次使用这个工具，好像挺可以的，可以连mysql，oracle，hive等。。使用的过程中遇到一些坑，所以就记一下，以便之后回忆。报错信息： Could not establish connection to jdbc:hive2://172.16.250.240:10000/test: Required field ‘client_protocol‘ is unset! Struct:TOpenSessionR...

hive查询分区元数据，PARTITIONED BY【代码】

-- 查询具体表的分区目录 select t1.NAME, t2.TBL_NAME,t4.PART_NAME, t3.LOCATION from DBS t1, TBLS t2 , SDS t3 ,PARTITIONSt4 where t1.DB_ID=t2.DB_IDand t4.SD_ID = t3.SD_ID AND t2.TBL_ID = t4.TBL_ID and t1.NAME` =‘数据库名‘AND t2.TBL_NAME like‘表名‘UNION-- 查询具体表的目录select t1.NAME, t2.TBL_NAME,‘null‘, t3.LOCATION from DBS t1, TBLS t2 , SDS t3 where t1.DB_ID=t2.DB_IDand t2.SD_ID = t3.SD_ID...

Hive编程指南下载 �【图】

下载地址: http://www.gqylpy.com/di/10《Hive编程指南.pdf》PDF高清完整版-下载复制这段内容后打开百度网盘手机App，操作更方便哦内容简介《Hive编程指南》是一本ApacheHive的编程指南，旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例，首先介绍如何在用户环境下安装和配置Hive，并对Hadoop和MapReduce进行详尽阐述，演示Hive如何在Hado...

hive regex insert join group cli

1.insert Insert时，from子句既可以放在select子句后，也可以放在insert子句前，下面两句是等价的 hive> FROM invites a INSERT OVERWRITE TABLE eventsSELECT a.bar, count(*) WHERE a.foo > 0 GROUP BY a.bar; hive> INSERT OVERWRITE TABLE events SELECTa.bar, count(*) FROM invites a WHERE a.foo > 0 GROUP BY a.bar; 2.导出文件到本地 INSERTOVERWRITE LOCAL DIRECTORY ‘/tmp/local_out‘ SELECT a.* FROM pokes a; 一个源...

hive源代码解析之一hive主函数入口【图】

hive其实做的就是解析一条sql然后形成到mapreduce任务，就是一个代码解释器。hive源代码本身就可以分为ql/metasotre/service/serde 这几块；其中对于Hive来说，ql是整个Hive最最核心的一个模块，Hive主要的功能都集中在这样一个模块中，即org.apache.hadoop.hive.ql.*，其中最重要的几个模块：parse：语法解析器和语义分析器，将SQL转化为执行计划。optimizer：优化器，包括执行计划Operator图的改写（逻辑优化）和Task图的改写...

hive优化总结

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum，co...

Hive 中 set 定义出来的变量以及 hive -d 设置的变量【代码】【图】

set自定义变量今天踩了一个坑：在hive的命令行操作中，用set 命令可以自定义出一个变量，但是在函数中使用时确调不出来，如图在查找原因时，这位大佬的博客https://www.cnblogs.com/superpang/p/4639145.html启发了我，会不会是命名空间的原因让函数调用时无法找到变量呢这次用带命名空间的方式重新定义了变量，然后再次调用函数，见证奇迹的时刻到了！这说明“在hive中使用set操作自定义变量时，hivevar:命名空间不是可选的...

Hive学习

这几天都在学习Hive，在安装方面花费了不少时间，主要问题集中在：1）创建数据库后创建表不成功，提示Specified key was too long; max key length is 767 bytes 长度的问题。因为用的不是案例的数据库，傻不拉几折腾了好些时间。2）总算创建表成功了，在删除表的时候又没反应了，也不知道是什么原因。可能也许大概或许是安装的mysql有问题，这是windows上面的mysql，之前没接触过mysql，甚至连安装都按BD文库弄的，也花不了那么多...

Hive sql常用函数

或者current_date 获取当前时间：from_unixtime(unix_timestamp()) -->返回格式：yyyy-MM-dd HH:mm:ss：current_timestamp() -->返回格式：yyyy-MM-dd HH:mm:ss.xxx 2.时间戳转为日期 from_unixtime(时间戳,string format=yyyy-MM-dd HH:mm:ss) //实际写出来不需要带string,只是表明格式 --时间戳为10位，H为24小时计数，h为12小时计数 --string format:默认标准格式为 yyyy-MM-dd HH:mm:ss --其他格式写法多种...

HIVE 的MAP/REDUCE

对于 JOIN 操作：Map：以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合以 JOIN 之后所关心的列作为 Value，当有多个列时，Value 是这些列的组合。在 Value 中还会包含表的 Tag 信息，用于标明此 Value 对应于哪个表。按照 Key 进行排序。Shuffle：根据 Key 的值进行 Hash，并将 Key/Value 对按照 Hash 值推至不同对 Reduce 中。Reduce： Reducer 根据 Key 值进行 Join 操作，并且通过 Tag 来识别不同的表中...

spark利用sparkSQL将数据写入hive两种通用方式实现及比较【代码】

1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成dataFrame，再将dataFrame写成缓存表，最后利用sparkSQL直接插入hive表中。这两种方式各有各自的优点。但大多数开发者更倾向于后者一次编码一步到位的方式。而对于利用sparkSQL...

Impala & Hive 使用复杂数据类型【代码】

1. 环境CDH 5.16.12. Hive 使用复杂数据类型2.1 数据格式1 zhangsan:man football,basketball 2 lisi:female sing,dance2.2 Hive 建表create table studentInfo(id int,info map<string,string> comment 'map<姓名，性别>',favorite array<string> comment 'array[football,basketball]' ) row format delimited fields terminated by '\t' --列分隔符 collection items terminated by ',' --array中各个...

首页 / 更多教程 / (转)Hive SQL的编译过程

(转)Hive SQL的编译过程

内容导读

内容图文

PredicatePushDown优化器

NonBlockingOpDeDupProc优化器

ReduceSinkDeDuplication优化器

Phase5 OperatorTree生成MapReduce Job的过程

对输出表生成MoveTask

开始遍历

Rule #1 TS% 生成MapReduceTask对象，确定MapWork

Rule #2 TS%.*RS% 确定ReduceWork

Rule #3 RS%.*RS% 生成新MapReduceTask对象，切分MapReduceTask

R4 FS% 连接MapReduceTask与MoveTask

合并Stage

切分Map Reduce阶段

OperatorTree生成MapReduceTask全貌

Phase6 物理层优化器

MapJoin原理

CommonJoinResolver优化器

MapJoinResolver优化器

Hive SQL编译过程的设计

社区发展方向

参考

内容总结

内容备注

内容手机端

【(转)Hive SQL的编译过程】教程文章相关的互联网学习教程文章

更多教程 - 最新教程

更多教程 - 最热教程