首页 / 更多教程 / Hive、Spark SQL、Impala比较

Hive、Spark SQL、Impala比较

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hive、Spark SQL、Impala比较，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8672字，纯文字阅读大概需要13分钟。

内容图文

Spark SQL简介
Spark SQL是Spark的一个处理结构化数据的程序模块。与其它基本的Spark RDD API不同，Spark SQL提供的接口包含更多关于数据和计算的结构信息，Spark SQL会利用这些额外信息执行优化。可以通过SQL和数据集API与Spark SQL交互，但无论使用何种语言或API向Spark SQL发出请求，其内部都使用相同的执行引擎，这种统一性方便开发者在不同的API间进行切换。
Spark SQL具有如下特性：

集成——将SQL查询与Spark程序无缝集成。Spark SQL可以将结构化数据作为Spark的RDD（Resilient Distributed Datasets，弹性分布式数据集）进行查询，并整合了Scala、Java、Python、R等语言的API。这种集成可以使开发者只需运行SQL查询就能完成复杂的分析算法。
统一数据访问——通过Schema-RDDs为高效处理结构化数据而提供的单一接口，Spark SQL可以从Hive表、parquet或JSON文件等多种数据源查询数据，也可以向这些数据源装载数据。
与Hive兼容——已有数据仓库上的Hive查询无需修改即可运行。Spark SQL复用Hive前端和元数据存储，与已存的Hive数据、查询和UDFs完全兼容。
标准的连接层——使用JDBC或ODBC连接。Spark SQL提供标准的JDBC、ODBC连接方式。
可扩展性——交互式查询与批处理查询使用相同的执行引擎。Spark SQL利用RDD模型提供容错和扩展性。

Spark SQL架构如下图所示。
Hive、Spark SQL、Impala比较 - 文章图片

此架构包括Language API、Schema RDD、Data Sources三层。

Language API——Spark SQL与多种语言兼容，并提供这些语言的API。
Schema RDD——Schema RDD是存放列Row对象的RDD，每个Row对象代表一行记录。Schema RDD还包含记录的结构信息（即数据字段），它可以利用结构信息高效地存储数据。Schema RDD支持SQL查询操作。
Data Sources——一般Spark的数据源是文本文件或Avro文件，而Spark SQL的数据源却有所不同。其数据源可能是Parquet文件、JSON文档、Hive表或Cassandra数据库。

2. Hive、Spark SQL、Impala比较
（1）功能
Hive：

是简化数据抽取、转换、装载的工具
提供一种机制，给不同格式的数据加上结构
可以直接访问HDFS上存储的文件，也可以访问HBase的数据
通过MapReduce执行查询
Hive定义了一种叫做HiveQL的简单的类SQL查询语言，用户只要熟悉SQL，就可以使用它查询数据。同时，HiveQL语言也允许熟悉MapReduce计算框架的程序员添加定制的mapper和reducer插件，执行该语言内建功能不支持的复杂分析。
用户可以定义自己的标量函数（UDF）、聚合函数（UDAF）和表函数（UDTF）
支持索引压缩和位图索引
支持文本、RCFile、HBase、ORC等多种文件格式或存储类型
使用RDBMS存储元数据，大大减少了查询执行时语义检查所需的时间
支持DEFLATE、BWT或snappy等算法操作Hadoop生态系统内存储的数据
大量内建的日期、数字、字符串、聚合、分析函数，并且支持UDF扩展内建函数。
HiveQL隐式转换成MapReduce或Spark作业

Spark SQL：

支持Parquet、Avro、Text、JSON、ORC等多种文件格式
支持存储在HDFS、HBase、Amazon S3上的数据操作
支持snappy、lzo、gzip等典型的Hadoop压缩编码方式
通过使用“shared secret”提供安全认证
支持Akka和HTTP协议的SSL加密
保存事件日志
支持UDF
支持并发查询和作业的内存分配管理（可以指定RDD只存内存中、或只存磁盘上、或内存和磁盘都存）
支持把数据缓存在内存中
支持嵌套结构

Impala：

支持Parquet、Avro、Text、RCFile、SequenceFile等多种文件格式
支持存储在HDFS、HBase、Amazon S3上的数据操作
支持多种压缩编码方式：Snappy（有效平衡压缩率和解压缩速度）、Gzip（最高压缩率的归档数据压缩）、Deflate（不支持文本文件）、Bzip2、LZO（只支持文本文件）
支持UDF和UDAF
自动以最有效的顺序进行表连接
允许定义查询的优先级排队策略
支持多用户并发查询
支持数据缓存
提供计算统计信息（COMPUTE STATS）
提供窗口函数（聚合 OVER PARTITION, RANK, LEAD, LAG, NTILE等等）以支持高级分析功能
支持使用磁盘进行连接和聚合，当操作使用的内存溢出时转为磁盘操作
允许在where子句中使用子查询
允许增量统计——只在新数据或改变的数据上执行统计计算
支持maps、structs、arrays上的复杂嵌套查询
可以使用impala插入或更新HBase

（2）架构
Hive：
构建在Hadoop之上，查询管理分布式存储上的大数据集的数据仓库组件。底层使用MapReduce计算框架，Hive查询被转化为MapReduce代码并执行。生产环境建议使用RDBMS存储元数据。支持JDBC、ODBC、CLI等连接方式。

Spark SQL：
底层使用Spark计算框架，提供有向无环图，比MapReduce更灵活。Spark SQL以Schema RDD为核心，模糊了RDD与关系表之间的界线。Schema RDD是一个由Row对象组成的RDD，附带包含每列数据类型的结构信息。Spark SQL复用Hive的元数据存储。支持JDBC、ODBC、CLI等连接方式，并提供多种语言的API。

Impala：
底层采用MPP技术，支持快速交互式SQL查询。与Hive共享元数据存储。Impalad是核心进程，负责接收查询请求并向多个数据节点分发任务。statestored进程负责监控所有Impalad进程，并向集群中的节点报告各个Impalad进程的状态。catalogd进程负责广播通知元数据的最新信息。

（3）场景
Hive：
适用场景：

周期性转换大量数据，例如：每天晚上导入OLTP数据并转换为星型模式；每小时批量转换数据等。
整合遗留的数据格式，例如：将CSV数据转换为Avro；将一个用户自定义的内部格式转换为Parquet等。

不适用场景：

商业智能，例如：与Tableau结合进行数据探查；与Micro Strategy一个出报表等。
交互式查询，例如：OLAP查询。

Spark SQL：
适用场景：

从Hive数据仓库中抽取部分数据，使用Spark进行分析。

不适用场景：

商业智能和交互式查询。

Impala：
适用场景：

秒级的响应时间
OLAP
交互式查询

不适用场景：

ETL
UDAF

3. Hive、SparkSQL、Impala性能对比
（1）cloudera公司2014年做的性能基准对比测试，原文链接：http://blog.cloudera.com/blog/2014/09/new-benchmarks-for-sql-on-hadoop-impala-1-4-widens-the-performance-gap/
先看一下测试结果：

对于单用户查询，Impala比其它方案最多快13倍，平均快6.7倍。
对于多用户查询，差距进一步拉大：Impala比其它方案最多快27.4倍，平均快18倍。

下面看看这个测试是怎么做的。
配置：
所有测试都运行在一个完全相同的21节点集群上，每个节点只配有64G内存。之所以内存不配大，就是为了消除人们对于Impala只有在非常大的内存上才有好性能的错误认识：

双物理CPU，每个12核，Intel Xeon CPU E5-2630L 0 at 2.00GHz
12个磁盘驱动器，每个磁盘932G，1个用作OS，其它用作HDFS
每节点64G内存

对比产品：

Impala 1.4.0
Hive-on-Tez 0.13
Spark SQL 1.1
Presto 0.74

查询：

21个节点上的数据量为15T
测试场景取自TPC-DS，一个开放的决策支持基准（包括交互式、报表、分析式查询）
由于除Impala外，其它引擎都没有基于成本的优化器，本测试使用的查询都使用SQL-92标准的连接
采用统一的Snappy压缩编码方式，各个引擎使用各自最优的文件格式，Impala和Spark SQL使用Parquet，Hive-on-Tez使用ORC，Presto使用RCFile。
对每种引擎多次运行和调优

结果：
单用户如下图所示。
Hive、Spark SQL、Impala比较 - 文章图片

多用户如下图所示。
Hive、Spark SQL、Impala比较 - 文章图片

查询吞吐率如下图所示。
Hive、Spark SQL、Impala比较 - 文章图片

Impala本身就是cloudera公司的主打产品，因此只听其一面之词未免有失偏颇，下面就再看一个SAS公司的测试。

（2）SAS2013年做的Impala和Hive的对比测试
硬件：

Dell M1000e server rack
10 Dell M610 blades
Juniper EX4500 10 GbE switch

刀片服务器配置

Intel Xeon X5667 3.07GHz processor
Dell PERC H700 Integrated RAID controller
Disk size: 543 GB
FreeBSD iSCSI Initiator driver
HP P2000 G3 iSCSI dual controller
Memory: 94.4 GB

软件：

Linux 2.6.32
Apache Hadoop 2.0.0
Apache Hive 0.10.0
Impala 1.0
Apache MapReduce 0.20.2

数据：
数据模型如下图所示。
Hive、Spark SQL、Impala比较 - 文章图片

各表的数据量如下图所示。
Hive、Spark SQL、Impala比较 - 文章图片

PAGE_CLICK_FLAT表使用Compressed Sequence文件格式，大小124.59 GB。
查询：
使用了以下5条查询语句
[sql] view plain copy Hive、Spark SQL、Impala比较 - 文章图片

-- What are the most visited top-level directories on the customer support website for a given week and year?
select top_directory, count(*) as unique_visits
from (select distinct visitor_id, split(requested_file, ‘[\\/]‘)[1] as top_directory
from page_click_flat
where domain_nm = ‘support.sas.com‘
and flash_enabled=‘1‘
and weekofyear(detail_tm) = 48
and year(detail_tm) = 2012
) directory_summary
group by top_directory
order by unique_visits;
-- What are the most visited pages that are referred from a Google search for a given month?
select domain_nm, requested_file, count(*) as unique_visitors, month
from (select distinct domain_nm, requested_file, visitor_id, month(detail_tm) as month
from page_click_flat
where domain_nm = ‘support.sas.com‘
and referrer_domain_nm = ‘www.google.com‘
) visits_pp_ph_summary
group by domain_nm, requested_file, month
order by domain_nm, requested_file, unique_visitors desc, month asc;
-- What are the most common search terms used on the customer support website for a given year?
select query_string_txt, count(*) as count
from page_click_flat
where query_string_txt <> ‘‘
and domain_nm=‘support.sas.com‘
and year(detail_tm) = ‘2012‘
group by query_string_txt
order by count desc;
-- What is the total number of visitors per page using the Safari browser?
select domain_nm, requested_file, count(*) as unique_visitors
from (select distinct domain_nm, requested_file, visitor_id
from page_click_flat
<span style="margin: 0px; padding: 0px; border: none; color: black; background-color: inhe 本文系统来源：https://www.cnblogs.com/diandianquanquan/p/13192809.html

内容总结

以上是互联网集市为您收集整理的Hive、Spark SQL、Impala比较全部内容，希望文章能够帮你解决Hive、Spark SQL、Impala比较所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/524842.html

来源：【匿名】

【上一篇】sql语句执行顺序【下一篇】关于IE的RegExp.exec的问题

更多 ►

【Hive、Spark SQL、Impala比较】教程文章相关的互联网学习教程文章

hive优化：大表关联数据倾斜问题

A表：单副本14.9G,1002354875条数据 B表：单副本1.5G，40102307条数据两个表通过partition_path字符串去full outer join关联，没有优化前执行要88分钟第一种优化：在sql结尾使用distribute by rand() ，reduce个数88个，但是还是有数据倾斜 select * from A full outer join B on a.partition_path =b.join_path distribute by rand() 第二种优化：经过日志查看数据倾斜的key是 tmp.db，于是思考将这个数据不进行join关联...

3、Hive-sql优化，数据倾斜处理【图】

set mapred.reduce.tasks=20;#在同一个sql中的不同的job是否可以同时运行,默认为false set hive.exec.parallel=true;#增加同一个sql允许并行任务的最大线程数 set hive.exec.parallel.thread.number=8;#设置reducer内存大小 set mapreduce.reduce.memory.mb=4096; set mapreduce.reduce.java.opts=-Xmx3584m; -- -Xmx 设置堆的最大空间大小。#mapjoin相关设置，小表加载到内存，无reduceset hive.mapjoin.smalltable.filesize=2500...

kafka数据定时导入hive便于后续做数据清洗【代码】

文章目录问题背景解决过程注意事项问题背景kafka数据定时导入到hive，后续做数据清洗： flume,confulent都需要单独部署服务，比较繁琐。调查其他可选方案，参考以下文章：参考资料综合比较，camus 简单，比较方便接入。主要分两步： 1、采用mapreduce过程处理数据从kafka导入hadoop 2、hadoop数据接入hive管理。解决过程1、下载源码，本地构建jar包。参考文章camus源码 2、查看camus.properties配置文件，支持的功能选项期间需要...

DBeaver之连接hive初体验【图】

工作中第一次和搞大数据的同事配合，他让我用hue看hive数据，，由于本人英语菜逼，hue全英文的页面看不习惯，遂找了一个DBeaver工具，我也是第一次使用这个工具，好像挺可以的，可以连mysql，oracle，hive等。。使用的过程中遇到一些坑，所以就记一下，以便之后回忆。报错信息： Could not establish connection to jdbc:hive2://172.16.250.240:10000/test: Required field ‘client_protocol‘ is unset! Struct:TOpenSessionR...

hive查询分区元数据，PARTITIONED BY【代码】

-- 查询具体表的分区目录 select t1.NAME, t2.TBL_NAME,t4.PART_NAME, t3.LOCATION from DBS t1, TBLS t2 , SDS t3 ,PARTITIONSt4 where t1.DB_ID=t2.DB_IDand t4.SD_ID = t3.SD_ID AND t2.TBL_ID = t4.TBL_ID and t1.NAME` =‘数据库名‘AND t2.TBL_NAME like‘表名‘UNION-- 查询具体表的目录select t1.NAME, t2.TBL_NAME,‘null‘, t3.LOCATION from DBS t1, TBLS t2 , SDS t3 where t1.DB_ID=t2.DB_IDand t2.SD_ID = t3.SD_ID...

Hive编程指南下载 �【图】

下载地址: http://www.gqylpy.com/di/10《Hive编程指南.pdf》PDF高清完整版-下载复制这段内容后打开百度网盘手机App，操作更方便哦内容简介《Hive编程指南》是一本ApacheHive的编程指南，旨在介绍如何使用Hive的SQL方法——HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。《Hive编程指南》通过大量的实例，首先介绍如何在用户环境下安装和配置Hive，并对Hadoop和MapReduce进行详尽阐述，演示Hive如何在Hado...

hive regex insert join group cli

1.insert Insert时，from子句既可以放在select子句后，也可以放在insert子句前，下面两句是等价的 hive> FROM invites a INSERT OVERWRITE TABLE eventsSELECT a.bar, count(*) WHERE a.foo > 0 GROUP BY a.bar; hive> INSERT OVERWRITE TABLE events SELECTa.bar, count(*) FROM invites a WHERE a.foo > 0 GROUP BY a.bar; 2.导出文件到本地 INSERTOVERWRITE LOCAL DIRECTORY ‘/tmp/local_out‘ SELECT a.* FROM pokes a; 一个源...

hive源代码解析之一hive主函数入口【图】

hive其实做的就是解析一条sql然后形成到mapreduce任务，就是一个代码解释器。hive源代码本身就可以分为ql/metasotre/service/serde 这几块；其中对于Hive来说，ql是整个Hive最最核心的一个模块，Hive主要的功能都集中在这样一个模块中，即org.apache.hadoop.hive.ql.*，其中最重要的几个模块：parse：语法解析器和语义分析器，将SQL转化为执行计划。optimizer：优化器，包括执行计划Operator图的改写（逻辑优化）和Task图的改写...

hive优化总结

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum，co...

Hive 中 set 定义出来的变量以及 hive -d 设置的变量【代码】【图】

set自定义变量今天踩了一个坑：在hive的命令行操作中，用set 命令可以自定义出一个变量，但是在函数中使用时确调不出来，如图在查找原因时，这位大佬的博客https://www.cnblogs.com/superpang/p/4639145.html启发了我，会不会是命名空间的原因让函数调用时无法找到变量呢这次用带命名空间的方式重新定义了变量，然后再次调用函数，见证奇迹的时刻到了！这说明“在hive中使用set操作自定义变量时，hivevar:命名空间不是可选的...

Hive学习

这几天都在学习Hive，在安装方面花费了不少时间，主要问题集中在：1）创建数据库后创建表不成功，提示Specified key was too long; max key length is 767 bytes 长度的问题。因为用的不是案例的数据库，傻不拉几折腾了好些时间。2）总算创建表成功了，在删除表的时候又没反应了，也不知道是什么原因。可能也许大概或许是安装的mysql有问题，这是windows上面的mysql，之前没接触过mysql，甚至连安装都按BD文库弄的，也花不了那么多...

Hive sql常用函数

或者current_date 获取当前时间：from_unixtime(unix_timestamp()) -->返回格式：yyyy-MM-dd HH:mm:ss：current_timestamp() -->返回格式：yyyy-MM-dd HH:mm:ss.xxx 2.时间戳转为日期 from_unixtime(时间戳,string format=yyyy-MM-dd HH:mm:ss) //实际写出来不需要带string,只是表明格式 --时间戳为10位，H为24小时计数，h为12小时计数 --string format:默认标准格式为 yyyy-MM-dd HH:mm:ss --其他格式写法多种...

HIVE 的MAP/REDUCE

对于 JOIN 操作：Map：以 JOIN ON 条件中的列作为 Key，如果有多个列，则 Key 是这些列的组合以 JOIN 之后所关心的列作为 Value，当有多个列时，Value 是这些列的组合。在 Value 中还会包含表的 Tag 信息，用于标明此 Value 对应于哪个表。按照 Key 进行排序。Shuffle：根据 Key 的值进行 Hash，并将 Key/Value 对按照 Hash 值推至不同对 Reduce 中。Reduce： Reducer 根据 Key 值进行 Join 操作，并且通过 Tag 来识别不同的表中...

spark利用sparkSQL将数据写入hive两种通用方式实现及比较【代码】

1.写在前面在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式，一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件，之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成dataFrame，再将dataFrame写成缓存表，最后利用sparkSQL直接插入hive表中。这两种方式各有各自的优点。但大多数开发者更倾向于后者一次编码一步到位的方式。而对于利用sparkSQL...

Impala & Hive 使用复杂数据类型【代码】

1. 环境CDH 5.16.12. Hive 使用复杂数据类型2.1 数据格式1 zhangsan:man football,basketball 2 lisi:female sing,dance2.2 Hive 建表create table studentInfo(id int,info map<string,string> comment 'map<姓名，性别>',favorite array<string> comment 'array[football,basketball]' ) row format delimited fields terminated by '\t' --列分隔符 collection items terminated by ',' --array中各个...

首页 / 更多教程 / Hive、Spark SQL、Impala比较

Hive、Spark SQL、Impala比较

内容导读

内容图文

内容总结

内容备注

内容手机端

【Hive、Spark SQL、Impala比较】教程文章相关的互联网学习教程文章

hive优化：大表关联数据倾斜问题

3、Hive-sql优化，数据倾斜处理【图】

kafka数据定时导入hive便于后续做数据清洗【代码】

DBeaver之连接hive初体验【图】

hive查询分区元数据，PARTITIONED BY【代码】

Hive编程指南下载 �【图】

hive regex insert join group cli

hive源代码解析之一hive主函数入口【图】

hive优化总结

Hive 中 set 定义出来的变量以及 hive -d 设置的变量【代码】【图】

Hive学习

Hive sql常用函数

HIVE 的MAP/REDUCE

spark利用sparkSQL将数据写入hive两种通用方式实现及比较【代码】

Impala & Hive 使用复杂数据类型【代码】

更多教程 - 最新教程

更多教程 - 最热教程