【hive的安装和配置】教程文章相关的互联网学习教程文章

Hive中GroupBy的去重

在Hive的是用中,我们经常会有这种需求: 按照同一个id进行Group By,然后对另一个字段去重,例如下面得数据: id pic1.jpg2.jpg1.jpg 此时,是用DISTINCT或者2 col得Group By都是不行得,我们可以用这个UDAF:collect_set(col),它将对同一个group by 得ke在Hive的是用中,我们经常会有这种需求: 按照同一个id进行Group By,然后对另一个字段去重,例如下面得数据: id pic 1.jpg 2.jpg 1.jpg 此时,是用DISTINCT或者2 col得Gr...

升级到hive0.13问题记录

hive单表分区数过多(实际上分区数越多查询越慢,应控制分区数在5000以下),执行查询报错: java.lang.OutOfMemoryError: Java heap space 参考:OOM occurs when query spans to a large number of partitions 原因: hive会在执行查询时先将元数据中的分hive单表分区数过多(实际上分区数越多查询越慢,应控制分区数在5000以下),执行查询报错: java.lang.OutOfMemoryError: Java heap space 参考:OOM occurs when query spa...

hue支持hive查询结果数据导出支持中文编码GBK

既然是hive的查询结果那么我们肯定要修改 hue apps里的beeswax/src/beeswax vim data_export.py 在def download(handle, format, db): 上添加代码: EXPORT_CHART_SET=gb2312 然后修改 def download(handle, format, db) 里面的CSVformatter 和CSVformatte既然是hive的查询结果那么我们肯定要修改 hue apps里的beeswax/src/beeswax vim data_export.py 在def download(handle, format, db): 上添加代码:EXPORT_CHART_SET=gb2312然...

在hive中使用parquet(CDH4.3)

hadoop版本 cdh4.3 使用impala创建parquet表后,查询会出错。 [impala:21000] SELECT * FROM foo;Query: SELECT * FROM fooERROR: AnalysisException: Failed TO LOAD metadata FOR TABLE: DEFAULT.fooCAUSED BY: TableLoadingException: Failed TO LOAD methadoop版本 cdh4.3 使用impala创建parquet表后,查询会出错。 [impala:21000] > SELECT * FROM foo; Query: SELECT * FROM foo ERROR: AnalysisException: Failed TO LOAD m...

自定义Hive权限控制(4)扩展Hive以实现自定义权限控制

在前3节中,已经就 hive 权限控制 进行了基础数据的维护,现在用户权限配置功能已经实现。并且可以通过界面话的方式进行维护和管理。接着,最重要的事情就是针对Hive源码的修改。 主要是针对org.apache. hadoop . hive .conf.HiveConf及org.apache. hadoop .在前3节中,已经就hive权限控制进行了基础数据的维护,现在用户权限配置功能已经实现。并且可以通过界面话的方式进行维护和管理。接着,最重要的事情就是针对Hive源码的修改...

自定义Hive权限控制(3)扩展Hive以实现自定义权限控制

简介 前两篇文章已经将需要的数据进行了准备,比如用户权限配置信息等。本节主要介绍我们的使用场景,因为使用场景的问题,我们只针对select进行相应的 权限控制 ,insert,delete,drop等动作从数据库层面上进行了限定,非本部门的人员是只拥有查询权限的。简介 前两篇文章已经将需要的数据进行了准备,比如用户权限配置信息等。本节主要介绍我们的使用场景,因为使用场景的问题,我们只针对select进行相应的权限控制,insert,de...

自定义Hive权限控制(1)设计目标

由于公司各个部门对 hive 的使用增加,针对 hive 的 权限控制 是必须要开展的一项工作了。针对此事项,最近进行了 hive 源码的查看,并完成了初步的设计和实现基本满足了当前 权限控制 的目标。 目标 1.采用公共模块或者公共配置文件去做用户权限管理。2.每由于公司各个部门对hive的使用增加,针对hive的权限控制是必须要开展的一项工作了。针对此事项,最近进行了hive源码的查看,并完成了初步的设计和实现基本满足了当前权限控制...

Impala与Hive的比较【图】

1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Eng1. Impala架构Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据...

hive复杂UDAF使用方法

周海汉 /文 2013.3.27 前文《hive mapreduce script用法示例》 示例了mapreduce脚本。本文采用较复杂的方式自定义hive聚合函数。 package com.abloz.hive;/** * @author zhouhh * @date 2013-3-27 * note: for count value =1 */import org.apache.hadoop.hi周海汉 /文 2013.3.27 前文《hive mapreduce script用法示例》 示例了mapreduce脚本。本文采用较复杂的方式自定义hive聚合函数。package com.abloz.hive; /*** @author zhou...

Kettle连接Hive中文乱码问题解决方案

刚开始接触Pentaho的 kettle desktop版本。我们这里主要应用其与hadoop及 hive 的关联进行数据处理。 kettle 的版本是4.4,使用的过程还是挺顺利的,顺利的建立好了一个转换任务,将 hive 中的数据提取到了本地文件。但是打开一看,所以 utf8 的 中文 全都是刚开始接触Pentaho的kettle desktop版本。我们这里主要应用其与hadoop及hive的关联进行数据处理。kettle的版本是4.4,使用的过程还是挺顺利的,顺利的建立好了一个转换任务,...

从随意hive单表读取并计算数据写入任意mysql单表的hive工具

从任意hive单表读取并计算数据写入任意mysql单表的hive工具 在基于hive的数据仓库中,每个维度有很多概念分层的场景下,维度和度量的上线和下线在mysql中配置显的很重要。 这个hive工具适用于任意多维度,任意多度量值计算。 使用方法很简单。 用附件中的三个从任意hive单表读取并计算数据写入任意mysql单表的hive工具在基于hive的数据仓库中,每个维度有很多概念分层的场景下,维度和度量的上线和下线在mysql中配置显的很重要。这...

hbase组合hive和sqoop实现导数据到mysql

hbase结合hive和sqoop实现导数据到mysql hive整合hbase表的两点好处: 1.实现数据导入到MYSQL。 2.实现hbase表转换为另外一张hbase表。 三个操作环节: 1.hbase关联hive作为外部表: CREATE EXTERNAL TABLE hive_device_app(row_key string,genera_type strinhbase结合hive和sqoop实现导数据到mysqlhive整合hbase表的两点好处: 1.实现数据导入到MYSQL。 2.实现hbase表转换为另外一张hbase表。三个操作环节: 1.hbase关联hi...

MySQL向Hive/HBase的迁移工具【图】

Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能执行完毕的SQL,估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据 Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能...

ApachePig入门1–介绍/基本架构/与Hive对比【图】

本文分为4个分部:1. 介绍 2.基本架构 3.与Hive对比 4.使用 一、介绍 Google的工程师为了方便自己对MapReduce的实现搞了一个叫做Sawzall的工具,Google就放了几篇论文放在网上,但这玩意在代码上不开源在设计思想是开源的,在前面一篇文章中我也提到过Hadoop本文分为4个分部:1. 介绍 2.基本架构 3.与Hive对比 4.使用一、介绍Google的工程师为了方便自己对MapReduce的实现搞了一个叫做Sawzall的工具,Google就放了几篇论文放在...

Hive导出到Mysql中中文乱码的有关问题

Hive导出到Mysql中中文乱码的问题 在上一篇文章《 从hive将数据导出到mysql 》中,虽然通过hive中转,将hbase的数据成功导出到了mysql中,但是我们遇到了中文乱码问题。 一、mysql中的编码 mysql show variables like collation_%;+----------------------+Hive导出到Mysql中中文乱码的问题在上一篇文章《从hive将数据导出到mysql》中,虽然通过hive中转,将hbase的数据成功导出到了mysql中,但是我们遇到了中文乱码问题。 一、mys...