【hive的安装和配置】教程文章相关的互联网学习教程文章

CentOS5.6下利用Sqoop将hive数据导入导出数据到MySQL【图】

运行环境 CentOS 5.6 hadoop hivesqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出首页 → 数据库技术背景:阅读新闻CentOS 5.6下利用Sqoop将hive数据导入导出数据到MySQL [日期:2011-08-24] 来源:Linux社区 作者:jiedushi [字体:]运行环境 CentOS 5.6 Hadoop hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具 相关阅读:...

使用MySQL作为Hive的Metastore【图】

先确保你已经成功安装了HIVE和MYSQL在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式lt;propertygt; lt; 先确保你已经成功安装了HIVE和MYSQL 在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式javax.jdo.option.ConnectionURL jdbc:mysql://10.20.151.10:3306/hive?characterEncoding=UTF-8 JDBC connect string for a JDBC metastore javax.jdo.option.ConnectionDriverName ...

hive任务提交的相关权限认证详析【图】

最近在研究Hue,遇到一个问题,在HiveEditor写一个HQL,提交后会报权限错误,类似这样的Authorizationfailed:NoprivilegeSelectfoundforinputs&n.. 最近在研究Hue,遇到一个问题,在Hive Editor写一个HQL,提交后会报权限错误,类似这样的Authorization failed:No privilege 'Select' found for inputs {database:xxx, table:xxx, columnName:xxx}. Use show grant to get more details. Hue的登录用户是hadoop,使用cli方式查...

基于Hive的文件格式:RCFile简介及其应用【图】

RCFile是Hive推出的一种专门面向列的数据格式。 它遵循ldquo;先按列划分,再垂直划分rdquo;的设计理念。当查询过程中,针对它并 目录 1、Hadoop 文件格式简介(1)SequenceFile(2)RCFile(3)Avro(4)文本格式(5)外部格式2、为什么需要 RCFile3、RCFile 简介4、超越RCFile,下一步采用什么方法5、如何生成 RCFile 文件(1)hive 中直接通过textfile表进行insert转换(2)通过 mapreduce 生成6、Refer: Hadoop 作为MR 的开源实...

Hive与Oracle表关联语句对比【图】

在将ORACLE存储过程迁移到HIVE平台时,不可避免地会遇到表关联的相应语法问题。本文详细对比了ORALCE和HIVE的各种表关联语法,包 在将Oracle存储过程迁移到HIVE平台时,不可避免地会遇到表关联的相应语法问题。 本文详细对比了ORALCE和HIVE的各种表关联语法,,包括内关联,左,右关联,全外关联和笛卡尔积。 一.创建表 ORACLE: create table a(a1 number(10),a2 varchar2(50)); create table b(b1 number(10),b2 varchar2(50))...

Oracle存储过程如何迁移到Hive?【图】

在将ORACLE存储过程迁移到HIVE平台时,不可避免地会遇到各种问题。ORACLE与HIVE都使用SQL语句,但是语法和特性不尽相同,本文简述 在将Oracle存储过程迁移到HIVE平台时,不可避免地会遇到各种问题。 ORACLE与HIVE都使用SQL语句,但是语法和特性不尽相同,本文简述了几个迁移时需要注意的地方。 一.INSERT语句 ORACLE: EXECUTE IMMEDIATE TRUNCATE TABLE TABLE_A;INSERT /*+APPEND*/ INTO A NOLOGGING (COL_1,COL_2,COL_3,) 迁移至...

Hive详细教程【图】

在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。本质上讲,hive是一个SQL解析引擎 为什么选择Hive?Hive的安装 1.1在hadoop生态圈中属于数据仓库的角色。他能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为MapReduce中的job,可以把SQL中的表、字段转...

Java中的double精度,sqoop从Oracle导出到Hive【图】

项目进行了大半后发现悲剧了,利用sqoop默认的从oracle数据库到处的数据表,如果其中的数据精度大于15位,而导入的表有些字段默认 项目进行了大半后发现悲剧了,利用sqoop默认的从Oracle数据库到处的数据表,如果其中的数据精度大于15位,而导入的表有些字段默认的是double类型,结果导致大于16的数导入到了hive中,查询时只有15位的精度,悲哀啊,,切记。 相关阅读: 基于Hadoop集群的Hive安装 Hive内表和外表的区别 Hadoop + ...

Hive的UDF实现类似于Oracle的decode函数功能【图】

Oracle的decode函数语法:DECODE(value,if1,then1,if2,thne2,if3,then3,...else)。首先涉及到的问题是输入参数的动态化,decode函 客户提的要求,让用hive实现类似orale的decode函数功能。好吧,开工。 Oracle的decode函数语法:DECODE(value,if1,then1,if2,thne2,if3,then3,...else)。 首先涉及到的问题是输入参数的动态化,decode函数要求输入函数是偶数个,然后实现类似if,else的逻辑判断功能。这样的话用到了java的Object ......

Hive的MapJoin机制【图】

Hive内置提供的优化机制之一就包括MapJoin。在Hive v0.7之前,需要给出MapJoin的指示,Hive才会提供MapJoin的优化。Hive v0.7之后 什么是MapJoin?MapJoin顾名思义,就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。 MapJoin的原理:即在map 端进行join,,其原理是broadcast join,即把小表作为一个完整的驱动表来进行join操作。...

实现Hive数据同步更新的shell脚本【图】

上一篇文章《Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》描述了增量更新Hive表的原理和Sq 引言: 上一篇文章《Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,,并更新Hive中的主表shell脚本#!/bin/bash#Please set the synchronize interval,unit is hour. update_interval=24#Please set the RDBMS connection params rdbms_connstr="jdbc:oracle:thin:@192.168.0.147:1521:O...

Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1,并更新Hive中的主表

将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive,模拟全量表和 需求 将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。 设计 涉及的三张表: 步骤:通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表 通过Hive将“全量表+增量表”合并为“更新后的全量表”,覆盖当前的全量表步骤1:通过Sqoop将Oracle中表的导入Hive,模拟全量...

Hive优化提示-如何写好HQL【图】

尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这 一、 Hive join优化 1. 尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,,可以适...

基于MySQL元数据的Hive的安装和简单测试【图】

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换 引言: Hive是一种强大的数据仓库查询语言,,类似SQL,本文将介绍如何搭建Hive的开发测试环境。 1. 什么是Hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通...

sqoop从hive导到mysql遇到的问题

周海汉/文 2013.8.22 环境 hive 版本hive-0.11.0 sqoop 版本?sqoop-1.4.4.bin__hadoop-1.0.0 从hive导到mysql mysql 表: mysql desc cps_activation; ++-++++-+ | Field | Type | Null | Key | Default | Extra | ++-++++-+ | id | int(11) | NO | PRI | NU周海汉/文 2013.8.22环境 hive 版本hive-0.11.0 sqoop 版本?sqoop-1.4.4.bin__hadoop-1.0.0从hive导到mysqlmysql 表:mysql> desc cps_activation; +————+————-+——...