目前HVIE里查询如下语句报错:select * from dw.ticket_user_mtime limit 10;错误如下:17/07/06 16:45:38 [main]: DEBUG impl.RecordReaderImpl: merge = [{data range [22733, 19927580), size: 19904847 type: array-backed}]Failed with exception java.io.IOException:java.lang.ArrayIndexOutOfBoundsException: 102417/07/06 16:45:38 [main]: ERROR CliDriver: Failed with exception java.io.IOException:java.lang.Array...
org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby 此问题,原来从web 页面查看,是两个节点都变成了standy,所以要切换 hdfs haadmin -transitionToActive --forcemanual nn1 再次访问就...
set hive.optimize.sampling.orderby=true;set hive.optimize.sampling.orderby.number=10000;set hive.optimize.sampling.orderby.percent=0.1f;记录一下,Hive中并行排序参数;hive.optimize.sampling.orderby??? Default Value: false??? Added In: Hive 0.12.0 with HIVE-1402Uses sampling on order-by clause for parallel execution.hive.optimize.sampling.orderby.number??? Default Value: 1000??? Added In: Hive 0.12....
package com.java.hadoop.hive;2 3 import java.sql.Connection;4 import java.sql.DriverManager;5 import java.sql.PreparedStatement;6 import java.sql.ResultSet;7 import java.sql.SQLException;8 import java.sql.Statement;9
10 import org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore.Processor.drop_database;
11 import org.junit.Before;
12 import org.junit.Test;
13
14 public class TestHive {
15...
遇到个情况,跑hive级联insert数据报错,可以尝试换个hive计算引擎
hive遇到FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误1、配置mapreduce计算引擎
set hive.execution.engine=mr;2、配置spark计算引擎
set hive.execution.engine=spark;3、配置tez 计算引擎
set hive.execution.engine=tez;hive的sql操作与musql些许区别,比如hive没有group_concat,取而代之的是collect_set;...
以下信息,只要根据自己的数据库的相应信息修改以下,即可,sqoop其实就是很简单的,一般hive数据存储为列式存储,所以要提前把要写到关系型数据库的数据写到一个text后缀的表里,然后才能导出到关系型数据库中。
还要特别注意写到关系型数据库中数据的格式要一一对应
#pg库相关信息database_connection="jdbc:postgresql://192.168.0.2:8080/db_name"
database_username="user"
database_password="pass"
databaseTableName="te...
假设需要把集群q1下的hive数据库a下面的表a1迁移到集群q2下
1、将q1集群下的a1表对应的hdfs文件拷贝到q1集群下的/test/test
2、在集群q2的某个数据库下面创建hive的schema外部表,注意路径/test/test要填正确
3、如果是分区表的话,输入msck repair table zppanalysis1;修复分区,非分区表的话到第二步迁移后的表就可以用于查询了
Hive explain执行计划详解
HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理,hive 调优,排查数据倾斜等很有帮助
使用语法如下:
EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION | ANALYZE] query
explain 后面可以跟以下可选参数,注意:这几个可选参数不是 hive 每个版本都支持的
EXTENDED:加上 extended 可以输出有关计划的额外信息。这通常是物理信息,例如文件名。这些额外信息对我们用...
针对hive on mapreduce
1:我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并:
参数详细内容可参考官网:https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties1
2
3
4hive.merge.mapfiles 在 map-only job后合并文件,默认true
hive.merge.mapredfiles 在map-reduce job后合并文件,默认false
hive.merge.size.per.task 合并后每个文件的大小,默认256000000
hive.merge.smallfiles.avgsize ...
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点 Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问 使用Scala语言编写部署模型1. 单机模型:主要用来开发测试。特点:Driver、Master、Worker和Executor都运行在同一...
root用户下:上传mysql安装包(mysql-5.5.32.tar.gz)到/install目录下,并解压安装;
二、hadoop用户下:上传mysql驱动包(mysql-connector-java-3.0.17-ga-bin.jar )到/software/hive-1.2.2/lib
修改Hive的配置文件:vi /software/hive-1.2.2/conf/hive-site.xml更改数据库连接方式:394 <property>
395 <name>javax.jdo.option.ConnectionURL</name>
396 <!--<value>jdbc:derby:;databaseName=metastore_db;create=true</value>-->
...
参考:https://blog.csdn.net/happylin0x29a/article/details/8855716问题原因:为了优化读取parquet格式文件,spark默认选择使用自己的解析方式读取数据,结果读出的数据就有问题。
解决办法:将配置项spark.sql.hive.convertMetastoreParquet 改为false就行了
代码连接hive需要先启动hive的metastore和hiveserver2hive --service metastore &
hive --service hiveserver2 &其中hive-site.xml的配置为:<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.174.131:3306/hive?createDatabaseIfNotExist=true</value>
<description>JDBC connect string for a JDBC metastore</description>
</property><property>
<name>javax.jdo.option....
文章目录
1. 特点2. Hive 体系架构3. 安装 Hive3.1 安装 MySQL3.2 安装 Hive3.3 配置 Hive1. 特点
查询语言与 SQL 接近并行执行使用 HDFS 存储支持多种数据格式不支持数据更新不支持索引执行延迟高(不适合在线数据查询)可扩展性高数据规模大
2. Hive 体系架构3. 安装 Hive
先安装 hadoop:hadoop 多机全分布式安装步骤(虚拟机1master+2slave)
3.1 安装 MySQL
在 master 上安装
yum localinstall https://dev.mysql.com/get/mys...