首页 / MYSQL / hive分区（partition）简介

hive分区（partition）简介

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了hive分区（partition）简介，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5090字，纯文字阅读大概需要8分钟。

内容图文

网上有篇关于hive的partition的使用讲解的比较好，转载了：一、背景 1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。 2、分区表指的是在创建表时指定

网上有篇关于hive的partition的使用讲解的比较好，转载了：

一、背景

1、在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，因此建表时引入了partition概念。

2、分区表指的是在创建表时指定的partition的分区空间。

3、如果需要创建有分区的表，需要在create表的时候调用可选参数partitioned by，详见表创建的语法结构。

二、技术细节

1、一个表可以拥有一个或者多个分区，每个分区以文件夹的形式单独存在表文件夹的目录下。

2、表和列名不区分大小写。

3、分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示。

4、建表的语法（建分区可参见PARTITIONED BY参数）：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path]

5、分区建表分为2种，一种是单分区，也就是说在表文件夹目录下只有一级文件夹目录。另外一种是多分区，表文件夹下出现多文件夹嵌套模式。

a、单分区建表语句：create table day_table (id int, content string) partitioned by (dt string);单分区表，按天分区，在表结构中存在id，content，dt三列。

b、双分区建表语句：create table day_hour_table (id int, content string) partitioned by (dt string, hour string);双分区表，按天和小时分区，在表结构中新增加了dt和hour两列。

表文件夹目录示意图（多分区表）：

6、添加分区表语法（表已创建，在此基础上添加分区）：

ALTER TABLE table_name ADD partition_spec [ LOCATION 'location1' ] partition_spec [ LOCATION 'location2' ] ... partition_spec: : PARTITION (partition_col = partition_col_value, partition_col = partiton_col_value, ...)

用户可以用 ALTER TABLE ADD PARTITION 来向一个表中增加分区。当分区名是字符串时加引号。例：

ALTER TABLE day_table ADD PARTITION (dt='2008-08-08', hour='08') location '/path/pv1.txt' PARTITION (dt='2008-08-08', hour='09') location '/path/pv2.txt';

7、删除分区语法：

ALTER TABLE table_name DROP partition_spec, partition_spec,...

用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。例：

ALTER TABLE day_hour_table DROP PARTITION (dt='2008-08-08', hour='09');

8、数据加载进分区表中语法：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

例：

LOAD DATA INPATH '/user/pv.txt' INTO TABLE day_hour_table PARTITION(dt='2008-08- 08', hour='08'); LOAD DATA local INPATH '/user/hua/*' INTO TABLE day_hour partition(dt='2010-07- 07');

当数据被加载至表中时，不会对数据进行任何转换。Load操作只是将数据复制至Hive表对应的位置。数据加载时在表下自动创建一个目录，文件存放在该分区下。

9、基于分区的查询的语句：

SELECT day_table.* FROM day_table WHERE day_table.dt>= '2008-08-08';

10、查看分区语句：

hive> show partitions day_hour_table; OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

三、总结

1、在 Hive 中，表中的一个 Partition 对应于表下的一个目录，所有的 Partition 的数据都存储在最字集的目录中。

2、总的说来partition就是辅助查询，缩小查询范围，加快数据的检索速度和对数据按照一定的规格和条件进行管理。

——————————————————————————————————————

hive中关于partition的操作：
hive> create table mp (a string) partitioned by (b string, c string);
OK
Time taken: 0.044 seconds
hive> alter table mp add partition (b='1', c='1');
OK
Time taken: 0.079 seconds
hive> alter table mp add partition (b='1', c='2');
OK
Time taken: 0.052 seconds
hive> alter table mp add partition (b='2', c='2');
OK
Time taken: 0.056 seconds
hive> show partitions mp ;
OK
b=1/c=1
b=1/c=2
b=2/c=2
Time taken: 0.046 seconds
hive> explain extended alter table mp drop partition (b='1');
OK
ABSTRACT SYNTAX TREE:
(TOK_ALTERTABLE_DROPPARTS mp (TOK_PARTSPEC (TOK_PARTVAL b '1')))

STAGE DEPENDENCIES:
Stage-0 is a root stage

STAGE PLANS:
Stage: Stage-0
Drop Table Operator:
Drop Table
table: mp

Time taken: 0.048 seconds
hive> alter table mp drop partition (b='1');
FAILED: Error in metadata: table is partitioned but partition spec is not specified or tab: {b=1}
FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask
hive> show partitions mp ;
OK
b=1/c=1
b=1/c=2
b=2/c=2
Time taken: 0.044 seconds
hive> alter table mp add partition ( b='1', c = '3') partition ( b='1' , c='4');
OK
Time taken: 0.168 seconds
hive> show partitions mp ;
OK
b=1/c=1
b=1/c=2
b=1/c=3
b=1/c=4
b=2/c=2
b=2/c=3
Time taken: 0.066 seconds
hive>insert overwrite table mp partition (b='1', c='1') select cnt from tmp_et3 ;

hive>alter table mp add columns (newcol string);

location指定目录结构
hive> alter table alter2 add partition (insertdate='2008-01-01') location '2008/01/01';

hive> alter table alter2 add partition (insertdate='2008-01-02') location '2008/01/02';

内容总结

以上是互联网集市为您收集整理的hive分区（partition）简介全部内容，希望文章能够帮你解决hive分区（partition）简介所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/566385.html

来源：【匿名】

【上一篇】数据库的各种连接查询你是否真了解【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【hive分区（partition）简介】教程文章相关的互联网学习教程文章

sqoop同步mysql数据到hive中【图】

一、sqoop 在同步mysql表结构到hive sqoop create-hive-table --connect jdbc:mysql://ip:3306/sampledata --table t1--username dev --password 1234 --hive-table t1; 执行到这一步就退出了，但是在hadoop的hdfs上的/hive/warehouse/的目录下是找不到t1表的目录,但是正常执行完成是下面这样的：错误就是hive的jar包有缺失全部的jar包该是这样的：这是hadoop-2.2.0和hbase-0.96.2和hive-0.13.1整合的全部jar包还有就是sqoop-1....

hive 的mysql配置【代码】

hive默认使用的是Derby数据库，Derby是一个嵌入式数据库，数据库一般创建在运行hive命令的目录，如果切换目录运行，则找不到数据库 hive mysql配置：官网地址：https://cwiki.apache.org/confluence/display/Hive/AdminManual+MetastoreAdmin hive配置文件目录下创建文件：hive-site.xml，配置如下<configuration><property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost/hive?createDatabaseIfNotEx...

Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check your CLASSPATH specification, and the name of the driver.【代码】

首先检验Hive元数据是否正常，如果Hive元数据正常使用，请在oozie配置文件workflow.xml中增加配置：<property><name>hive.metastore.uris</name><value>thrift://192.168.2.21:9083</value></property>具体原因需要再排查，可能是由于环境变量导致参考：cdh5版本中的oozie hive action使用及踩坑集锦Oozie调度hive报错The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH. Please check you...

如何利用sqoop将hive数据导入导出数据到mysql【图】

运行环境 centos 5.6 hadoop hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具。上海尚学堂hadoop大数据培训组原创，陆续有hadoop大数据技术相关文章奉上，请多关注！在使用过程中可能遇到的问题：sqoop依赖zookeeper，所以必须配置ZOOKEEPER_HOME到环境变量中。sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar，所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz，解...

spark集成hive遭遇mysql check失败的问题【代码】

问题： spark集成hive，启动spark-shell或者spark-sql的时候，报错：INFO MetaStoreDirectSql: MySQL check failed, assuming we are notonmysql: Lexical error atline1, column 5. Encountered: "@" (64), after : "".环境： spark-1.4 hive-1.2.1 mysql-5.1 jdbc驱动原因：查看hive的源码MetaStoreDirectSql的构造方法：publicMetaStoreDirectSql(PersistenceManager pm) {this.pm = pm;Transaction tx = pm.currentTr...

hive 中与mysql 中函数同名不同意的方法记录

max 函数在hive中max函数是一个聚合函数,所以,而且返回值是double ,而且后面必须跟group by ,这个和mysql差异很大Built-in Aggregate Functions (UDAF)DOUBLEmax(col)Returns the maximum value of the column in the group.mysql 中Returns the maximum value of expr. MAX() may take a string argument; insuch cases, it returns the maximum string value. Seehttp://dev.mysql.com/doc/refman/5.1/en/mysql-indexes.html. T...

大数据工具篇之Hive与MySQL整合完整教程【代码】【图】

一、引言　Hive元数据存储可以放到RDBMS数据库中，本文以Hive与MySQL数据库的整合为目标，详细说明Hive与MySQL的整合方法。二、安装驱动MySQL最新的Java驱动版本为：mysql-connector-java-5.1.28-bin.jar，下载后拷贝到：Hive/Lib目录。三、安装MySQL　　3.1 版本　　RHEL5+mysql-5.5.35-1.i386.rpm　　3.2 顺序　　　　MySQL-shared-compat-5.5.35-1.rhel15.i386.rpm MySQL-server-5.5.35-1.rhel5.i386.rpm MySQL-clien...

详细总结使用Sqoop将HDFS/Hive/HBase与MySQL/Oracle中的数据相互导入、导出【图】

一、使用Sqoop将MySQL中的数据导入到HDFS/Hive/HBase 二、使用Sqoop将HDFS/Hive/HBase中的数据导出到MySQL2.3 HBase中的数据导出到mysql目前没有直接的命令将HBase中的数据导出到MySQL，但可以先将HBase中的数据导出到HDFS中，再将数据导出到MySQL。三、使用Sqoop将Oracle中的数据导入到HDFS/Hive/HBase 下面只给出将Oracle中的数据导入HBase，其他情况下的命令行选项与MySQL的操作相似 OK！最好的文档尽在：http://sqoop.apach...

安装Hive(独立模式使用mysql连接)【代码】

安装Hive(独立模式使用mysql连接)1.默认安装了java+hadoop 2.下载对应hadoop版本的安装包 3.解压安装包tar zxvf apache-hive-1.2.1-bin.tar.gz 4.安装mysqlyum -y install mysql-server mysql mysqldev //需要以root身份运行另外可能需要配置yum源mysql常用命令:service mysqld start/stopchkconfig mysqld on //加入开机启动以系统root用户操作 5.授权mysql(以系统hadoop身份数据库root身份进行操作)mysqladmin -u root pa...

hive 与MySQL 的差别

总结 1. Hive数据表分区、分桶的作用分区表产生不同的目录：避免全表扫描分桶表产生不同的文件： jion 速度快和桶抽样2. Hive常用的3复合数据类型及访问方式select * from emp_partitioninner join salariesonsalaries.emp_no is not null andemp_partition.emp_no is not null andemp_partition.emp_no = salaries.emp_no select * from emp_partition --emp_partition 表小放到左侧inner join salariesonsalaries.emp_no is ...

Hive 安装 & Mysql 安装【图】

安装Hive && mysql(1)安装HiveHive安装所需要的依赖（安装Hive前必须先安装jdk、hadoop）　　　　1）jdk1.6以上　　　　2）Hadoop要启动未安装jdk、hadoop可参考文章：https://www.cnblogs.com/wendyw/p/11317021.htmlHive下载、解压　　　　下载路径：http://apache.cs.utah.edu/hive/hive-0.11.0/　　　　将hive-0.11.0.tar.gz解压到/usr/local中　　　　tar -zxvf hive-0.11.0.tar.gz　　　　产生hive的安装目...

sqoop从hive导入数据到mysql时出现主键冲突【代码】

今天在将一个hive数仓表导出到mysql数据库时出现进度条一直维持在95%一段时间后提示失败的情况，搞了好久才解决。使用的环境是HUE中的Oozie的workflow任何调用sqoop命令，该死的oozie的日志和异常提示功能太辣鸡了，最后发现是重复数据导致数据进入mysql表时出现主键冲突进而导致数据同步失败。（1）众所周知hive表是没有主键与索引的，但是mysql的表一般在创建时就会指定主键，所以在把hive表中的数据导入mysql表的时候通常会使用...

对比hive和mysql 复杂逻辑流处理【图】

1.Mysql中可用存储过程和函数来实现复杂逻辑处理，两者的对比如下：存储过程作为可执行文件，编译一次放在数据库中，函数又返回值。可设定使用权限。存储过程中可使用游标，声明变量。用call调用。 2.Hive可用udf（user defined function）来实现复杂逻辑处理编辑Python脚本常用的Python字符串分割处理函数有：split 等等加载udf 调用udf HQL语法可将返回结果重新写入其他表内，此时 as后字段和插入表字段一致。原文：h...

Hive_元数据配置到MySQL【代码】

驱动拷贝1．在/opt/software/mysql-libs目录下解压mysql-connector-java-5.1.27.tar.gz驱动包[root@hadoop102 mysql-libs]# tar -zxvf mysql-connector-java-5.1.27.tar.gz2．拷贝/opt/software/mysql-libs/mysql-connector-java-5.1.27目录下的mysql-connector-java-5.1.27-bin.jar到/opt/module/hive/lib/[root@hadoop102 mysql-connector-java-5.1.27]# cp mysql-connector-java-5.1.27-bin.jar /opt/module/hive/lib/配置Metas...

hive安装--设置mysql为远端metastore【图】

作业任务：安装Hive，有条件的同学可考虑用mysql作为元数据库安装（有一定难度，可以获得老师极度赞赏），安装完成后做简单SQL操作测试。将安装过程和最后测试成功的界面抓图提交 . 已有的当前虚拟机：总共三台虚拟机，使用CentOS。一台是NameNode，另两台为DataNode，由于搭载虚拟机的内存不是很足，所以不打算再新增一台虚拟机来另外安装mysql，所以选择其中一台datanode虚拟机来安装mysql，由于很早时候已经安装布署了hadoop...

MYSQL - 技术教程分类

MySQL 教程 MySQL 安装 MySQL 管理 MySQL PHP 语法 MySQL 连接 MySQL 创建数据库 MySQL 删除数据库 MySQL 选择数据库 MySQL 数据类型 MySQL 创建数据表 MySQL 删除数据表 MySQL 插入数据 MySQL 查询数据 MySQL WHERE 子句 MySQL UPDATE 更新 MySQL DELETE 语句 MySQL LIKE 子句 MySQL UNION MySQL 排序 MySQL 分组 MySQL 连接的使用 MySQL NULL 值处理 MySQL 事务 MySQL ALTER命令 MySQL 索引 MySQL 临时表 MySQL 复制表 MySQL 元数据 MySQL 序列使用 MySQL 处理重复数据 MySQL 及 SQL 注入 MySQL 导出数据 MySQL 导入数据 MySQL 函数 MySQL 运算符 mysql 全部

MYSQL - 最热教程

sql分组取最大记录方法 mysql如何设置默认值 mysql创建数据表时指定默认值教程 MySQL 5.7 的初始化操作（root初始密码...Oracle中合并数据集(多行变一行)mysql 相同内容的字段合并为一条的方法解决mysql设置时区时的错误Unknown or ...解决ubuntu下mysql的'Access denied fo...ubuntu系统中MysqlERROR1045(28000)报错...mysql数据库设置不区分大小写

首页 / MYSQL / hive分区（partition）简介

hive分区（partition）简介

内容导读

内容图文

内容总结

内容备注

内容手机端

【hive分区（partition）简介】教程文章相关的互联网学习教程文章

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程