首页 / 更多教程 / spark sql/hive小文件问题

spark sql/hive小文件问题

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了spark sql/hive小文件问题，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2847字，纯文字阅读大概需要5分钟。

内容图文

针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

1 2 3 4 hive.merge.mapfiles 在 map-only job后合并文件，默认true hive.merge.mapredfiles 在map-reduce job后合并文件，默认false hive.merge.size.per.task 合并后每个文件的大小，默认256000000 hive.merge.smallfiles.avgsize 平均文件大小，是决定是否执行合并操作的阈值，默认16000000

例如：

set hive.merge.mapfiles = true：在只有map的作业结束时合并小文件，
set hive.merge.mapredfiles = true：在Map-Reduce的任务结束时合并小文件，默认为False；
set hive.merge.size.per.task = 256000000; 合并后每个文件的大小，默认256000000
set hive.merge.smallfiles.avgsize=256000000; 当输出文件的平均大小小于该值时并且（mapfiles和mapredfiles为true）

2：如果结果表使用了压缩格式，则必须配合Sequence File来存储，否则无法进行合并 3：Hadoop的归档文件格式也是解决小文件问题的方式之一。而且Hive提供了原生支持，如果使用的不是分区表，则可创建成外部表，并使用har://协议来指定路径 4：对于通常的应用，使用Hive结果合并就能达到很好的效果。如果不想因此增加运行时间，可以自行编写一些脚本，在系统空闲时对分区内的文件进行合并，也能达到目的。 5：Reducer数量的减少也即意味着结果文件的减少，从而解决产生小文件的问题。但是，对于通过sparksql来处理数据的话，在conf里添加上面参数调整是没有作用的，不过可以通过下面的方式来规避小文件： 1.通过使用repartition重分区动态调整文件输出个数　　比如 spark.sql("sql").repartition(1).write().mode(SaveMode.Overwrite).saveAsTable("test"); 2.使用Adaptive Execution动态设置shuffle partition

1 2 3 4 5 6 7 8 9 10 11 12 13 SparkConf conf = new SparkConf(); conf.set("spark.sql.adaptive.enabled", "true"); conf.set("spark.sql.adaptive.shuffle.targetPostShuffleInputSize", "67108864b"); conf.set("spark.sql.adaptive.join.enabled", "true"); conf.set("spark.sql.autoBroadcastJoinThreshold", "20971520"); SparkSession spark = SparkSession .builder() .appName("JointSitePlan") .master("local") .config(conf) .enableHiveSupport() .getOrCreate();

　　shuffle partition是通过参数spark.sql.shuffle.partitions来指定的，默认是200，但是对于数据不大，或者数据倾斜的情况，会生成很多的小文件，几兆甚至几KB大小，自适应执行则会根据参数 spark.sql.adaptive.shuffle.targetPostShuffleInputSize 动态调整reducer数量.

附：

我在spark sql执行insert overwrite操作时，仅加了set spark.sql.hive.mergeFiles=true; 也可以有效阻止小文件的产生，可能是因为我的数据量本身就比较大

参考：

https://www.cnblogs.com/zz-ksw/p/11293891.html

https://blog.csdn.net/a2011480169/article/details/100401858

spark sql/hive小文件问题

标签：csdn mod master highlight builder splay tail https ORC

本文系统来源：https://www.cnblogs.com/fnlingnzb-learner/p/13427909.html

内容总结

以上是互联网集市为您收集整理的spark sql/hive小文件问题全部内容，希望文章能够帮你解决spark sql/hive小文件问题所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/526350.html

来源：【匿名】

【上一篇】不同类型数据库转换工具【下一篇】关于IE的RegExp.exec的问题

更多 ►

【spark sql/hive小文件问题】教程文章相关的互联网学习教程文章

hive-sql【代码】

#原始示例数据#1,k1|k2|k3|k1#2,k1|k1|k5|k3|k6#3,k3|k6|k7|k8#建表语句CREATE TABLE IF NOT EXISTS words(id INT,kw STRING)ROW FORMAT delimitedFIELDS TERMINATED BY ‘,‘collection items TERMINATED BY ‘|‘;#加载数据（local从本地，否则从hdfs；overwrite覆盖原有数据）load data [local] inpath ‘J:/test.txt‘ [overwrite] into table words;#字段转行（拼接成1个字段），结果如下1 k11 k21 k31 k12 k12 k12 k52 k32 k...

Hive Bug修复:ORC表中array数据类型长度超过1024报异常

目前HVIE里查询如下语句报错：select * from dw.ticket_user_mtime limit 10;错误如下：17/07/06 16:45:38 [main]: DEBUG impl.RecordReaderImpl: merge = [{data range [22733, 19927580), size: 19904847 type: array-backed}]Failed with exception java.io.IOException:java.lang.ArrayIndexOutOfBoundsException: 102417/07/06 16:45:38 [main]: ERROR CliDriver: Failed with exception java.io.IOException:java.lang.Array...

hive 遇到的问题及解决方法【代码】

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby 此问题，原来从web 页面查看，是两个节点都变成了standy，所以要切换 hdfs haadmin -transitionToActive --forcemanual nn1 再次访问就...

Hive并行排序

set hive.optimize.sampling.orderby=true;set hive.optimize.sampling.orderby.number=10000;set hive.optimize.sampling.orderby.percent=0.1f;记录一下，Hive中并行排序参数；hive.optimize.sampling.orderby??? Default Value: false??? Added In: Hive 0.12.0 with HIVE-1402Uses sampling on order-by clause for parallel execution.hive.optimize.sampling.orderby.number??? Default Value: 1000??? Added In: Hive 0.12....

【Hive】JDBC操作

package com.java.hadoop.hive;2 3 import java.sql.Connection;4 import java.sql.DriverManager;5 import java.sql.PreparedStatement;6 import java.sql.ResultSet;7 import java.sql.SQLException;8 import java.sql.Statement;9 10 import org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore.Processor.drop_database; 11 import org.junit.Before; 12 import org.junit.Test; 13 14 public class TestHive { 15...

hive SQL的常用设置【代码】

遇到个情况，跑hive级联insert数据报错，可以尝试换个hive计算引擎 hive遇到FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误1、配置mapreduce计算引擎 set hive.execution.engine=mr;2、配置spark计算引擎 set hive.execution.engine=spark;3、配置tez 计算引擎 set hive.execution.engine=tez;hive的sql操作与musql些许区别，比如hive没有group_concat,取而代之的是collect_set；...

sqoop将hive数据导出到关系型数据库

以下信息，只要根据自己的数据库的相应信息修改以下，即可，sqoop其实就是很简单的，一般hive数据存储为列式存储，所以要提前把要写到关系型数据库的数据写到一个text后缀的表里，然后才能导出到关系型数据库中。还要特别注意写到关系型数据库中数据的格式要一一对应 #pg库相关信息database_connection="jdbc:postgresql://192.168.0.2:8080/db_name" database_username="user" database_password="pass" databaseTableName="te...

hive数据库手动迁移一个表

假设需要把集群q1下的hive数据库a下面的表a1迁移到集群q2下 1、将q1集群下的a1表对应的hdfs文件拷贝到q1集群下的/test/test 2、在集群q2的某个数据库下面创建hive的schema外部表，注意路径/test/test要填正确 3、如果是分区表的话，输入msck repair table zppanalysis1;修复分区，非分区表的话到第二步迁移后的表就可以用于查询了

hive与传统数据库的比较【图】

Hive explain执行计划详解【代码】

Hive explain执行计划详解 HIVE提供了EXPLAIN命令来展示一个查询的执行计划,这个执行计划对于我们了解底层原理，hive 调优，排查数据倾斜等很有帮助使用语法如下： EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION | ANALYZE] query explain 后面可以跟以下可选参数，注意：这几个可选参数不是 hive 每个版本都支持的 EXTENDED：加上 extended 可以输出有关计划的额外信息。这通常是物理信息，例如文件名。这些额外信息对我们用...

spark sql/hive小文件问题【代码】

针对hive on mapreduce 1：我们可以通过一些配置项来使Hive在执行结束后对结果文件进行合并：参数详细内容可参考官网：https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties1 2 3 4hive.merge.mapfiles 在 map-only job后合并文件，默认true hive.merge.mapredfiles 在map-reduce job后合并文件，默认false hive.merge.size.per.task 合并后每个文件的大小，默认256000000 hive.merge.smallfiles.avgsize ...

SparkSQL与Hive on Spark的比较【图】

简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中，Spark和MapReduce在同一个层级，即主要解决分布式计算框架的问题。架构Spark的架构如下图所示，主要包含四大组件：Driver、Master、Worker和Executor。Spark特点 Spark可以部署在YARN上 Spark原生支持对HDFS文件系统的访问使用Scala语言编写部署模型1. 单机模型：主要用来开发测试。特点：Driver、Master、Worker和Executor都运行在同一...

Hive默认数据库修改配置【代码】【图】

root用户下：上传mysql安装包(mysql-5.5.32.tar.gz)到/install目录下,并解压安装; 二、hadoop用户下：上传mysql驱动包(mysql-connector-java-3.0.17-ga-bin.jar )到/software/hive-1.2.2/lib 修改Hive的配置文件：vi /software/hive-1.2.2/conf/hive-site.xml更改数据库连接方式：394 <property> 395 <name>javax.jdo.option.ConnectionURL</name> 396  ...

同样的SQL语句在SparkSQL中运行和在hive运行，结果不同

参考：https://blog.csdn.net/happylin0x29a/article/details/8855716问题原因：为了优化读取parquet格式文件，spark默认选择使用自己的解析方式读取数据，结果读出的数据就有问题。解决办法：将配置项spark.sql.hive.convertMetastoreParquet 改为false就行了

JDBC连接HIVE【代码】

代码连接hive需要先启动hive的metastore和hiveserver2hive --service metastore & hive --service hiveserver2 &其中hive-site.xml的配置为：<configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.174.131:3306/hive?createDatabaseIfNotExist=true</value> <description>JDBC connect string for a JDBC metastore</description> </property><property> <name>javax.jdo.option....

首页 / 更多教程 / spark sql/hive小文件问题

spark sql/hive小文件问题

内容导读

内容图文

内容总结

内容备注

内容手机端

【spark sql/hive小文件问题】教程文章相关的互联网学习教程文章

hive-sql【代码】

Hive Bug修复:ORC表中array数据类型长度超过1024报异常

hive 遇到的问题及解决方法【代码】

Hive并行排序

【Hive】JDBC操作

hive SQL的常用设置【代码】

sqoop将hive数据导出到关系型数据库

hive数据库手动迁移一个表

hive与传统数据库的比较【图】

Hive explain执行计划详解【代码】

spark sql/hive小文件问题【代码】

SparkSQL与Hive on Spark的比较【图】

Hive默认数据库修改配置【代码】【图】

同样的SQL语句在SparkSQL中运行和在hive运行，结果不同

JDBC连接HIVE【代码】

更多教程 - 最新教程

更多教程 - 最热教程