首页 / JAVA / java – Hive：在主表上执行递增更新的最佳方法

java – Hive：在主表上执行递增更新的最佳方法

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了java – Hive：在主表上执行递增更新的最佳方法，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1248字，纯文字阅读大概需要2分钟。

内容图文

所以我在Hive中有一个主表,它将存储我的所有数据.

我希望能够加载每月的增量数据更新
拥有大量数据的十亿行.会有新数据
以及更新的条目.

解决此问题的最佳方法是什么,我知道Hive最近升级并支持更新/插入/删除.

我一直在想的是以某种方式找到将要更新的条目并从主表中删除它们然后只插入新的增量更新.但是在尝试此操作后,插入速度非常快,但删除速度非常慢.

另一种方法是使用update语句执行某些操作以匹配主表和增量更新中的键值并更新其字段.我还没试过这个.这听起来也很痛苦,因为Hive必须逐个更新每个条目.

任何人都有任何想法,如何最有效和最有效地做到这一点？
我对Hive和数据库很新.

解决方法:

如果您无法使用MERGE在ACID模式下更新,则可以使用FULL OUTER JOIN进行更新.
要查找将要更新的所有条目,您需要使用旧数据加入增量数据：

insert overwrite target_data [partition() if applicable]
SELECT
  --select new if exists, old if not exists
  case when i.PK is not null then i.PK   else t.PK   end as PK,
  case when i.PK is not null then i.COL1 else t.COL1 end as COL1,
  ... 
  case when i.PK is not null then i.COL_n else t.COL_n end as COL_n
  FROM 
      target_data t --restrict partitions if applicable
      FULL JOIN increment_data i on (t.PK=i.PK);

可以通过限制将被覆盖和连接的target_data中的分区来优化它.

此外,如果要使用新数据更新所有列,可以将此解决方案应用于UNION ALL row_number()：https://stackoverflow.com/a/44755825/2700344

内容总结

以上是互联网集市为您收集整理的java – Hive：在主表上执行递增更新的最佳方法全部内容，希望文章能够帮你解决java – Hive：在主表上执行递增更新的最佳方法所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/753075.html

来源：【匿名】

【上一篇】java – HashMap / ArrayList中的错误或错误的代码？【下一篇】JAVA/JSP学习系列之五

更多 ►

【java – Hive：在主表上执行递增更新的最佳方法】教程文章相关的互联网学习教程文章

hadoop2.6.0+hive1.2启动报错java.lang.IncompatibleClassChangeError

java.lang.IncompatibleClassChangeError 不兼容的类变化错误。当正在执行的方法所依赖的类定义发生了不兼容的改变时，抛出该异常。一般在修改了应用中的某些类的声明定义而没有对整个应用重新编译而直接运行的情况下，容易引发该错误。【报错信息】[ERROR] Terminal initialization failed; falling back to unsupportedjava.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected ...

Hive报错 Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name%7D【代码】

报错信息如下Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name%7D解决方法：编辑 hive-site.xml 文件，添加下边的属性<property> <name>system:java.io.tmpdir</name> <value>/home/hive/apache-hive-1.2.2-bin/iotmp</value> <description/> </property>并修改属性hive.exec.local.scratchdir <property><name>h...

hive 使用where条件报错 java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNode

hadoop 版本 2.6.0hive版本 1.1.1错误：java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNod……解决办法1，修改Hive的配置文件conf/hive-site.xmlhive.optimize.ppd==false然后重启hadoop环境2，hive命令行：执行set hive.optimize.ppd=false;原文：http://www.cnblogs.com/looye-5/p/5685539.html

hive 报错 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:344) at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:681) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:625) at sun...

Hive报错java.io.IOException: Could not find status of job:job_1597734649426_961875【图】

hive执行插入数据操作报错：在hive console里面输入： set hive.jobname.length=100;如下所示：再次执行好了；原文：https://www.cnblogs.com/suhaha/p/14086887.html

java连接Hive的几种方式

测试环境　Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.6 1、一般来说我们对hive的操作都是通过cli来进行，也就是Linux的控制台，但是，这样做本质上是每个连接都存放一个元数据，各个之间都不相同，所以，对于这样的模式我建议是用来做一些测试比较合适，并不适合做产品的开发和应用。 2、JDBC连接的方式，当然还有其他的连接方式，比如ODBC等，　这种方式很常用，可以在网上随便找到，就不再累赘了。不稳定，经常会被大数据量冲挂，...

hive执行query语句时提示错误：org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:

hive> select product_id, track_time from trackinfo limit 5; Total MapReduce jobs = 1 Launching Job 1 out of 1 Number of reduce tasks is set to 0 since there‘s no reduce operator org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException: The number of tasks for this job 156028 exceeds the configured limit 5000at org.apache.hadoop.mapred.JobTracker.submitJo...

为什么数据分析一般用到java，而不是使用hadoop，flume，hive的api使用php来处理相关业务？

为什么数据分析一般用到java，而不是使用hadoop，flume，hive的api使用php来处理相关业务？回复内容：为什么数据分析一般用到java，而不是使用hadoop，flume，hive的api使用php来处理相关业务？像传统的关系数据库,进行数据分析的时候难道不是直接使用SQL吗? 如果要分析Web服务器日志,用PHP也完全可以呀,file()读入文件,每行就是数组的一个元素,然后通过分割或者正则匹配就能拿到每一列的内容.如果文件很大,可以调用命令split进行切...

Hive-FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeEx【图】

一、问题 Hive安装好以后，查看数据库时提示“FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient”. 二、原因分析 Hadoop安装版本为2.9.2，Hive安装版本为2.3.8，网查可能是版本原因（官网查版本是支持的http://hive.apache.org/downloads.html）。后续再测试2.3.8版本。三、...

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

从零基础到高级，一对一技术培训！全程技术指导！[技术QQ：2937765541] https://item.taobao.com/item.htm?id=535950178794 ------------------------------------------------------------------------------------- Java互联网架构师培训！https://item.taobao.com/item.htm?id=536055176638大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互...

Hive JDBC:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous【代码】

java.sql.SQLException: Could not open client transport with JDBC Uri: jdbc:hive2://192.168.182.11:10000/default: Failed to open new session: java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous at org.apache.hive.jdbc.HiveConnection.<init>(HiveConnection.java:224) at ...

hadoop2.7.5安装hive2.1.1启动报错Caused by: java.sql.SQLException: Access denied for user ‘root‘@‘node03‘【代码】【图】

1.报错截图和日志 hadoop2.7.5安装hive2.1.1启动报错 Caused by: java.sql.SQLException: Access denied for user ‘root’@‘node03’ (using password: YES) at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:965) [root@node03 apache-hive-2.1.1-bin]# bin/hive which: no hbase in (:/export/servers/apache-hive-2.1.1-bin/bin::/export/servers/hadoop-2.7.5/bin:/export/servers/hadoop-2.7.5/sbin::/expor...

Hadoop学习(7)-hive的安装和命令行使用和java操作【图】

Hive的用处，就是把hdfs里的文件建立映射转化成数据库的表但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理，并不是真正的在数据库里进行了操作。而那些表的定义则是储存在了mysql数据库中，他只是记录相应表的定义所以你的集群中要有一台机器装了mysql 装hive，装到哪都行然后解压tar –zxvf xxxxx –C apps 然后进入到这个目录里下的conf里创建hive-site.xml文件告诉他mysql在哪，连接驱动是啥，用户名和...

java – Apache Hive：无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient【代码】

我正在尝试安装Apache Hive,我将HIVE_HOME和HADOOP_HOME插入hive_config.sh并将一些hive jar复制到$HADOOP_HOME / lib中但是当我尝试使用hive命令启动它时,会出现以下错误：Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:346) at...

hive语句分区归档时报错：java.lang.NoClassDefFoundError: org/apache/hadoop/tools/HadoopArchives【图】

一、报错信息：在我执行分区归档时命令：alter table hive_text archive partition (folder=docs); 报错如下：查看日志：cat /tem/hive/root/hive.log(这是我的日志路径),报错日志如下默认日志路径：/tmp/<user.name>文件夹的hive.log文件中，全路径就是/tmp/当前用户名(root)/hive.log。2019-08-30 04:15:34,496 ERROR [main]: exec.DDLTask (DDLTask.java:failed(520)) - java.lang.NoClassDefFoundError: org/apache/hadoop/t...

首页 / JAVA / java – Hive：在主表上执行递增更新的最佳方法

java – Hive：在主表上执行递增更新的最佳方法

内容导读

内容图文

内容总结

内容备注

内容手机端

【java – Hive：在主表上执行递增更新的最佳方法】教程文章相关的互联网学习教程文章

hadoop2.6.0+hive1.2启动报错java.lang.IncompatibleClassChangeError

Hive报错 Failed with exception java.io.IOException:java.lang.IllegalArgumentException: java.net.URISyntaxException: Relative path in absolute URI: ${system:user.name%7D【代码】

hive 使用where条件报错 java.lang.NoSuchMethodError: org.apache.hadoop.hive.ql.ppd.ExprWalkerInfo.getConvertedNode

hive 报错 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient

Hive报错java.io.IOException: Could not find status of job:job_1597734649426_961875【图】

java连接Hive的几种方式

hive执行query语句时提示错误：org.apache.hadoop.ipc.RemoteException: java.io.IOException: java.io.IOException:

为什么数据分析一般用到java，而不是使用hadoop，flume，hive的api使用php来处理相关业务？

Hive-FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeEx【图】

大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算视频教程 Java互联网架构师【图】

Hive JDBC:java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.authorize.AuthorizationException): User: root is not allowed to impersonate anonymous【代码】

hadoop2.7.5安装hive2.1.1启动报错Caused by: java.sql.SQLException: Access denied for user ‘root‘@‘node03‘【代码】【图】

Hadoop学习(7)-hive的安装和命令行使用和java操作【图】

java – Apache Hive：无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient【代码】

hive语句分区归档时报错：java.lang.NoClassDefFoundError: org/apache/hadoop/tools/HadoopArchives【图】

JAVA - 相关标签

执行 - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程