【Java-从MySQL到Hive导入,其中MySQL在Windows上运行,而Hive在Cent OS上运行(Horton Sandbox)】教程文章相关的互联网学习教程文章

java – 在Hive中使用UDF调试信息【代码】

我正在努力让GeoIP与蜂巢一起工作.我发现了这个:http://www.jointhegrid.com/hive-udf-geo-ip-jtg/index.jsp,这似乎正是我想要的. 我建了罐子(我没有java经验,所以我只希望我做了这个部分),将它们添加到我的查询中并得到:hive> ADD jar hive-udf-geo-ip-jtg.jar; Added hive-udf-geo-ip-jtg.jar to class path Added resource: hive-udf-geo-ip-jtg.jar hive> ADD jar geo-ip-java.jar; Added geo-ip-java.jar to class path Add...

Java使用JDBC连接Hive【代码】

最近一段时间,处理过一个问题,那就是hive jdbc的连接问题,其实也不是大问题,就是url写的不对,导致无法连接。问题在于HiveServer2增加了别的安全验证,导致正常的情况下,传递的参数无法使用,hive连接返回用户为空的错误,具体错误不再详谈,今天就说说jdbc的url书写问题。正常情况下的url:jdbc:hive2://node1:10000/default  这种情况下,都是默认的,没有权限限制。从这个示例而已看出,URL的基本格式为:jdbc:hive2://H...

java – Hive:在主表上执行递增更新的最佳方法【代码】

所以我在Hive中有一个主表,它将存储我的所有数据. 我希望能够加载每月的增量数据更新拥有大量数据的十亿行.会有新数据以及更新的条目. 解决此问题的最佳方法是什么,我知道Hive最近升级并支持更新/插入/删除. 我一直在想的是以某种方式找到将要更新的条目并从主表中删除它们然后只插入新的增量更新.但是在尝试此操作后,插入速度非常快,但删除速度非常慢. 另一种方法是使用update语句执行某些操作以匹配主表和增量更新中的键值并更新...

java – 使用cloudera hive jdbc pom问题的Spring启动【代码】

我正在使用spring boot rest controller并使用JDBC访问我的Hive表. 以下是我的pom.xml<dependency><groupId>org.apache.hive</groupId><artifactId>hive-jdbc</artifactId><version>${cdh.hive.version}</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>${cdh.hadoop.version}</version></dependency><dependency><groupId>org.springframework.boot</gro...

java – 尝试使用自定义SerDe创建Hive表时出错【代码】

我有一个包含需要上传到Hive表的数据的文件.我写了一个自定义SerDe(它基本上是Hive已经提供的Regex Serde的修改)来帮助我上传数据. 这是我写的SerDepackage my.hive.customserde;public class FIASC2 extends AbstractSerDe {public static final Log LOG = LogFactory.getLog(FIASC2.class.getName());int colwidths[] = {1, 10, 6, 12, 8, 14, 16, 6, 6, 2, 10, 10, 19, 2, 2, 6, 8, 1};String outputformat = "%1$s %2$s %3$s %...

java – Apache Spark,创建hive上下文 – NoSuchMethodException【代码】

我有以下问题,我的主要方法是:static public void main(String args[]){SparkConf conf = new SparkConf().setAppName("TestHive");SparkContext sc = new org.apache.spark.SparkContext(conf);HiveContext hiveContext = new org.apache.spark.sql.hive.HiveContext(sc); }我用mvn包构建它然后我提交我的代码,但是我得到以下异常.我不知道出了什么问题:sh spark-submit --class "TestHive" --master local[4] ~/target/tes...

java – Hive / ElasticMapreduce:如何让JsonSerDe忽略格式错误的JSON?【代码】

我是Hive和ElasticMapreduce的新手,目前我遇到了一个特定的问题.在具有数十亿行JSON对象的表上运行Hive语句时,只要其中一行是无效/格式错误的JSON,MapReduce作业就会崩溃. 例外:java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing writable {"ip":"39488130","cdate":"2012-08-09","cdate_ts":"2012-08-09 17:06:41","country":"SA","city":"Riyadh","mid":"66...

如何使用java在hive中创建表?【代码】

我想使用Java在hive中创建一个表.使用以下方法执行此操作:public class HiveCreateTable {private static String driverName = "com.facebook.presto.jdbc.PrestoDriver";public static void main(String[] args) throws SQLException {// Register driver and create driver instancetry {Class.forName(driverName);} catch (ClassNotFoundException e) {// TODO Auto-generated catch blocke.printStackTrace();}System.out.pr...

java – 从单个Hive UDF创建多个列【代码】

我正在使用Amazon EMR和Hive 0.11.我正在尝试创建一个Hive UDF,它将从一个UDF调用返回多个列. 例如,我想调用类似下面的UDF并返回几个(命名)列.SELECT get_data(columnname) FROM table;我无法找到完成此文档的文档,但是听说如果使用Generic UDF则可以.有没有人知道需要从evaluate()方法返回什么才能工作?解决方法:我只是使用GenericUDTF.在编写GenericUDTF的udf扩展后,你的udtf应该实现两个重要的方法:初始化和评估. >在初始化中...

异常java.io.IOException失败:org.apache.avro.AvroTypeException:发现很长,期待在hive中联合【代码】

需要帮忙!!! 我正在使用flume将twitter feed传输到hdfs并将其加载到hive中进行分析. 步骤如下: hdfs中的数据: 我在avsc文件中描述了avro架构并将其放在hadoop中:{"type":"record","name":"Doc","doc":"adoc","fields":[{"name":"id","type":"string"},{"name":"user_friends_count","type":["int","null"]},{"name":"user_location","type":["string","null"]},{"name":"user_description","type":["string","null"]},{"name...

Kylin build Cube的时候出现java.lang.NoClassDefFoundError: org/apache/hive/hcatalog/mapreduce/HCatInputFor【图】

在build一个Cube,大概进行到第二步的时候出现如下异常:java.lang.NoClassDefFoundError: org/apache/hive/hcatalog/mapreduce/HCatInputFormat at org.apache.kylin.source.hive.HiveMRInput$HiveTableInputFormat.configureJob(HiveMRInput.java:94) at org.apache.kylin.engine.mr.steps.FactDistinctColumnsJob.setupMapper(FactDistinctColumnsJob.java:122) at org.apache.kylin.engine.mr.steps.FactDistinctColumnsJob.run...

Java-从MySQL到Hive导入,其中MySQL在Windows上运行,而Hive在Cent OS上运行(Horton Sandbox)【代码】

在任何答案和评论之前.我尝试了在Stackoverflow中找到的几个选项,但均以失败告终.以下是这些链接- > How can I execute Sqoop in Java?> How to use Sqoop in Java Program?> How to import table from MySQL to Hive using Java?> How to load SQL data into the Hortonworks? 我通过命令行在Horton Sandbox中进行了尝试并成功.sqoop import --connect jdbc:mysql://192.168.56.101:3316/database_name --username=user --passwor...

java通过JDBC连接hive数据库【图】

(1)首先在命令框中打开hadoop, (2)然后 cd ~;hive --service hiveserver2 & 打开hive连接的权限 (3)新建一个java项目,在项目根目录下新建一个lib文件夹,并将mysql的两个包放入,然后右键——》build path——》add to library(由于我已经导入了所以下面的图里没这个选项) 由于hive在安装时是关联着mysql的,所以这两个包必须导入。 (4) 右击项目build path——》configue build path (5)选择 add external ja...