首页 / ORACLE / Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表

Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5651字，纯文字阅读大概需要9分钟。

内容图文

Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表

将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。通过Sqoop将Oracle中表的导入Hive，模拟全量表和

需求

将Oracle中的业务基础表增量数据导入Hive中，与当前的全量表合并为最新的全量表。

设计

涉及的三张表：

步骤：

通过Sqoop将Oracle中的表导入Hive，模拟全量表和增量表

通过Hive将“全量表+增量表”合并为“更新后的全量表”，覆盖当前的全量表

步骤1：通过Sqoop将Oracle中表的导入Hive，模拟全量表和增量表

为了模拟场景，需要一张全量表，和一张增量表，由于数据源有限，所以两个表都来自Oracle中的OMP_SERVICE，全量表包含所有数据，，在Hive中名称叫service_all，增量表包含部分时间段数据，在Hive中名称叫service_tmp。

（1）全量表导入：导出所有数据，只要部分字段，导入到Hive指定表里

为实现导入Hive功能，需要先配置HCatalog（HCatalog是Hive子模块）的环境变量，/etc/profile中新增：

export HCAT_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin/hcatalog

执行以下命令导入数据：

fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import \

> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong \

> --table OMP_SERVICE \

> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL" \

> --hive-import --hive-table SERVICE_ALL

注意：用户名必须大写

（2）增量表导入：只导出所需时间范围内的数据，只要部分字段，导入到Hive指定表里

使用以下命令导入数据：

fulong@FBI006:~/Sqoop/sqoop-1.4.4/bin$ ./sqoop import \

> --connect jdbc:oracle:thin:@192.168.0.147:1521:ORCLGBK --username SP --password fulong \

> --table OMP_SERVICE \

> --columns "SERVICE_CODE,SERVICE_NAME,SERVICE_PROCESS,CREATE_TIME,ENABLE_ORG,ENABLE_PLATFORM,IF_DEL" \

> --where "CREATE_TIME > to_date('2012/12/4 17:00:00','yyyy-mm-dd hh24:mi:ss') and CREATE_TIME < to_date('2012/12/4 18:00:00','yyyy-mm-dd hh24:mi:ss')" \

> --hive-import --hive-overwrite --hive-table SERVICE_TMP

注意：

由于使用了--hive-overwrite参数，所以该语句可反复执行，往service_tmp表中覆盖插入最新的增量数据；

Sqoop还支持使用复杂Sql语句查询数据导入，相亲参见的“7.2.3.Free-form Query Imports”章节

（3）验证导入结果：列出所有表，统计行数，查看表结构

hive> show tables;

searchlog

searchlog_tmp

service_all

service_tmp

Time taken: 0.04 seconds, Fetched: 4 row(s)

hive> select count(*) from service_all;

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks determined at compile time: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=

In order to set a constant number of reducers:

set mapreduce.job.reduces=

Starting Job = job_1407233914535_0013, Tracking URL = :8088/proxy/application_1407233914535_0013/

Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0013

Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

2014-08-21 16:51:47,389 Stage-1 map = 0%, reduce = 0%

2014-08-21 16:51:59,816 Stage-1 map = 33%, reduce = 0%, Cumulative CPU 1.36 sec

2014-08-21 16:52:01,996 Stage-1 map = 67%, reduce = 0%, Cumulative CPU 2.45 sec

2014-08-21 16:52:07,877 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 3.96 sec

2014-08-21 16:52:17,639 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.29 sec

MapReduce Total cumulative CPU time: 5 seconds 290 msec

Ended Job = job_1407233914535_0013

MapReduce Jobs Launched:

Job 0: Map: 3 Reduce: 1 Cumulative CPU: 5.46 sec HDFS Read: 687141 HDFS Write: 5 SUCCESS

Total MapReduce CPU Time Spent: 5 seconds 460 msec

6803

Time taken: 59.386 seconds, Fetched: 1 row(s)

hive> select count(*) from service_tmp;

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks determined at compile time: 1

In order to change the average load for a reducer (in bytes):

set hive.exec.reducers.bytes.per.reducer=

In order to limit the maximum number of reducers:

set hive.exec.reducers.max=

In order to set a constant number of reducers:

set mapreduce.job.reduces=

Starting Job = job_1407233914535_0014, Tracking URL = :8088/proxy/application_1407233914535_0014/

Kill Command = /home/fulong/Hadoop/hadoop-2.2.0/bin/hadoop job -kill job_1407233914535_0014

Hadoop job information for Stage-1: number of mappers: 3; number of reducers: 1

2014-08-21 16:53:03,951 Stage-1 map = 0%, reduce = 0%

2014-08-21 16:53:15,189 Stage-1 map = 67%, reduce = 0%, Cumulative CPU 2.17 sec

2014-08-21 16:53:16,236 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 3.38 sec

2014-08-21 16:53:57,935 Stage-1 map = 100%, reduce = 22%, Cumulative CPU 3.78 sec

2014-08-21 16:54:01,811 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 5.34 sec

MapReduce Total cumulative CPU time: 5 seconds 340 msec

Ended Job = job_1407233914535_0014

MapReduce Jobs Launched:

Job 0: Map: 3 Reduce: 1 Cumulative CPU: 5.66 sec HDFS Read: 4720 HDFS Write: 3 SUCCESS

Total MapReduce CPU Time Spent: 5 seconds 660 msec

Time taken: 75.856 seconds, Fetched: 1 row(s)

hive> describe service_all;

service_code string

service_name string

service_process string

create_time string

enable_org string

enable_platform string

if_del string

Time taken: 0.169 seconds, Fetched: 7 row(s)

hive> describe service_tmp;

service_code string

service_name string

service_process string

create_time string

enable_org string

enable_platform string

if_del string

Time taken: 0.117 seconds, Fetched: 7 row(s)

合并新表的逻辑如下：

整个tmp表进入最终表中

all表的数据中不包含在tmp表service_code范围内的数据全部进入新表

执行以下sql语句可以合并得到更新后的全量表：

内容总结

以上是互联网集市为您收集整理的Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表全部内容，希望文章能够帮你解决Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/554734.html

来源：【匿名】

【上一篇】ORA-07274:spdcr:accesserror,accesstooracledenied.【下一篇】Oracle Faq(Oracle TAF的配置)

更多 ►

【Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表】教程文章相关的互联网学习教程文章

oracle10g 基于linux6安装问题收集

1.[oracle@rsyslogserver database]$ dbca -silent -responseFile /home/oracle/database/dbca.rsp No command specified to perform. Please specify one of following commands:createDatabase, createTemplateFromDB or createCloneTemplateNo command specified to perform. Please specify one of following commands:createDatabase, createTemplateFromDB or createCloneTemplate [oracle@rsyslogserver database]$ vi dbca...

oracle10g登录em后,提示“java.lang.Exception: Exception in sending Request :: null”【图】

出现错误时登录企业管理器时出现的界面出现这种错误一般是因为没有设置时区，一般默认的是agentTZRegion=GMT，也就是GMT。所以大家只要设置了这个东西，然后重新启动dbconsole就可以了。下面是设置以及重新启动dbconsole的全过程。第一步，在Oracle安装目录中找打这个文件emd.properties（以往大家都是找不到这个文件在哪里），D:\oracle\product\10.2.0\db_1\PC-20111014FOHC_orcl\sysman\config，我的这个文件就是在这个路径下。...

配置oracle10g rac使用过的一些脚本

#用户设置 groupadd -g 1000 oinstall groupadd -g 1100 dba useradd -u 1001 -g oinstall -G dba oracle mkdir -p /oracle chown -R oracle:oinstall /oracle chmod -R 755 /oracle mkdir -p /kk#修改环境变量配置 export ORACLE_BASE=/oracle export ORACLE_HOME=$ORACLE_BASE/product/10.2.0 export ORA_CRS_HOME=$ORACLE_BASE/product/crs export ORACLE_SID=EDWPRD1 export PATH=$PATH:$HOME/bin:$ORACLE_HOME/bin:$ORA_CRS_H...

在64位WindowsServer2012R2中安装Oracle10g第二版(10.2.0.4.0)-20160106

1.操作系统版本用于安装数据库的操作系统镜像文件名为：cn_windows_server_2012_r2_vl_with_update_x64_dvd_6052729.iso安装DataCenter（带GUI）版本虚拟机VMware12成功真机（有线网卡、无线网卡、虚拟网卡环境）成功，别忘记了修改listener.ora中的机器名，修改Listener后第一次重启可用，再次重启无法连接数据库 2.数据库版本安装的数据库文件名为：10204_vista_w2k8_x64_production_db.zip(710,440,513 字节) 3.数据库安装...

对Oracle10g rac ons服务的一些理解【代码】

1.什么是ONS ONS(Oracle Notification Service)是Oracle Clusterware 实现FAN Event Push模型的基础。在传统模型中，客户端需要定期检索服务器来判断服务端的状态，本质上是一个PULL模型。ORACLE10引入了一种全新的PUSH机制--FAN(Fast Application Notification),当服务端发生某些事件时，服务器会主动的通知客户端这种变化，这样客户端就能尽早得知服务器端变化。而这种机制就是依赖ONS实现的。通常使用onsctl命令管理配...

Centos下静默安装oracle10g【代码】【图】

Centos6/7下静默安装Oracle10g远程安装oracle10g,通过网上资料，不断摸索成功安装。先在本地虚拟机上做实验，快照恢复快照恢复，安装了几十次成功之后，再在服务器上安装，中间遇到各种问题特记录下来分享。在linux下安装oracle主要：1.关闭不必要的服务 2.安装必要的依赖包 3.根据系统版本选择合适的oracle安装包 4.添加用户和用户组，创建安装文件夹 5.配置系统环境（创建修改各种文件） 6.安装软件并建库检查硬件需求（略）关闭...

LINUX中oracle10g安装【图】

LINUX中oracle10g安装步骤：步骤一：copy文件到虚拟机把压缩文件(压缩文件如图1)转移到LINUX虚拟机里面路径如下：home/oracle 或者代码移动：用root用户将FTP至Linux中的Oracle安装文件移动到 mv ****.zip /目录步骤二：对压缩文件进行解压和安装 1，先到oracle目录下面 cd oracle/ 2，对压缩文件一一进行解压 unzip *.zip 3，使用chown -R Oracle:oinstall database/ 修改目录归属---本意为：此目录为Oracle用户的oinstall群体...

oracle10g和oracle11g导入导出数据区别

其中flxuser为用户名，flxuser为密码，file值为导入到数据库中的备份文件。 oracle10g和oracle11g导入导出数据的命令方式大有不同：oracle10g导入数据： imp flxuser/flxuser file=test.dmp log=test_20140507.log full=yoracle10g导出数据： Exp flxuser/flxuser owner =flxuser buffer=102400000 file=test.dmp Log=test_20140507.log在导入数据之前，可重新创建目录，将备份文件放置在这个目录中：cre...

oracle10g 数据备份与导入

oracle10g数据备份 1.用sql/plus developer,选中要备份的数据表，右击选择"Export data" 2.在弹出的对话框中最后选择要保持数据库表信息的路径 3.点击“export” ok! 导入oracle10g数据备份 1.在sql/plus developer中选择菜单栏的“tools”单击 2.选择“import tables” 3.在弹出的对话框中填写好“import file”路径 4.单击“import” ok原文：http://www.jb51.ne...

【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详细解释

hadoop2.2.0hive0.13.1Ubuntu 14.04 LTSjava version "1.7.0_60"Oracle10g ***欢迎转载。请注明来源*** http://blog.csdn.net/u010967382/article/details/38709751到下面地址下载安装包http://mirrors.cnnic.cn/apache/hive/stable/apache-hive-0.13.1-bin.tar.gz安装包解压到server上/home/fulong/Hive/apache-hive-0.13.1-bin 改动环境变量，加入下面内容export HIVE_HOME=/home/fulong/Hive/apache-hive-0.13.1-bin export PA...

oracle10g服务器端RAC负载均衡配置代码

前面我们介绍了RAC的客户端负载均衡配置，接下来就到了服务器端RAC负载均衡配置的具体代码介绍了，通过两方面的配置和测试之后，整个负载均衡才能完全的设置好。那么就让我们赶紧来看一下啊具体的服务器端RAC负载均衡配置内容吧。从Oracle 10g开始,服务器端前面我们介绍了RAC的客户端负载均衡配置，接下来就到了服务器端RAC负载均衡配置的具体代码介绍了，通过两方面的配置和测试之后，整个负载均衡才能完全的设置好。那么就让我们...

在Oracle10g中如何删除归档日志【图】

今天一个朋友问我在Oracle10g中如何删除归档日志，就这个问题作如下回答：Oracle中归档日志不能通过操作系统（OS）级命令直接删除今天一个朋友问我在Oracle10g中如何删除归档日志，就这个问题作如下回答： Oracle中归档日志不能通过操作系统（OS）级命令直接删除，因为归档日志的一些信息在控制文件中是有记录的，而且如果使用OS级命令直接删除以后，控制文件中的信息是不会改变的，还有，就是相关系统视图中的信息也不会发生改变...

CentOS5.564位安装Oracle10g日志【图】

安装日志[20100707]1.DELL服务器2.安装CentOS 5.5 （64位）注意swap通常为4G3。安装Oracle 10.2 （64位）grep MemTotal /proc/me 安装日志[20100707]1.DELL服务器2.安装CentOS 5.5 （64位）注意swap通常为4G3。安装Oracle 10.2 （64位） grep MemTotal /proc/meminfo grep SwapTotal /proc/meminfo uname -mi4 检查环境：rpm -q --qf %{NAME}-%{VERSION}-%{RELEASE} (%{ARCH})\n \ binutils compat-db control-center gcc gcc...

查看修改Oracle10G归档日志空间的限制【图】

在Oracle10G中，默认的归档路径为$Oracle_BASE/flash_recovery_area。对于这个路径，Oracle有一个限制，就是默认只能有2G的空　　在Oracle10G中，，默认的归档路径为$Oracle_BASE/flash_recovery_area。对于这个路径，Oracle有一个限制，就是默认只能有2G的空间给归档日志使用，可以使用下面两个SQL语句去查看它的限制：1. select * from v$recovery_file_dest;2. show parameter db_recovery_file_dest(这个更友好直观一些)当归档...

Oracle10g添加、删除日志组【图】

这个实际上是个比较常见的错误。通常来说是因为在日志被写满时会切换日志组，这个时候会触发一次checkpoint，DBWR会把内存中的脏做日常巡检的时候发现alert日志中有这个错误 Thread 1 cannot allocate new log, sequence 319708 Checkpoint not complete 这个实际上是个比较常见的错误。通常来说是因为在日志被写满时会切换日志组，这个时候会触发一次checkpoint，，DBWR会把内存中的脏块往数据文件中写，只要没写结束就不会释放这...

ORACLE10G - 相关标签

oracle10g

ORACLE - 最热教程

Oracle11g 创建数据库中问题处理（必须...Oracle 查看索引表空间 Navicat报错-ORA-28547：connection to...oracle 查看最大连接数 Oracle中合并数据集(多行变一行)Navicat如何添加oracle的oci.dll插件，...oracle如何将am,pm时间字符串改为时间格...for update造成的Oracle锁表与解锁 phppdooracle中文乱码的快速解决方法_P...Oracle分区表新增主分区及子分区语句

首页 / ORACLE / Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表

Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表

内容导读

内容图文

内容总结

内容备注

内容手机端

【Sqoop1.4.4实现将Oracle10g中的增量数据导入Hive0.13.1，并更新Hive中的主表】教程文章相关的互联网学习教程文章

oracle10g 基于linux6安装问题收集

oracle10g登录em后,提示“java.lang.Exception: Exception in sending Request :: null”【图】

配置oracle10g rac使用过的一些脚本

在64位WindowsServer2012R2中安装Oracle10g第二版(10.2.0.4.0)-20160106

对Oracle10g rac ons服务的一些理解【代码】

Centos下静默安装oracle10g【代码】【图】

LINUX中oracle10g安装【图】

oracle10g和oracle11g导入导出数据区别

oracle10g 数据备份与导入

【甘道夫】Hive 0.13.1 on Hadoop2.2.0 + Oracle10g部署详细解释

oracle10g服务器端RAC负载均衡配置代码

在Oracle10g中如何删除归档日志【图】

CentOS5.564位安装Oracle10g日志【图】

查看修改Oracle10G归档日志空间的限制【图】

Oracle10g添加、删除日志组【图】

ORACLE10G - 相关标签

数据 - 相关标签

ORACLE - 最新教程

ORACLE - 最热教程