首页 / MYSQL / 利用Flume将MySQL表数据准实时抽取到HDFS

利用Flume将MySQL表数据准实时抽取到HDFS

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了利用Flume将MySQL表数据准实时抽取到HDFS，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7680字，纯文字阅读大概需要11分钟。

内容图文

use test;
create table wlslog
(id int not null,
time_stamp varchar(40),
category varchar(40),
type varchar(40),
servername varchar(40),
code varchar(40),
msg varchar(40),
primary key ( id )
);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(1,‘apr-8-2014-7:06:16-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000365‘,‘server state changed to standby‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(2,‘apr-8-2014-7:06:17-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000365‘,‘server state changed to starting‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(3,‘apr-8-2014-7:06:18-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000365‘,‘server state changed to admin‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(4,‘apr-8-2014-7:06:19-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000365‘,‘server state changed to resuming‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(5,‘apr-8-2014-7:06:20-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000361‘,‘started weblogic adminserver‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(6,‘apr-8-2014-7:06:21-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000365‘,‘server state changed to running‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(7,‘apr-8-2014-7:06:22-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000360‘,‘server started in running mode‘);
commit;

2. 建立相关目录与文件

（1）创建本地状态文件
[plain] view plain copy

mkdir -p /var/lib/flume
cd /var/lib/flume
touch sql-source.status
chmod -R 777 /var/lib/flume

（2）建立HDFS目标目录
[plain] view plain copy

hdfs dfs -mkdir -p /flume/mysql
hdfs dfs -chmod -R 777 /flume/mysql

3. 准备JAR包

从http://book2s.com/java/jar/f/flume-ng-sql-source/download-flume-ng-sql-source-1.3.7.html下载flume-ng-sql-source-1.3.7.jar文件，并复制到Flume库目录。
[plain] view plain copy

cp flume-ng-sql-source-1.3.7.jar /usr/hdp/current/flume-server/lib/

将MySQL JDBC驱动JAR包也复制到Flume库目录。
[plain] view plain copy

cp mysql-connector-java-5.1.17.jar /usr/hdp/current/flume-server/lib/mysql-connector-java.jar

4. 建立HAWQ外部表

[sql] view plain copy

create external table ext_wlslog
(id int,
time_stamp varchar(40),
category varchar(40),
type varchar(40),
servername varchar(40),
code varchar(40),
msg varchar(40)
) location (‘pxf://mycluster/flume/mysql?profile=hdfstextmulti‘) format ‘csv‘ (quote=e‘"‘);

5. 配置Flume

在Ambari -> Flume -> Configs -> flume.conf中配置如下属性：
[plain] view plain copy

agent.channels.ch1.type = memory
agent.sources.sql-source.channels = ch1
agent.channels = ch1
agent.sinks = HDFS
agent.sources = sql-source
agent.sources.sql-source.type = org.keedio.flume.source.SQLSource
agent.sources.sql-source.connection.url = jdbc:mysql://172.16.1.127:3306/test
agent.sources.sql-source.user = root
agent.sources.sql-source.password = 123456
agent.sources.sql-source.table = wlslog
agent.sources.sql-source.columns.to.select = *
agent.sources.sql-source.incremental.column.name = id
agent.sources.sql-source.incremental.value = 0
agent.sources.sql-source.run.query.delay=5000
agent.sources.sql-source.status.file.path = /var/lib/flume
agent.sources.sql-source.status.file.name = sql-source.status
agent.sinks.HDFS.channel = ch1
agent.sinks.HDFS.type = hdfs
agent.sinks.HDFS.hdfs.path = hdfs://mycluster/flume/mysql
agent.sinks.HDFS.hdfs.fileType = DataStream
agent.sinks.HDFS.hdfs.writeFormat = Text
agent.sinks.HDFS.hdfs.rollSize = 268435456
agent.sinks.HDFS.hdfs.rollInterval = 0
agent.sinks.HDFS.hdfs.rollCount = 0

Flume在flume.conf文件中指定Source、Channel和Sink相关的配置，各属性描述如表1所示。

属性	描述
agent.channels.ch1.type	Agent的channel类型
agent.sources.sql-source.channels	Source对应的channel名称
agent.channels	Channel名称
agent.sinks	Sink名称
agent.sources	Source名称
agent.sources.sql-source.type	Source类型
agent.sources.sql-source.connection.url	数据库URL
agent.sources.sql-source.user	数据库用户名
agent.sources.sql-source.password	数据库密码
agent.sources.sql-source.table	数据库表名
agent.sources.sql-source.columns.to.select	查询的列
agent.sources.sql-source.incremental.column.name	增量列名
agent.sources.sql-source.incremental.value	增量初始值
agent.sources.sql-source.run.query.delay	发起查询的时间间隔，单位是毫秒
agent.sources.sql-source.status.file.path	状态文件路径
agent.sources.sql-source.status.file.name	状态文件名称
agent.sinks.HDFS.channel	Sink对应的channel名称
agent.sinks.HDFS.type	Sink类型
agent.sinks.HDFS.hdfs.path	Sink路径
agent.sinks.HDFS.hdfs.fileType	流数据的文件类型
agent.sinks.HDFS.hdfs.writeFormat	数据写入格式
agent.sinks.HDFS.hdfs.rollSize	目标文件轮转大小，单位是字节
agent.sinks.HDFS.hdfs.rollInterval	hdfs sink间隔多长将临时文件滚动成最终目标文件，单位是秒；如果设置成0，则表示不根据时间来滚动文件
agent.sinks.HDFS.hdfs.rollCount	当events数据达到该数量时候，将临时文件滚动成目标文件；如果设置成0，则表示不根据events数据来滚动文件

表1

6. 运行Flume代理

保存上一步的设置，然后重启Flume服务，如图2所示。
利用Flume将MySQL表数据准实时抽取到HDFS - 文章图片

图2
重启后，状态文件已经记录了将最新的id值7，如图3所示。
利用Flume将MySQL表数据准实时抽取到HDFS - 文章图片

图3
查看目标路径，生成了一个临时文件，其中有7条记录，如图4所示。
利用Flume将MySQL表数据准实时抽取到HDFS - 文章图片

图4
查询HAWQ外部表，结果也有全部7条数据，如图5所示。
利用Flume将MySQL表数据准实时抽取到HDFS - 文章图片

图5
至此，初始数据抽取已经完成。

7. 测试准实时增量抽取

在源表中新增id为8、9、10的三条记录。
[sql] view plain copy

use test;
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(8,‘apr-8-2014-7:06:22-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000360‘,‘server started in running mode‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(9,‘apr-8-2014-7:06:22-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000360‘,‘server started in running mode‘);
insert into wlslog(id,time_stamp,category,type,servername,code,msg) values(10,‘apr-8-2014-7:06:22-pm-pdt‘,‘notice‘,‘weblogicserver‘,‘adminserver‘,‘bea-000360‘,‘server started in running mode‘);
commit;

5秒之后查询HAWQ外部表，从图6可以看到，已经查询出全部10条数据，准实时增量抽取成功。
利用Flume将MySQL表数据准实时抽取到HDFS - 文章图片

图6

五、方案优缺点

利用Flume采集关系数据库表数据最大的优点是配置简单，不用编程。相比tungsten-replicator的复杂性，Flume只要在flume.conf文件中配置source、channel及sink的相关属性，已经没什么难度了。而与现在很火的canal比较，虽然不够灵活，但毕竟一行代码也不用写。再有该方案采用普通SQL轮询的方式实现，具有通用性，适用于所有关系库数据源。
这种方案的缺点与其优点一样突出，主要体现在以下几方面。

在源库上执行了查询，具有入侵性。
通过轮询的方式实现增量，只能做到准实时，而且轮询间隔越短，对源库的影响越大。
只能识别新增数据，检测不到删除与更新。
要求源库必须有用于表示增量的字段。

即便有诸多局限，但用Flume抽取关系库数据的方案还是有一定的价值，特别是在要求快速部署、简化编程，又能满足需求的应用场景，对传统的Sqoop方式也不失为一种有效的补充。

参考：

Flume架构以及应用介绍
Streaming MySQL Database Table Data to HDFS with Flume
how to read data from oracle using FLUME to kafka broker
https://github.com/keedio/flume-ng-sql-source

利用Flume将MySQL表数据准实时抽取到HDFS

标签：avr 服务 java 种类 post into 复制 ora 更新

本文系统来源：http://www.cnblogs.com/hark0623/p/7083278.html

内容总结

以上是互联网集市为您收集整理的利用Flume将MySQL表数据准实时抽取到HDFS全部内容，希望文章能够帮你解决利用Flume将MySQL表数据准实时抽取到HDFS所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/485017.html

来源：【匿名】

【上一篇】mysql 处理中文字符编码乱码【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【利用Flume将MySQL表数据准实时抽取到HDFS】教程文章相关的互联网学习教程文章

mysql删除表数据

delete from 表名;truncate table 表名; 原文：http://www.cnblogs.com/bbcar/p/3655769.html

Mysql CURD复习(数据库、表、数据)

###############################数据库的CURD:C: create database if not exists tp5_test default charset utf8;R: show databases;U: alert database tp5_test character utf8 collate utf8_general_ci;D: drop database if exists tp5_test;数据表的CURD:C:CREATE TABLE IF NOT EXISTS 数据表名称 ( 字段名称1 [AS 别名] 字段类型 [约束条件] [DEFAULT 默认值] [COMMENT 字段注释], 字段名称2 [AS 别名] 字段类型 [约束条...

MySQL表数据比较和Object全文搜索

原文：http://ucstudio.iteye.com/blog/2201798

安装sqoop，并将Mysql中的表数据导出到HDFS下的文本文件【图】

首先是安装mysql数据库。使用 sudo apt-get install mysql-server命令即可安装完成。然后进行表的创建和插入数据。如图。然后下载sqoop和连接mysql数据库的jar包。接下来是安装sqoop。首先是配置sqoop-env.sh文件。如图。然后将config-sqoop文件中不需要检查的注释掉。如图。然后接下来是将sqoop-1.4.4.jar包和连接mysql的jar包copy到hadoop目录下的lib目录中，同时把hadoop-core-1.2.1.jar包copy到sqoop的lib目录下。然后启动sqoo...

《Mysql - 为什么表数据删掉一半，表文件大小不变？》【图】

一：概念　　- 这里，我们还是针对 MySQL 中应用最广泛的 InnoDB 引擎展开讨论。　　- 一个 InnoDB 表包含两部分，即：表结构定义和数据。　　　　- 在 MySQL 8.0 版本以前，表结构是存在以.frm 为后缀的文件里。　　　　- 而 MySQL 8.0 版本，则已经允许把表结构定义放在系统数据表中了。　　　　- 因为表结构定义占用的空间很小，所以我们今天主要讨论的是表数据。二：表数据既可以存在共享表空间里，也可以是单独的文件。由参...

MySQL 如何删除有外键约束的表数据

在MySQL中删除一张表或一条数据的时候，出现[Err] 1451 -Cannot deleteorupdatea parent row:aforeignkeyconstraintfails (...)这是因为MySQL中设置了foreign key关联，造成无法更新或删除数据。可以通过设置FOREIGN_KEY_CHECKS变量来避免这种情况。禁用外键约束，我们可以使用:SETFOREIGN_KEY_CHECKS=0;然后再删除数据启动外键约束，我们可以使用:SETFOREIGN_KEY_CHECKS=1;查看当前FOREIGN_KEY_CHECKS的值，可用如下命令：SELECT ...

mysql把A表数据插入到B表数据的几种方法

web开发中，我们经常需要将一个表的数据插入到另外一个表，有时还需要指定导入字段，设置只需要导入目标表中不存在的记录，虽然这些都可以在程序中拆分成简单sql来实现，但是用一个sql的话，会节省大量代码。下面我以mysql数据库为例分情况一一说明：1.如果2张表的字段一致，并且希望插入全部数据，可以用这种方法： INSERT INTO 目标表 SELECT * FROM 来源表; insert into insertTest select * from insertTest2; 2.如果只...

B站MySQL学习之job_grades表数据

CREATE TABLE job_grades(grade_level VARCHAR(3),lowest_sal INT,highest_sal INT);INSERT INTO job_grades VALUE (‘A‘, 1000, 2999);INSERT INTO job_grades VALUE (‘B‘, 3000, 5999);INSERT INTO job_grades VALUE (‘C‘, 6000, 9999);INSERT INTO job_grades VALUE (‘D‘, 10000, 14999);INSERT INTO job_grades VALUE (‘E‘, 15000, 24999);INSERT INTO job_grades VALUE (‘F‘, 25000, 40000);原文：https://www.cnb...

如何实现MySQL表数据随机读取?从mysql表中读取随机数据

文章转自 http://blog.efbase.org/2006/10/16/244/如何实现MySQL表数据随机读取?从mysql表中读取随机数据?以前在群里讨论过这个问题,比较的有意思.mysql的语法真好玩.他们原来都想用PHP的实现随机,但取出多条好像要进行两次以上查询.翻了手册,找到了下面这个语句,可以完成任务了。SELECT * FROM table_name ORDER BY rand() LIMIT 5;　　rand在手册里是这么说的:　　RAND() ，RAND(N) ：返回在范围0到1.0内的随机浮点值。如果一个整...

MySQL 主从复制场景单表数据出错导致复制终止如何快速修复【代码】

场景描述: 如果从库上表 t 数据与主库不一致，导致复制错误，整个库的数据量很大，重做从库很慢，如何单独恢复这张表的数据？通常认为是不能修复单表数据的，因为涉及到各表状态不一致的问题。下面就列举备份单表恢复到从库会面临的问题以及解决办法一、本次演示环境描述:Dell物理服务器r620 两台网络环境都是内网master:192.168.1.220slave:192.168.1.217OS系统环境：centos7.8 X86_64位最小化安装，关闭iptables，关闭selinux测试...

MySQL | 操作表数据【代码】

1、使用INSERT语句插入数据1.1、向表中的全部字段插入数据语法格式：INSERT INTO <表名> [ <列名1>,<列名2>,...] VALUES (值1,值2,...) 案例：指定所有字段名，插入数据到course表INSERT INTO course VALUES (2,‘Java‘,4,‘Java EE‘); 1.2、向表中指定字段插入数据为表的指定字段插入值，是在INSERT语句中只向部分字段中插入值，而其他字段的值为表定义时的默认值。语法格式：INSERT INTO <表名> SET <列名1>=<值1>,<列名1>=<值...

MySQL复制表与表数据到新表的方法

在mysql中如果我们要对数据进行全表复制，除了导入导出外还可以直接使用命令方式进行操作，这样可以为我们帮一些特别的操作时用上，如：数据分表时可用复制表结构。在 MySQL 中拷贝表，将 old_table 表拷贝为 new_table 表。 1. 不拷贝表数据，只拷贝结构。代码如下CREATE TABLE new_table LIKE old_table2 . 通过 SELECT 查询来拷贝，new_table 表会丢失主键、索引等信息。引用代码如下 CREATE TABLE new_table AS (SELECT *FROM...

mysql 复制表结构，表数据

我们只需要将该命令拷贝出来，更改table的名字，就可以建立一个完全一样的表 8、mysqldump 用mysqldump将表dump出来，改名字后再导回去或者直接在命令行中运行mysql 复制表结构，表数据标签：mysql 表结构表数据本文系统来源：http://chicozy.blog.51cto.com/8521389/1727978

mysql表数据行列转换方法

开发过程中，因为历史原因或性能原因，需要对表的列数据转为行数据，或行数据转换为列数据使用，本文将介绍mysql表数据行列转换的方法，提供完整演示例子及sql技巧。1.行转列创建测试数据表及数据CREATE TABLE `option` ( `category_id` int(10) unsigned NOT NULL COMMENT 分类id, `name` varchar(20) NOT NULL COMMENT 名称, KEY `category_id` (`category_id`)) ENGINE=InnoDB DEFAULT CHARSET=utf8; INSERT INTO `option` (`ca...

php导出mysql数据表数据生成.sql文件_PHP教程

php教程导出 mysql教程数据表数据生成.sql文件 $database=;//数据库教程名 $options=array(hostname => ,//ip地址charset => utf8,//编码filename => $database..sql,//文件名username => ,password => ); mysql_connect($options[hostname],$options[username],$options[password])or die("不能连接数据库!"); mysql_select_db($database) or die("数据库名称错误!"); mysql_query("SET NAMES {$options[charset]}"); $data = ...

首页 / MYSQL / 利用Flume将MySQL表数据准实时抽取到HDFS

利用Flume将MySQL表数据准实时抽取到HDFS

内容导读

内容图文

2. 建立相关目录与文件

3. 准备JAR包

4. 建立HAWQ外部表

5. 配置Flume

6. 运行Flume代理

7. 测试准实时增量抽取

五、方案优缺点

参考：

内容总结

内容备注

内容手机端

【利用Flume将MySQL表数据准实时抽取到HDFS】教程文章相关的互联网学习教程文章

mysql删除表数据

Mysql CURD复习(数据库、表、数据)

MySQL表数据比较和Object全文搜索

安装sqoop，并将Mysql中的表数据导出到HDFS下的文本文件【图】

《Mysql - 为什么表数据删掉一半，表文件大小不变？》【图】

MySQL 如何删除有外键约束的表数据

mysql把A表数据插入到B表数据的几种方法

B站MySQL学习之job_grades表数据

如何实现MySQL表数据随机读取?从mysql表中读取随机数据

MySQL 主从复制场景单表数据出错导致复制终止如何快速修复【代码】

MySQL | 操作表数据【代码】

MySQL复制表与表数据到新表的方法

mysql 复制表结构，表数据

mysql表数据行列转换方法

php导出mysql数据表数据生成.sql文件_PHP教程

MYSQL - 相关标签

实时 - 相关标签

数据 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程