首页 / HADOOP / hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）

hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了hadoop生态系统学习之路（九）MR将结果输出到数据库（DB），小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含8617字，纯文字阅读大概需要13分钟。

内容图文

<dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.36</version> </dependency>

二、数据以及数据库表准备

我们还是使用之前博文中入到hive的输入文件user_info.txt，放在hdfs中的/qiyongkang/input目录下:

11  1200.0  qyk1    21
22  1301    qyk2    22
33  1400.0  qyk3    23
44  1500.0  qyk4    24
55  1210.0  qyk5    25
66  124 qyk6    26
77  1233    qyk7    27
88  15011   qyk8    28

然后，我们这里使用的是mysql数据库，在test数据库建表：

CREATE TABLE `user_info` (
  `id` bigint(20) DEFAULT NULL,
  `account` varchar(50) DEFAULT NULL,
  `name` varchar(50) DEFAULT NULL,
  `age` int(11) DEFAULT NULL
) ENGINE=InnoDB DEFAULT CHARSET=utf8

三、MR编写

首先，我们来看主类LoadDataToDbMR：

/**
 * Project Name:mr-demo
 * File Name:LoadDataToDbMR.java
 * Package Name:org.qiyongkang.mr.dbstore
 * Date:2016年4月10日下午3:16:05
 * Copyright (c) 2016, CANNIKIN(http://http://code.taobao.org/p/cannikin/src/) All Rights Reserved.
 *
*/

package org.qiyongkang.mr.dbstore;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;
import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

/**
 * ClassName:LoadDataToDbMR <br/>
 * Function: TODO ADD FUNCTION. <br/>
 * Reason:   TODO ADD REASON. <br/>
 * Date:     2016年4月10日 下午3:16:05 <br/>
 * @author   qiyongkang
 * @version  
 * @since    JDK 1.6
 * @see      
 */
public class LoadDataToDbMR {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration(); 

        //数据库配置
        DBConfiguration.configureDB(conf, "com.mysql.jdbc.Driver","jdbc:mysql://192.168.52.31:3306/test","root", "root");

        Job job = Job.getInstance(conf, "db store");
        job.setJarByClass(LoadDataToDbMR.class);

        // 设置Mapper
        job.setMapperClass(DbStoreMapper.class);

        // 由于没有reducer，这里设置为0
        job.setNumReduceTasks(0);

        // 设置输入文件路径
        FileInputFormat.addInputPath(job, new Path("/qiyongkang/input"));

        DBOutputFormat.setOutput(job, "user_info", "id", "account", "name", "age");
        job.setOutputFormatClass(DBOutputFormat.class);

        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

然后，我们再来看Mapper：

/**
 * Project Name:mr-demo
 * File Name:DbStoreMapper.java
 * Package Name:org.qiyongkang.mr.dbstore
 * Date:2016年4月10日下午3:15:46
 * Copyright (c) 2016, CANNIKIN(http://http://code.taobao.org/p/cannikin/src/) All Rights Reserved.
 *
*/

package org.qiyongkang.mr.dbstore;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * ClassName:DbStoreMapper <br/>
 * Function: TODO ADD FUNCTION. <br/>
 * Reason: TODO ADD REASON. <br/>
 * Date: 2016年4月10日 下午3:15:46 <br/>
 * 
 * @author qiyongkang
 * @version
 * @since JDK 1.6
 * @see
 */
public class DbStoreMapper extends Mapper<LongWritable, Text, UserInfoDBWritable, UserInfoDBWritable> {
    private UserInfo userInfo = new UserInfo();

    private UserInfoDBWritable userInfoDBWritable = null;

    @Override
    protected void map(LongWritable key, Text value,
            Mapper<LongWritable, Text, UserInfoDBWritable, UserInfoDBWritable>.Context context)
                    throws IOException, InterruptedException {

        // 每行以制表符分隔 id, account, name, age
        String[] strs = value.toString().split("\t");

        // id，
        userInfo.setId(Long.valueOf(strs[0]));

        // account
        userInfo.setAccount(strs[1]);

        // name
        userInfo.setName(strs[2]);

        // age
        userInfo.setAge(Integer.valueOf(strs[3]));

        // 写入到db,放在key
        userInfoDBWritable = new UserInfoDBWritable(userInfo);
        context.write(userInfoDBWritable , null);
    }

}

这里，我们准备了一个Model，UserInfo：

/**
 * Project Name:mr-demo
 * File Name:UserInfo.java
 * Package Name:org.qiyongkang.mr.dbstore
 * Date:2016年4月10日下午3:30:01
 * Copyright (c) 2016, CANNIKIN(http://http://code.taobao.org/p/cannikin/src/) All Rights Reserved.
 *
*/

package org.qiyongkang.mr.dbstore;
/**
 * ClassName:UserInfo <br/>
 * Function: TODO ADD FUNCTION. <br/>
 * Reason:   TODO ADD REASON. <br/>
 * Date:     2016年4月10日 下午3:30:01 <br/>
 * @author   qiyongkang
 * @version  
 * @since    JDK 1.6
 * @see      
 */
public class UserInfo {
    private long id;

    private String account;

    private String name;

    private int age;

    public long getId() {
        return id;
    }

    public void setId(long id) {
        this.id = id;
    }

    public String getAccount() {
        return account;
    }

    public void setAccount(String account) {
        this.account = account;
    }

    public String getName() {
        return name;
    }

    public void setName(String name) {
        this.name = name;
    }

    public int getAge() {
        return age;
    }

    public void setAge(int age) {
        this.age = age;
    }

}

然后，我们要想MR输出到Db，那么此类必须实现DBWritable，如下：

/**
 * Project Name:mr-demo
 * File Name:UserInfoDBWritable.java
 * Package Name:org.qiyongkang.mr.dbstore
 * Date:2016年4月10日下午3:27:32
 * Copyright (c) 2016, CANNIKIN(http://http://code.taobao.org/p/cannikin/src/) All Rights Reserved.
 *
*/

package org.qiyongkang.mr.dbstore;

import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.SQLException;

import org.apache.hadoop.mapreduce.lib.db.DBWritable;

/**
 * ClassName:UserInfoDBWritable <br/>
 * Function: TODO ADD FUNCTION. <br/>
 * Reason:   TODO ADD REASON. <br/>
 * Date:     2016年4月10日 下午3:27:32 <br/>
 * @author   qiyongkang
 * @version  
 * @since    JDK 1.6
 * @see      
 */
public class UserInfoDBWritable implements DBWritable {
    private UserInfo userInfo;

    public UserInfoDBWritable() {}

    public UserInfoDBWritable(UserInfo userInfo) {
        this.userInfo = userInfo;
    }

    @Override
    public void write(PreparedStatement statement) throws SQLException {
        statement.setLong(1, userInfo.getId());
        statement.setString(2, userInfo.getAccount());
        statement.setString(3, userInfo.getName());
        statement.setInt(4, userInfo.getAge());
    }

    @Override
    public void readFields(ResultSet resultSet) throws SQLException {

    }

}

这里面的参数设置顺序与主类中设置DBOutputFormat时的字段顺序一致。

四、执行并查看结果

下面，还是同样的打包方式，只需修改下main函数所在的类即可。然后，上传到主节点，使用hdfs用户执行，注意此jar的权限设置。
接下来，执行yarn jar mr-demo-0.0.1-SNAPSHOT-jar-with-dependencies.jar，日志如下：

bash-4.1$ yarn jar mr-demo-0.0.1-SNAPSHOT-jar-with-dependencies.jar 
16/04/10 16:14:11 INFO client.RMProxy: Connecting to ResourceManager at massdata8/172.31.25.8:8032
16/04/10 16:14:12 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
16/04/10 16:14:13 INFO input.FileInputFormat: Total input paths to process : 1
16/04/10 16:14:13 INFO mapreduce.JobSubmitter: number of splits:1
16/04/10 16:14:14 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1458262657013_0982
16/04/10 16:14:14 INFO impl.YarnClientImpl: Submitted application application_1458262657013_0982
16/04/10 16:14:14 INFO mapreduce.Job: The url to track the job: http://massdata8:8088/proxy/application_1458262657013_0982/
16/04/10 16:14:14 INFO mapreduce.Job: Running job: job_1458262657013_0982
16/04/10 16:14:21 INFO mapreduce.Job: Job job_1458262657013_0982 running in uber mode : false
16/04/10 16:14:21 INFO mapreduce.Job:  map 0% reduce 0%
16/04/10 16:14:29 INFO mapreduce.Job:  map 100% reduce 0%
16/04/10 16:14:29 INFO mapreduce.Job: Job job_1458262657013_0982 completed successfully
16/04/10 16:14:29 INFO mapreduce.Job: Counters: 30
    File System Counters
        FILE: Number of bytes read=0
        FILE: Number of bytes written=91506
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
        HDFS: Number of bytes read=259
        HDFS: Number of bytes written=0
        HDFS: Number of read operations=2
        HDFS: Number of large read operations=0
        HDFS: Number of write operations=0
    Job Counters 
        Launched map tasks=1
        Data-local map tasks=1
        Total time spent by all maps in occupied slots (ms)=4459
        Total time spent by all reduces in occupied slots (ms)=0
        Total time spent by all map tasks (ms)=4459
        Total vcore-seconds taken by all map tasks=4459
        Total megabyte-seconds taken by all map tasks=4566016
    Map-Reduce Framework
        Map input records=8
        Map output records=8
        Input split bytes=117
        Spilled Records=0
        Failed Shuffles=0
        Merged Map outputs=0
        GC time elapsed (ms)=21
        CPU time spent (ms)=1530
        Physical memory (bytes) snapshot=321511424
        Virtual memory (bytes) snapshot=1579036672
        Total committed heap usage (bytes)=792199168
    File Input Format Counters 
        Bytes Read=142
    File Output Format Counters 
        Bytes Written=0

然后，我们在数据库执行查询SELECT * FROM user_info;可以看到：
hadoop生态系统学习之路（九）MR将结果输出到数据库（DB） - 文章图片
说明入库成功！
好了，就介绍到这儿了。

hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）

标签：

本文系统来源：http://blog.csdn.net/qiyongkang520/article/details/51113477

内容总结

以上是互联网集市为您收集整理的hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）全部内容，希望文章能够帮你解决hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/461610.html

来源：【匿名】

【上一篇】大数据架构开发挖掘分析 Hadoop HBase Hive Storm Spark Sqoop Flume ZooKeeper Kafka Redis MongoDB 机器学习云计算【下一篇】php能用hadoop吗

更多 ►

【hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）】教程文章相关的互联网学习教程文章

安装关系型数据库MySQL和大数据处理框架Hadoop【图】

hdfsHadoop平台的起源：2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来，成为一套完整独立的软件，起名为HadoopHadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩...

MySQL数据库实时同步数据到Hadoop分布式文件系统的工具Applier【图】

通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此Hadoop（分布式文件系统）自身经历重大的发展。科技的发展允许实时查询，如Apache Drill, Cloudera Impala和Stinger Initiati通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此Hadoop（分布式文件系统）自身经历重大的发展...

Hadoop之Hive本地与远程MySQL数据库管理模式安装手册【图】

Mysql for Windows 7 32位：我把mysql数据库安装在了自己win7的笔记本上，这样的好处就是减少了虚拟机master slave的开销和使用空一、环境描述 Mysql版本：mysql-installer-community-5.5.27.1 32位 Mysql for Windows 7 32位：我把mysql数据库安装在了自己win7的笔记本上，这样的好处就是减少了虚拟机master slave的开销和使用空间还可以多利用一台机器的资源，如果你的虚拟机资源很紧张的话也可以这样部署。 Linux ISO：C...

HadoopMapRduce重写DBOutputFormat更新mysql数据库_MySQL【代码】

在http://blog.csdn.net/sunflower_cao/article/details/28266939 写过可以通过继承 Writable, DBWritable实现在reduce过程中讲结果写入到mysql数据库里边，但是一直有一个问题就是只能实现insert 没法去更新已经存在的数据，这就导致不同的mapreduce程序获得的数据只能插入到不同的数据库中在使用的时候需要建立view或者使用复杂的sql语句去查询，今天调查了下，发现可以通过重写DBOutputFormat 上代码：TblsWritable.javaimpo...

Hadoop用来补充而非替代关系型数据库

雅虎云平台组的副总裁Hari Vasudev解释说，Hadoop在处理大量结构与非结构数据上是“非常有效的”。它适用于在传统数据仓库中对即时查询需求的支持，但不能取代针对有低潜在因素需求的传统商业智能（BI）功能的关系型数据库管理系统（RDBMS）的部署，Vasudev雅虎云平台组的副总裁Hari Vasudev解释说，Hadoop在处理大量结构与非结构数据上是“非常有效的”。它适用于在传统数据仓库中对即时查询需求的支持，但不能取代针对有低潜在因...

安装关系型数据库MySQL 安装大数据处理框架Hadoop【图】

1.安装MySql 2.windows 与虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的，可在虚拟机里用浏览器下载安装文件，课件：提取文件：hadoop-2.7.1.tar.gz 链接: https://pan.baidu.com/s/1HIVd9JCZstWm0k7sAbXQCg 提取码: 2thj 4. 简述Hadoop平台的起源、发展历史与应用现状。列举发展过程中重要的事件、主要版本、主要厂商；国内外Hadoop应用的典型案例。 Hadoop不是指具体一个框架或者组件，它是Apache软件基金会下...

详细讲解Hadoop中的简单数据库HBase【图】

数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表格里的行可能有非常不同的列，只要用户喜欢这样做。写操作是行锁定的，你不能一次数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表...

一步一步跟我学习hadoop(7)----hadoop连接mysql数据库执行数据读写数据库操作【代码】

运行MapReduce时候报错：java.io.IOException: com.mysql.jdbc.Driver，一般是由于程序找不到mysql驱动包。解决方法是让每个tasktracker运行MapReduce程序时都可以找到该驱动包。添加包有两种方式：（1）在每个节点下的${HADOOP_HOME}/lib下添加该包。重启集群，一般是比较原始的方法。（2）a)把包传到集群上： hadoop fs -put mysql-connector-java-5.1.0- bin.jar /hdfsPath/ b)在mr程序提交job前，添加语句：Distribut...

[转载] 详细讲解Hadoop中的简单数据库HBase【图】

转载自http://www.csdn.net/article/2010-11-28/282614 数据模型 HBase数据库使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表格里的行可能有非常不同的列，只要用户喜欢这样做。列名是“<族名>:<标签>”形式，其中<族名>和<标签>可以是任意字符串。一个表格的<族名>集合（又叫“列族”集合）是固定的，除非你使用管理员权限来...

大数据之Hbase（一）：HBase简介、BigTable、面向列的数据库、非结构化数据存储、HBase在Hadoop生态中的地位、 HBase与HDFS、HBase使用场景【图】

文章目录 5.1 HBase简介什么是HBase BigTable 面向列的数据库什么是非结构化数据存储 HBase在Hadoop生态中的地位 HBase与HDFS HBase使用场景5.1 HBase简介 1 什么是HBaseHBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储2 BigTableBigTable是Google设计的分布式数据存储系统，用来处理海量的数据的一种非关系型的数据库。适合大规模海量数据，PB级数...

hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）【代码】

<dependency><groupId>mysql</groupId><artifactId>mysql-connector-java</artifactId><version>5.1.36</version></dependency>二、数据以及数据库表准备我们还是使用之前博文中入到hive的输入文件user_info.txt，放在hdfs中的/qiyongkang/input目录下:11 1200.0 qyk1 21 22 1301 qyk2 22 33 1400.0 qyk3 23 44 1500.0 qyk4 24 55 1210.0 qyk5 25 66 124 qyk6 26 77 1233 qyk7 27 88 15011...

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具【图】

转：https://blog.csdn.net/qx12306/article/details/67014096 Sqoop是一款开源的工具，主要用于在Hadoop相关存储（HDFS、Hive、HBase）与传统关系数据库（MySql、Oracle等）间进行数据传递工作。Sqoop最早是作为Hadoop的一个第三方模块存在，后来被独立成为了一个Apache项目。除了关系数据库外，对于某些NoSQL数据库，Sqoop也提供了连接器。一、Sqoop基础知识Sqoop项目开始于2009年，可以在Hadoop相关存储与传统关系数据库之间进...

sqoop实现关系型数据库与hadoop之间的数据传递-import篇【代码】【图】

这里就不得不提到一个很实用的工具——sqoop，它是一款开源的工具，主要用于实现关系型数据库与hadoop中hdfs之间的数据传递，其中用的最多的就是import，export了。 sqoop的安装配置也是非常简单的，这里就不说明了，本文主要针对如何使用sqoop实现oracle到hive(hdfs)的数据传递进行试验。对于比较全的参数使用，可以到sqoop的官方文档http://sqoop.apache.org/docs/ 查看，以下是这次会用到的一些参数讲解： -m N ：开启N个map来...

sqoop数据迁移（基于Hadoop和关系数据库服务器之间传送数据）【代码】【图】

（1）：sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。（2）：导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；（3）：导出数据：从Hadoop的文件系统中导出数据到关系数据库（4）：工作机制：将导入或导出命令翻译成mapreduce程序来实现；　　在翻译出的mapreduce中主要是对inputformat和outputformat进行定制；（5）：Sqoop的原理：Sqoop的原理其实就是将导入导出命令转化...

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具【图】

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）

hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）

内容导读

内容图文

二、数据以及数据库表准备

三、MR编写

四、执行并查看结果

内容总结

内容备注

内容手机端

【hadoop生态系统学习之路（九）MR将结果输出到数据库（DB）】教程文章相关的互联网学习教程文章

HADOOP - 最新教程

HADOOP - 最热教程