首页 / HADOOP / hadoop实例---多表关联

hadoop实例---多表关联

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了hadoop实例---多表关联，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4019字，纯文字阅读大概需要6分钟。

内容图文

多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。如下输入的是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，

多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。如下

输入的是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出工厂名-地址名表

样本如下：

factory:

factoryname addressed
Beijing Red Star 1
Shenzhen Thunder 3
Guangzhou Honda 2
Beijing Rising 1
Guangzhou Development Bank 2
Tencent 3
Back of Beijing 1

address:

addressID addressname
1 Beijing
2 Guangzhou
3 Shenzhen
4 Xian

结果：

factoryname     addressname
Beijing Red Star        Beijing
Beijing Rising  Beijing
Bank of Beijing         Beijing
Guangzhou Honda         Guangzhou
Guangzhou Development Bank      Guangzhou
Shenzhen Thunder        Shenzhen
Tencent         Shenzhen

代码如下：

import java.io.IOException;
import java.util.*;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class MTjoin {
    public static int time = 0;
    /*
     * 在map中先区分输入行属于左表还是右表，然后对两列值进行分割，
     * 保存连接列在key值，剩余列和左右表标志在value中，最后

输出 */ public static class Map extends Mapper { // 实现map函数 public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String line = value.toString();// 每行文件 String relationtype = new String();// 左右表标识 // 输入文件首行，不处理 if (line.contains("factoryname") == true || line.contains("addressed") == true) { return; } // 输入的一行预处理文本 StringTokenizer itr = new StringTokenizer(line); String mapkey = new String(); String mapvalue = new String(); int i = 0; while (itr.hasMoreTokens()) { // 先读取一个单词 String token = itr.nextToken(); // 判断该地址ID就把存到"values[0]" if (token.charAt(0) >= '0' && token.charAt(0) <= '9') { mapkey = token; if (i > 0) { relationtype = "1"; } else { relationtype = "2"; } continue; } // 存工厂名 mapvalue += token + " "; i++; } // 输出左右表 context.write(new Text(mapkey), new Text(relationtype + "+"+ mapvalue)); } } /* * reduce解析map输出，将value中数据按照左右表分别保存，　　* 然后求出笛卡尔积，并输出。 */ public static class Reduce extends Reducer { // 实现reduce函数 public void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException { // 输出表头 if (0 == time) { context.write(new Text("factoryname"), new Text("addressname")); time++; } int factorynum = 0; String[] factory = new String[10]; int addressnum = 0; String[] address = new String[10]; Iterator ite = values.iterator(); while (ite.hasNext()) { String record = ite.next().toString(); int len = record.length(); int i = 2; if (0 == len) { continue; } // 取得左右表标识 char relationtype = record.charAt(0); // 左表 if ('1' == relationtype) { factory[factorynum] = record.substring(i); factorynum++; } // 右表 if ('2' == relationtype) { address[addressnum] = record.substring(i); addressnum++; } } // 求笛卡尔积 if (0 != factorynum && 0 != addressnum) { for (int m = 0; m < factorynum; m++) { for (int n = 0; n < addressnum; n++) { // 输出结果 context.write(new Text(factory[m]), new Text(address[n])); } } } } } public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); // 这句话很关键 // conf.set("mapred.job.tracker", "192.168.1.2:9001"); //可使用args // String[] ioArgs = new String[] { "MTjoin_in", "MTjoin_out" }; String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: Multiple Table Join "); System.exit(2); } Job job = new Job(conf, "Multiple Table Join"); job.setJarByClass(MTjoin.class); // 设置Map和Reduce处理类 job.setMapperClass(Map.class); job.setReducerClass(Reduce.class); // 设置输出类型 job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); // 设置输入和输出目录 FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } }

 javac -classpath hadoop-core-1.1.2.jar:/opt/hadoop-1.1.2/lib/commons-cli-1.2.jar -d firstProject firstProject/MTJoin.java

jar -cvf MTJoin.jar -C firstProject/ .

删除已经存在的output

hadoop fs -rmr output

hadoop fs -mkdir input

hadoop fs -put factory input

 hadoop fs -put address input

运行

hadoop jar  MTJoin.jar MTJoin input output

查看结果

 hadoop fs -cat output/part-r-00000

作者：a331251021 发表于2013-8-4 16:20:52 原文链接

阅读：72 评论：0 查看评论

hadoop实例---多表关联 - 文章图片

原文地址：hadoop实例---多表关联, 感谢原作者分享。

内容总结

以上是互联网集市为您收集整理的hadoop实例---多表关联全部内容，希望文章能够帮你解决hadoop实例---多表关联所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/556598.html

来源：【匿名】

【上一篇】你不需要Hadoop做数据分析的10个理由使用之前必须测试其【下一篇】php能用hadoop吗

更多 ►

【hadoop实例---多表关联】教程文章相关的互联网学习教程文章

Hadoop HDFS的Shell操作实例【代码】

本文发表于本人博客。我们知道HDFS是Hadoop的分布式文件系统，那既然是文件系统那最起码会有管理文件、文件夹之类的功能吧，这个类似我们的Windows操作系统一样的吧,创建、修改、删除、移动、复制、修改权限等这些操作。那我们现在来看看hadoop下是怎么操作的。先输入hadoop fs命令，会看到如下输出： Usage: java FsShell[-ls <path>][-lsr <path>][-du <path>][-dus <path>][-count[-q] <path>][-mv <src> <dst>][-cp ...

Hadoop使用实例【图】

1.词频统计二、气象数据分析原文：https://www.cnblogs.com/carl3316/p/13932730.html

用PHP和Shell写Hadoop的MapReduce程序_php实例

使得任何支持标准IO (stdin, stdout)的可执行程序都能成为hadoop的mapper或者 reducer。例如：代码如下:hadoop jar hadoop-streaming.jar -input SOME_INPUT_DIR_OR_FILE -output SOME_OUTPUT_DIR -mapper /bin/cat -reducer /usr/bin/wc 在这个例子里，就使用了Unix/Linux自带的cat和wc工具来作为mapper / reducer，是不是很神奇？如果你习惯了使用一些动态语言，用动态语言来写mapreduce吧，跟之前的编程没有任何不同，hadoop只...

hadoop实例---多表关联【图】

多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。如下输入的是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息。如下输入的是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址...

Hadoop2.4.1入门实例：MaxTemperature

注意：以下内容在2.x版本与1.x版本同样适用，已在2.4.1与1.2.0进行测试。一、前期准备 1、创建伪分布Hadoop环境，请参考官方文档。或者http://blog.csdn.net/jediael_lu/article/details/38637277 2、准备数据文件如下sample.txt： 12345679867623119010123注意：以下内容在2.x版本与1.x版本同样适用，已在2.4.1与1.2.0进行测试。一、前期准备 1、创建伪分布Hadoop环境，请参考官方文档。或者http://blog.csdn.net/jediael_lu/ar...

Hadoop2.0YARNcloudra4.4.0WordCount实例【图】

其他都没啥这个 jar都在这里了。 import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Te 其他都没啥这个 jar都在这里了。 import java.io.IOException; import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration; import org.apache.had...

mysql数据与Hadoop之间导入导出之Sqoop实例【代码】【图】

如何将mysql数据导入Hadoop之Sqoop安装，下面就介绍两者间的数据互通的简单使用命令。显示mysql数据库的信息，一般sqoop安装测试用sqoop list-databases --connect jdbc:mysql://192.168.2.101:3306/ --username root --password root显示数据库里所有表:sqoop list-tables --connectjdbc:mysql://192.168.2.101:3306/FlowDB --username root -password rootmysql导入到hdfs中sqoop import --connect jdbc:mysql://192.168.2.101:...

java – Apache Hive：无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient【代码】

我正在尝试安装Apache Hive,我将HIVE_HOME和HADOOP_HOME插入hive_config.sh并将一些hive jar复制到$HADOOP_HOME / lib中但是当我尝试使用hive命令启动它时,会出现以下错误：Exception in thread "main" java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:346) at...

Hadoop实例WordCount程序一步一步运行

虽说现在用Eclipse下开发Hadoop程序很方便了，但是命令行方式对于小程序开发验证很方便。这是初学hadoop时的笔记，记录下来以备查。1. 经典的WordCound程序（WordCount.java），可参见 hadoop0.18文档 import java.io.IOException; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.con...

java – 具有420GB实例存储空间的ec2实例中的Hadoop“Spill Failed”异常【代码】

我正在使用Hadoop2.3.0并在CentOS 6.4 Amazon ec2实例上安装了它作为单节点集群(psuedo-distributed模式),实例存储空间为420GB,内存为7.5GB,我的理解是只发生“溢出失败”异常但是,当节点用完磁盘空间后,在运行map / reduce任务很短的时间后(没有接近420 GB的数据),我得到以下异常. 我想提一下,我将同一节点上的Hadoop安装从8GB的EBS卷(我最初安装它)转移到同一节点上的420GB实例存储卷,并更改了$HADOOP_HOME环境变量和其他属性相应...

Hadoop——WordCount实例及源码分析

二话不说，先上代码与执行。 package com.yarn.wc; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; publ...

CentOS下安装配置hadoop环境--单实例版

CentOS下1、安装linux2、安装jdk[root@Cent0S1 ~]# javac //显示信息[root@Cent0S1 ~]# rpm -qa |grep jdk //查看是否有安装包 [root@Cent0S1 ~]# which java //查看Java命令位置/usr/bin/java[root@Cent0S1 ~]# javac -version //查看Java版本javac 1.8.0_191[root@Cent0S1 ~]# ls -l /usr/bin/java //查看软连接lrwxrwxrwx. 1 root root 22 12月 27 15:09 /usr/bin/java -> /etc/alternatives/java[root@Cent0S1 ~]# ls ...

实例 - 相关标签

实例变量实例方法

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / hadoop实例---多表关联

hadoop实例---多表关联

内容导读

内容图文

内容总结

内容备注

内容手机端

【hadoop实例---多表关联】教程文章相关的互联网学习教程文章

Hadoop HDFS的Shell操作实例【代码】

Hadoop使用实例【图】

用PHP和Shell写Hadoop的MapReduce程序_php实例

hadoop实例---多表关联【图】

Hadoop2.4.1入门实例：MaxTemperature

Hadoop2.0YARNcloudra4.4.0WordCount实例【图】

mysql数据与Hadoop之间导入导出之Sqoop实例【代码】【图】

java – Apache Hive：无法实例化org.apache.hadoop.hive.metastore.HiveMetaStoreClient【代码】

Hadoop实例WordCount程序一步一步运行

java – 具有420GB实例存储空间的ec2实例中的Hadoop“Spill Failed”异常【代码】

Hadoop——WordCount实例及源码分析

CentOS下安装配置hadoop环境--单实例版

HADOOP - 相关标签

实例 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程