首页 / 更多教程 / MapReduce之Map Join

MapReduce之Map Join

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了MapReduce之Map Join，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5320字，纯文字阅读大概需要8分钟。

内容图文

一介绍

之所以存在Reduce Join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。

Map Join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，让每个map task内存中存在一份（比如存放到hash table中），然后只扫描大表：对于大表中的每一条记录key/value，在hash table中查找是否有相同的key的记录，如果有，则连接后输出即可。

为了支持文件的共享，Hadoop用到了分布式缓存的概念，在MapReduce中称为DistributedCache（目前已被标注为弃用，分布式缓存的API可在Job类本身调用），它可以方便Map Task之间或Reduce Task之间共享一些信息，同时也可以将第三方Jar包添加到其Classpass路径中。Hadoop会将缓存数据分发到集群中所有准备启动的节点上，复制到mapreduce.temp.dir中的配置目录。

使用该类的方法如下：

job.addArchiveToClassPath(archive); //缓存jar包到task运行节点的classpath中
ob.addCacheArchive(uri); //缓存压缩包到task运行节点的工作目录
job.addFileToClassPath(file); //缓存普通文件到task运行节点的classpath中
job.addCacheFile(url); //将产品表文件缓存到task工作节点的工作目录中去

传参格式：hdfs://namenode:9000/home/XXX/file，即Jar包、压缩包、普通文件所在hdfs路径。

同时DistributedCache（分布式缓存）可用来解决join算法实现中的数据倾斜问题，例如两张表：订单表和产品表。

订单表：

订单号 时间 商品id 购买数量 
1001,20170710,P0001,1 
1002,20170710,P0001,3 
1003,20170710,P0002,3 
1004,20170710,P0002,4

产品表：　

商品id 商品名称 
P0001,xiaomi
P0002,huawei

需求就是根据外键商品id来将两张表信息合并，拼接成：

1001 ,20170710,P0001,1 xiaomi
1002,20170710,P0001,3 xiaomi
1003,20170710,P0002,3,huawei
1004,20170710,P0002,4,huawei

考虑问题：在mapreduce程序中，如果某些产品非常畅销，肯定会产生很多订单，但是刚好这些订单信息都传到了一个reduce中（分区默认就是使用hashcode%reducetask数量，所以这种情况是正常的）。那么这个reducetask压力就很大了，而其他的reducetask处理的信息就很小，有的甚至就处理几条数据，这就出现了数据倾斜问题。

解决方案：一般来说订单表的数据远远多于产品表数据，毕竟产品的种类就那些，所以我们可以把产品信息都交给Map Task就行了逻辑都让Map Task来处理，也就是说不使用Reduce了，而让每个Map Task持有个product.data（存储产品信息的文件）即可。那么maptask怎么获得这个文件呢？刚好hadoop提供了DistributedCache，我们将文件交给这个分布式缓存，它会将我们的文件放到Map Task的工作目录中，那么Map 端可以直接从工作目录中去拿。

二代码部分

              1
            package
             mapreduce.DistributedCache;

              2
              3
            import
             java.io.BufferedReader;

              4
            import
             java.io.FileInputStream;

              5
            import
             java.io.IOException;

              6
            import
             java.io.InputStream;

              7
            import
             java.io.InputStreamReader;

              8
            import
             java.net.URI;

              9
            import
             java.util.HashMap;

             10
            import
             java.util.Map;

             11
            import
             org.apache.hadoop.conf.Configuration;

             12
            import
             org.apache.hadoop.conf.Configured;

             13
            import
             org.apache.hadoop.fs.Path;

             14
            import
             org.apache.hadoop.io.LongWritable;

             15
            import
             org.apache.hadoop.io.NullWritable;

             16
            import
             org.apache.hadoop.io.Text;

             17
            import
             org.apache.hadoop.mapreduce.Job;

             18
            import
             org.apache.hadoop.mapreduce.Mapper;

             19
            import
             org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

             20
            import
             org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

             21
            import
             org.apache.hadoop.util.Tool;

             22
            import
             org.apache.hadoop.util.ToolRunner;

             23
             24
            public
            class MapJoin extends Configured implements Tool{
 25staticclass MapJoinMapper extends Mapper<LongWritable, Text, NullWritable, Text>{
 26//用来缓存小文件（商品文件中的数据） 27         Map<String, String> produceMap = new HashMap<String,String>();
 28         Text k = new Text();
 29/* 30         * 源码中能看到在循环执行map()之前会执行一次setUp方法,可以用来做初始化
 31*/ 32        @Override
 33protectedvoid setup(Context context)
 34throws IOException, InterruptedException {
 35 36//将商品文件中的数据写到缓存中   37             FileInputStream fileInput = new FileInputStream("product.data");
 38//read data 39             InputStreamReader readFile = new InputStreamReader(fileInput );
 40             BufferedReader br = new BufferedReader(readFile);
 41             String line = null;
 42while((line=br.readLine())!=null){
 43//一行数据格式为P0001,xiaomi（商品id，商品名称） 44                 String[] fields = line.split(",");
 45                 produceMap.put(fields[0], fields[1]);
 46            }
 47        }
 48        @Override
 49protectedvoid map(LongWritable key, Text value, Context context)
 50throws IOException, InterruptedException {
 51//一行订单数据    格式为 1001,20170710,P0001,1（订单id，创建时间，商品id，购买商品数量） 52             String line = value.toString();
 53             String[] fields = line.split(",");
 54//根据订单数据中商品id在缓存中找出来对应商品信息(商品名称)，进行串接 55             String productName = produceMap.get(fields[2]);
 56             k.set(line+","+productName);
 57            context.write(NullWritable.get(), k );
 58        }
 59    }
 60 61publicint run(String[] args) throws Exception {
 62 63// step 1:get configuration 64     Configuration conf = this.getConf();
 65//set job 66     Job job = Job.getInstance(conf);
 67         job.setJarByClass(MapJoin.class);
 68 69         job.setMapperClass(MapJoinMapper.class);
 70         job.setMapOutputKeyClass(Text.class);
 71         job.setMapOutputValueClass(NullWritable.class);
 72 73//设置最终输出类型 74         job.setOutputKeyClass(Text.class);
 75         job.setOutputValueClass(NullWritable.class);
 76 77//将产品表文件缓存到task工作节点的工作目录中去
 78//缓存普通文件到task运行节点的工作目录(hadoop帮我们完成) 79         job.addCacheFile(new URI("hdfs://beifeng01:8020/user/beifeng01/mapreduce/input/mapjoin/product.data"));
 80 81//不需要reduce，那么也就没有了shuffle过程 82         job.setNumReduceTasks(0);
 83 84         FileInputFormat.setInputPaths(job, new Path(args[0]));
 85         FileOutputFormat.setOutputPath(job, new Path(args[1]));
 86 87boolean isSuccess = job.waitForCompletion(true);
 88 89return isSuccess ? 0 : 1;
 90    }
 91 92publicstaticvoid main(String[] args) throws Exception {
 93         args = new String[]{
 94                 "hdfs://beifeng01:8020/user/beifeng01/mapreduce/input/mapjoin/orderid.data",
 95                 "hdfs://beifeng01:8020/user/beifeng01/mapreduce/output4"
 96        };
 97 98         Configuration conf = new Configuration();
 99100// run mapreduce101int status = ToolRunner.run(conf, new MapJoin(), args);
102103// exit program104        System.exit(status);
105    }
106 }

运行代码后查看输出结果

[hadoop@beifeng01 hadoop-2.5.0-cdh5.3.6]$ bin/hdfs dfs -text /user/beifeng01/mapreduce/output4/p*
1001,20170710,P0001,1,xiaomi 
1002,20170710,P0001,3,xiaomi 
1003,20170710,P0002,3,huawei
1004,20170710,P0002,4,huawei

原文：https://www.cnblogs.com/perfectdata/p/10125351.html

内容总结

以上是互联网集市为您收集整理的MapReduce之Map Join全部内容，希望文章能够帮你解决MapReduce之Map Join所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1200693.html

来源：【匿名】

【上一篇】使用setTimeout实现setInterval 【下一篇】关于IE的RegExp.exec的问题

更多 ►

【MapReduce之Map Join】教程文章相关的互联网学习教程文章

MapReduce之Map Join【代码】

一介绍之所以存在Reduce Join，是因为在map阶段不能获取所有需要的join字段，即：同一个key对应的字段可能位于不同map中。Reduce side join是非常低效的，因为shuffle阶段要进行大量的数据传输。Map Join是针对以下场景进行的优化：两个待连接表中，有一个表非常大，而另一个表非常小，以至于小表可以直接存放到内存中。这样，我们可以将小表复制多份，让每个map task内存中存在一份（比如存放到hash table中），然后只扫描大表：...

map的应用——UVA156 反片语【代码】

目录map的应用——UVA156 反片语题意翻译输入输出样例思路读入操作代码其他函数返回类型容器类型的sort用法转小写操作 map的应用——UVA156 反片语题意翻译题目大意输入一些单词，找出所有满足如下条件的单词：该单词不能通过字母重排，得到输入文本的另外一个单词。在判断是否满足条件时，字母不分大小写，但在输出时应保留输入的大小写，按字典序排列。翻译贡献者：很dalao的蒟蒻输入输出样例输入 #1 ladder came tape soo...

JDBC13 ORM02 Map封装【代码】

conn=Utils.getConn();ps=conn.prepareStatement("select Empname,birthday,salary from emp where id=?");ps.setObject(1, 1);rs=ps.executeQuery();while(rs.next()) {row.put("Empname",rs.getObject(1) );row.put("birthday", rs.getObject(2));row.put("salary", rs.getObject(3));}for(String key:row.keySet()) {System.out.print(row.get(key));}用List盛放Map 存储多条信息conn=Utils.getConn();ps=conn.prepareStatement...

stream流对map的key和value进行排序（支持字符串）【代码】

1.方法介绍 Map.Entry.comparingByValue():根据value Map.Entry.comparingByKey():根据key 2.具体代码 package com.zyp.test;import com.google.common.collect.Maps;import java.util.LinkedHashMap; import java.util.Map; import java.util.stream.Collectors;/*** @author syl* @description map的stream流使用* @since 2021/4/19*/ public class StreamMap {public static void main(String[] args) {Map<String,Integer> map...

map unordered_map unordered_multimap【代码】

C++ map容器插入具有相同键的键值对的覆盖问题 map容器插入键值对的方法一般有两种map["key"] = value; map.insert(make_pair<>("", "")); #include <map> #include <iostream>using namespace std;int main() {map<double, double> mp1;mp1[1.0] = 1.1;mp1[1.0] = 1.2;cout << mp1.size() << endl;cout << mp1.begin()->second << endl;return 0; }输出结果为1 1.2 使用方法二插入相同键的键值对时，后一组的键值对不会插入map容...

mybatis 防止sql注入的循环map写法

foreach collection="condition.keys" item="k" separator="and"> <if test="null != condition[k]"> ${k} = #{condition[${k}]} </if> </foreach> mybatis 防止sql注入的循环map写法标签：本文系统来源：http://www.cnblogs.com/mrgong/p/4605259.html

将复杂查询写到查询配置文件--SOD框架的SQL-MAP技术简介【代码】【图】

cte1 as (select stu.deptID,D.depName, stu.stuid ,stu.stuName,score_sum.AllScorefrom dbo.Student stuinner join (select stuid ,SUM(score) as AllScore from dbo.Score group by stuid) score_sum on stu.stuid =score_sum.stuid inner join dbo.Department D on stu.deptID= D.depID )select cte1.* from cte1 inner join (select deptID, max(AllScore) maxScore from cte1 group by deptID) Mon cte1.AllScore = M...

bpf map简介1【代码】

文章目录前言BPF maps介绍BPF maps的相关操作使用BPF系统调用操作BPF maps创建BPF mapsWorking with BFP Maps更新元素读取元素删除元素迭代遍历元素查找删除元素并发访问mapmaps的类型BPF程序类型BPF验证器前言来源：Linux Observability with BPF 这里搬运下该书第三章：BPF Maps 建议先阅读该blog：BPF数据传递的桥梁——BPF MAP（一）BPF maps介绍消息传递来唤醒程序的行为，在软件工程中很常见。一个程序可以通过发送消息来...

echart4.9 实现map地图【代码】

1.需要引入echart.js以及chain.js <script type="text/javascript" src="js/echarts.min.js"></script><script type="text/javascript" src="js/china.js"></script> html:<div class="chart-box"><div id="main" style="width:100%;height:95%;"></div> </div>script：<script type="text/javascript">function randomData() { return Math.round(Math.random()*500); }var mydata = [ {name: 北京,value: 100 },{name: 天津,v...

Cookie字符串转Map集合方法【代码】

需求：将Cookie字符串解析为Map集合 1、首先构造一个Cookie字符串private static String COOKIE = "traceid=ca4c9c8b50; _ga=GA1.2.704388932.1617513691; _gid=GA1.2.85700497.1617513691; _qpsvr_localtk=0.2810983015733952; RK=uCLoGvbeXG; ptcz=f997dfbd9d785b321bb377710933cae37308f34abb4b2340706eda53e23455cc; pgv_pvid=4861902100; pgv_info=ssid=s7567138318; ptui_loginuin=327844761; qqmusic_uin=0327844761; qqmu...

mybatis从dao传入多个参数到sqlmap时dao中要使用map或实例对象(如:user)作为参数传入, 否则报错找不到属性getter方法

23:37 2015-07-02注意1. 使用mybaits的resultMap查询时, 如果想传入多个参数(比如where 1=1动态多条件查询时)sqlmap文件中对应的方法中, selectList中一定要传实例对象(如person作为obj而不能用String等等只能一个参数的类)或map封装多参数传入map作为obj注意2. sqlmap中的方法的parameterType和jdbcType可以不用写mybatis从dao传入多个参数到sqlmap时dao中要使用map或实例对象(如:user)作为参数传入, 否则报错找不到属性getter方法...

map

map常用子类：|-----hashtable:内部结构是哈希表，是同步的。不允许null作为键，null作为值 properties：用来存储键值对型的配置文件的信息，可以和io技术想结合|-----hashmap：内部结构式哈希表，不是同步的。允许null作为键，null作为值|-----treemap：内部结构式二叉树，不是同步的。可以对map集合中的键进行排序原文：http://www.cnblogs.com/judylucky/p/3617389.html

集合框架基础三——Map

Map接口 * 将键映射到值的对象 * 一个映射不能包含重复的键 * 每个键最多只能映射到一个值Map接口和Collection接口的不同 * Map是双列的,Collection是单列的 * Map的键唯一,Collection的子体系Set是唯一的 * Map集合的数据结构值针对键有效，跟值无关;Collection集合的数据结构是针对元素有效 Map集合的功能添加功能 * V put(K key,V value):添加元素。 * 如果键是第一次存储，就直接存储元素，返回null * 如果键不是第一...

【CF566E】Restoring Map（构造）【代码】

点此看题面有一棵$n$个点的树，乱序给出与每个点距离小于等于$2$的点集。求构造一棵合法的树。 $n\le10^3$非叶节点间的连边两个非叶节点$x,y$之间存在边，则对于它们两侧的两点$i,j$，同时与$i,j$距离小于等于$2$的点只有$x,y$两点。因此，非叶节点$x,y$之间有边的充要条件就是存在两个点集的交集恰好是$\{x,y\}$。要求这个，只需用枚举一对点集用$bitset$优化即可。叶节点的连边对于叶节点，显然它对应...

HDU 4329 MAP（stringstream的用法）【代码】

这个题目有点绕，但是按着他的意思写不难模拟出来。本来是一场学弟们的训练赛，我这个学长在赛场上却WA了四次都没过，三条黑线就一直在我的脑袋上挂着。。。　　赛后开始找原因，后来发现题目看错了，1/R中的R是指原先URL的个数。　　改过来发现还是过不了，想到了自己的输入处理可能是有问题的，既然自己模拟容易出错，那就使用了stringstream，自动提取单词，成功AC。　　意外的发现stringstream的功能十分强大，但是因为速度比较...

首页 / 更多教程 / MapReduce之Map Join

MapReduce之Map Join

内容导读

内容图文

内容总结

内容备注

内容手机端

【MapReduce之Map Join】教程文章相关的互联网学习教程文章

MapReduce之Map Join【代码】

map的应用——UVA156 反片语【代码】

JDBC13 ORM02 Map封装【代码】

stream流对map的key和value进行排序（支持字符串）【代码】

map unordered_map unordered_multimap【代码】

mybatis 防止sql注入的循环map写法

将复杂查询写到查询配置文件--SOD框架的SQL-MAP技术简介【代码】【图】

bpf map简介1【代码】

echart4.9 实现map地图【代码】

Cookie字符串转Map集合方法【代码】

mybatis从dao传入多个参数到sqlmap时dao中要使用map或实例对象(如:user)作为参数传入, 否则报错找不到属性getter方法

map

集合框架基础三——Map

【CF566E】Restoring Map（构造）【代码】

HDU 4329 MAP（stringstream的用法）【代码】

MAP - 相关标签

更多教程 - 最新教程

更多教程 - 最热教程