首页 / 算法 / spark实现大数据join操作的两个算法，map-side join和reduce-side join

spark实现大数据join操作的两个算法，map-side join和reduce-side join

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了spark实现大数据join操作的两个算法，map-side join和reduce-side join，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3587字，纯文字阅读大概需要6分钟。

内容图文

Map-Side Join

Map-side Join使用场景是一个大表和一个小表的连接操作，其中，“小表”是指文件足够小，可以加载到内存中。该算法可以将join算子执行在Map端，无需经历shuffle和reduce等阶段，因此效率非常高。

在Hadoop MapReduce中， map-side join是借助DistributedCache实现的。DistributedCache可以帮我们将小文件分发到各个节点的Task工作目录下，这样，我们只需在程序中将文件加载到内存中（比如保存到Map数据结构中），然后借助Mapper的迭代机制，遍历另一个大表中的每一条记录，并查找是否在小表中，如果在则输出，否则跳过。

在Apache Spark中，同样存在类似于DistributedCache的功能，称为“广播变量”（Broadcast variable）。其实现原理与DistributedCache非常类似，但提供了更多的数据/文件广播算法，包括高效的P2P算法，该算法在节点数目非常多的场景下，效率远远好于DistributedCache这种基于HDFS共享存储的方式。使用MapReduce DistributedCache时，用户需要显示地使用File API编写程序从本地读取小表数据，而Spark则不用，它借助Scala语言强大的函数闭包特性，可以隐藏数据/文件广播过程，让用户编写程序更加简单。

适用于一个数据集小，另一个数据集大的情况

package spark.examples.join  
  
import org.apache.spark.{SparkContext, SparkConf}  
import org.apache.spark.SparkContext._  
  
object SparkMapsideJoin {  
  def main(args: Array[String]) {  
    val conf = new SparkConf()  
    conf.setAppName("SparkMapsideJoin")  
    conf.setMaster("local[3]")  
    conf.set("spark.shuffle.manager", "sort");  
    val sc = new SparkContext(conf)  
  
    //val table1 = sc.textFile(args(1))  
    //val table2 = sc.textFile(args(2))  
  
    val table1 = sc.parallelize(List("k1,v11", "k2,v12", "k3,v13"))  
    val table2 = sc.parallelize(List("k1,v21", "k4,v24", "k3,v23"))  
    // table1 is smaller, so broadcast it as a map<String, String>  
    val pairs = table1.map { x =>  
      val pos = x.indexOf(',')  
      (x.substring(0, pos), x.substring(pos + 1))  
    }.collectAsMap  
    val broadCastMap = sc.broadcast(pairs) //save table1 as map, and broadcast it  
  
    // table2 join table1 in map side  
    val result = table2.map { x =>  
      val pos = x.indexOf(',')  
      (x.substring(0, pos), x.substring(pos + 1))  
    }.mapPartitions({ iter =>  
      val m = broadCastMap.value  
      for {  
        (key, value) <- iter  
        if (m.contains(key))  
      } yield (key, (value, m.get(key).getOrElse("")))  
    })  
  
    val output = "d:/wordcount-" + System.currentTimeMillis() ;  
    result.saveAsTextFile(output) //save result to local file or HDFS  
  }  
}

Reduce Side Join

当两个文件/目录中的数据非常大，难以将某一个存放到内存中时，Reduce-side Join是一种解决思路。该算法需要通过Map和Reduce两个阶段完成，在Map阶段，将key相同的记录划分给同一个Reduce Task（需标记每条记录的来源，便于在Reduce阶段合并），在Reduce阶段，对key相同的进行合并。

Spark提供了Join算子，可以直接通过该算子实现reduce-side join，但要求RDD中的记录必须是pair，即RDD[KEY, VALUE]，

适用于两个join表数据量都很大的情况

package spark.examples.join  
  
import org.apache.spark.{SparkContext, SparkConf}  
import org.apache.spark.SparkContext._  
  
object SparkReducesideJoin {  
  def main(args: Array[String]) {  
    val conf = new SparkConf()  
    conf.setAppName("SparkMapsideJoin")  
    conf.setMaster("local[3]")  
    conf.set("spark.shuffle.manager", "sort");  
    val sc = new SparkContext(conf)  
  
    val table1 = sc.parallelize(List("k1,v11", "k2,v12", "k3,v13"))  
    val table2 = sc.parallelize(List("k1,v21", "k4,v24", "k3,v23"))  
    //table1 and table 2 are both very large  
    val pairs1 = table1.map { x =>  
      val pos = x.indexOf(',')  
      (x.substring(0, pos), x.substring(pos + 1))  
    }  
  
    val pairs2 = table2.map { x =>  
      val pos = x.indexOf(',')  
      (x.substring(0, pos), x.substring(pos + 1))  
    }  
    val result = pairs1.join(pairs2)  
    val output = "d:/wordcount-" + System.currentTimeMillis();  
    result.saveAsTextFile(output) //save result to local file or HDFS  
  }  
}

内容总结

以上是互联网集市为您收集整理的spark实现大数据join操作的两个算法，map-side join和reduce-side join全部内容，希望文章能够帮你解决spark实现大数据join操作的两个算法，map-side join和reduce-side join所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/849091.html

来源：【匿名】

【上一篇】分类中类别不平衡数据处理方法 python--imbalance包--smote算法使用教程【下一篇】浅谈php实现映射的两种方法（链表和二叉树）

更多 ►

【spark实现大数据join操作的两个算法，map-side join和reduce-side join】教程文章相关的互联网学习教程文章

HDU 2112 HDU Today【最短路+map容器，spfa算法+Dijkstra算法】【代码】

HDU TodayTime Limit: 15000/5000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 25102 Accepted Submission(s): 6067 Problem Description 经过锦囊相助，海东集团终于度过了危机，从此，HDU的发展就一直顺风顺水，到了2050年，集团已经相当规模了，据说进入了钱江肉丝经济开发区500强。这时候，XHD夫妇也退居了二线，并在风景秀美的诸暨市浬浦镇陶姚村买了个房子，开始安度晚年了。这...

【bzoj3207】花神的嘲讽计划Ⅰ Hash+STL-map+莫队算法【代码】

题目描述背景花神是神，一大癖好就是嘲讽大J，举例如下：“哎你傻不傻的！【hqz：大笨J】”“这道题又被J屎过了！！”“J这程序怎么跑这么快！J要逆袭了！”……描述这一天DJ在给吾等众蒟蒻讲题，花神在一边做题无聊，就跑到了一边跟吾等众蒟蒻一起听。以下是部分摘录：1.“J你在讲什么！”“我在讲XXX！”“哎你傻不傻的！这么麻烦，直接XXX再XXX就好了！”“……”2.“J你XXX讲过了没？”“……”“那个都不讲你就讲这个了？哎你...

LeetCode题解：105. 从前序与中序遍历序列构造二叉树，Simple O(n) without map，JavaScript，详细注释【代码】

原题连接：https://leetcode-cn.com/problems/construct-binary-tree-from-preorder-and-inorder-traversal/ 解题思路：参考了Simple O(n) without map。我们可以用如下代码，打印出递归经过的所有路径： var buildTree = function (preorder, inorder) {let preorderIndex = 0;let inorderIndex = 0;let preMap = new Map();let preRealMap = new Map();function build(direction, stop) {const item = {inorderIndex, stop: ino...

CV算法评判标准：混淆矩阵、准确率、精确率、召回率、特异度、P-R曲线、AP、mAP、coco标准【图】

目录 1 混淆矩阵 2 准确率、精确率（查准率）、召回率（查全率）、特异度 2.1 准确率 2.2 精确率 2.3 召回率 2.4 特异度 3 ★★★ P-R曲线、AP、mAP 4 coco的评价标准和解读方式1 混淆矩阵2 准确率、精确率（查准率）、召回率（查全率）、特异度2.1 准确率2.2 精确率2.3 召回率2.4 特异度3 ★★★ P-R曲线、AP、mAP 3个概念的物理意义，及其计算过程见下面这个流程图：4 coco的评价标准和解读方式 coco的标准含义：coco评估结果的解...

PAT Advanced 1111 Online Map (30) [Dijkstra算法 + DFS]【图】

题目 Input our current position and a destination, an online map can recommend several paths. Now your job is to recommend two paths to your user: one is the shortest, and the other is the fastest. It is guaranteed that a path exists for any request. Input Specification: Each input file contains one test case. For each case, the first line gives two positive integers N (2 <= N <=500), and M, being...

c – 在std :: map中找到最接近输入数范围的最有效的std算法是什么？【代码】

我的数据将存储在整数和整数的映射中关键是任何数字的start_range值为end_range 例如我的地图将如下所示：std::map<int,int> mymap;mymap[100]=200;mymap[1000]=2000;mymap[2000]=2500;mymap[3000]=4000;mymap[5000]=5100;现在,如果我的输入数字是150,那么算法应该将一个迭代器返回到mymap [100].但是,具有输出值(即迭代器 – >秒)的范围检查逻辑应单独完成,以验证它是否落在正确的范围内. 对于输入数字4500,它可能返回mymap [5000...

基于隐马尔科夫模型(HMM)的地图匹配(Map-Matching)算法【图】

原文链接：http://www.cnblogs.com/mindpuzzle/p/3653043.html 文章目录 1. 1. 摘要2. 2. Map-Matching(MM)问题3. 3. 隐马尔科夫模型（HMM）3.1. 3.1. HMM简述3.2. 3.2. 基于HMM的Map-Matching3.3. 3.3. Viterbi算法4. 4. 相关部分论文工作4.1. 4.1. A HMM based MM for wheelchair navigation4.2. 4.2. MM for low-sampling-rate GPS trajectories4.3. 4.3. Hidden Markov MM through noise and sparseness4.4. 4.4. MM with HMM ...

python实现LRU置换算法、LFU置换算法（补充self.map的使用和字典的方法）【代码】

关于本地存放的映射关系map：本质上是一个空字典：self.map={} 每次新增一个节点node，都会把node的key, value放入map中： self.map[key] = node ==> self.map的样子应该是{key1:node1, key2:node2} （注意：node是一个自定义的新的类，详见：https://www.cnblogs.com/marvintang1001/p/11125619.html ）取出字典一个键值对（返回的是值）： node = self.map[key] （这是非安全方法，如果没有这个key会报错。安全方法：value =...

C++实现哈希映射(与map二叉树映射，线性映射比较)【代码】

practice1.h(包含线性映射)#ifndef PRACTICE1_H_INCLUDED #define PRACTICE1_H_INCLUDED#include<vector>template<class Key,class Value>class LinerMap //线性映射 {public:LinerMap(int size=101):arr(size){currentSize=0;}void Put(const Key&k,const Value & v){arr[currentSize]=DataEntry(k,v);currentSize+=1;}Value Get(const Key & k){//线性查找for(size_t i=0;i<currentSize;i++){if(arr[i].key==k)return arr[i].val...