首页 / HADOOP / hadoop之mr框架的源码理解注意点

hadoop之mr框架的源码理解注意点

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了hadoop之mr框架的源码理解注意点，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1980字，纯文字阅读大概需要3分钟。

内容图文

1、reduce源码中的

GroupComparable和SecondaryComparable到底都是干什么的

理解点1：

源码位置

hadoop之mr框架的源码理解注意点 - 文章图片

理解点

hadoop之mr框架的源码理解注意点 - 文章图片

secondaryComparable这个是可以对map端按照某种规则排序好的数据进
行边界的界定，就是比如你map端排序的根据是按点之前的字段进行分组的
之后传输到了reduce端了，但是你reduce端想要计算的时候是需要的是
按照点前面的如bj、sh等,和点后面的如cp等，进行计算的话，这个secondaryCpmpare
排序器可以在不改变原有map传输过来的数据的分组排序顺序的情况下进行边界的界定

理解点2：ReduceTask.class这个类和reducer的开始关联了

hadoop之mr框架的源码理解注意点 - 文章图片

对于其中的Reducer对象的获取是通过反射实现的，可以看上面的图片中，的ReflectionUtils.getClass()方法

这个方法调用的是JobContext中的方法

hadoop之mr框架的源码理解注意点 - 文章图片

接着ReducerTask.class进行学习

RecordWriter这个是为了最后计算完毕之后向外写出结果的时候用的

hadoop之mr框架的源码理解注意点 - 文章图片

而其中的ReducerContext是为了帮助reducer完成数据迭代的一个上下文容器

具体的这个容器的创建的过程见下图

hadoop之mr框架的源码理解注意点 - 文章图片

接下来进入到createReduceContext（）方法

hadoop之mr框架的源码理解注意点 - 文章图片

在这个方法里面初始化ReduceContext对象

hadoop之mr框架的源码理解注意点 - 文章图片

下面深入源码进入ReduceContextImpl（）

hadoop之mr框架的源码理解注意点 - 文章图片

本方法中将获取的方法的参数赋值给ReduceContextimpl类的成员变量，供下面的使用

最后这个方法返回了reducerContext

hadoop之mr框架的源码理解注意点 - 文章图片

有reduceTask中的reducerContext对象来接收

之后调用自己定义的reducer或者默认的reducer.class的run（）

hadoop之mr框架的源码理解注意点 - 文章图片

进入run方法

又跳回到Reducer.class类的run方法

hadoop之mr框架的源码理解注意点 - 文章图片

接下来进入nextKey（）方法

hadoop之mr框架的源码理解注意点 - 文章图片

reducerContextImpl类中的nextKey（）方法

hadoop之mr框架的源码理解注意点 - 文章图片

进入这个方法的nextKeyValue（）

回到Reducer.class的方法，

hadoop之mr框架的源码理解注意点 - 文章图片

这个nextKey（）仅仅会有一种情况为真，其他的时候都是为假的，而不是看这个和上一个的key是否是是以昂扬的，直到最后的时候，map传递过来的数据集没有数据的时候才会返回false结束左侧的while循环，结束run的调用

接下来看看reducer是怎么界定当前的这个reduce任务该结束了

转到自带源码中的reducer.class的run中的getVlues（）方法，

hadoop之mr框架的源码理解注意点 - 文章图片

进入RecduceContextImpl类中的到getValue（）方法

hadoop之mr框架的源码理解注意点 - 文章图片

其中的迭代器的类型

hadoop之mr框架的源码理解注意点 - 文章图片

转到迭代器的源码ReduceContextImpl .class

hadoop之mr框架的源码理解注意点 - 文章图片

进入到ValueIterIterater类，这个类实现了Iterater接口

hadoop之mr框架的源码理解注意点 - 文章图片

这个方法重写了Iterater中的next（）方法和hasNext()方法

接下来回到ReduceContextImpl.class的 ValueIterator中理解这个方法中的hasNext（）方法

hadoop之mr框架的源码理解注意点 - 文章图片

内容总结

以上是互联网集市为您收集整理的hadoop之mr框架的源码理解注意点全部内容，希望文章能够帮你解决hadoop之mr框架的源码理解注意点所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/692637.html

来源：【匿名】

【上一篇】在本地/远程集群上运行Java hadoop作业【下一篇】php能用hadoop吗

更多 ►

【hadoop之mr框架的源码理解注意点】教程文章相关的互联网学习教程文章

大数据框架对比：Hadoop、Storm、Samza、Spark和Flink--容错机制（ACK，RDD，基于log和状态快照），消息处理at least once，exactly once两个是关键

分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析。它跟MapReduce一样是一种通用计算，但我们期望延迟在毫秒或者秒级别。这类系统一般采用有向无环图(DAG)。DAG是任务链的图形化表示，我们用它来描述流处理作业的拓扑。如下图，数据从sources流经处理任务链到sinks。单机可以运行DAG，但本篇文章主要聚焦在多台机器上运行DAG的情况。关注点当选择不同的流处理系统时，有以下几点需要注意的：运行时和编程模型：平台框架...

数据框架对比：Hadoop、Storm、Samza、Spark和Flink——flink支持SQL，待看

简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。在之前的文章中，我们曾经介绍过有关大数据系统的常规概念、处理过程，以及各种专门术语，本文将介绍大数据系统一个最基本的组件：处理框架。处理框架负责对系统中的数据进行计算，例如处理从非易失...

Hadoop学习笔记—17.Hive框架学习【图】

一、Hive：一个牛逼的数据仓库1.1 神马是Hive？　　Hive 是建立在 Hadoop 基础上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 QL ，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer...

从hadoop框架与MapReduce模式中谈海量数据处理

http://blog.csdn.net/wind19/article/details/7716326 前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲时，便在看“Hadoop”，“MapReduce”“海量数据处理”这方面的论文。...

Hadoop框架之HDFS的shell操作【图】

既然HDFS是存取数据的分布式文件系统，那么对HDFS的操作，就是文件系统的基本操作，比如文件的创建、修改、删除、修改权限等，文件夹的创建、删除、重命名等。对HDFS的操作命令类似于Linux的shell对文件的操作，如ls、mkdir、rm等。我们执行以下操作的时候，一定要确定hadoop是正常运行的，使用jps命令确保看到各个hadoop进程。我们执行命令hadoop fs，如图4-1所示。图4-1图中显示了很多命令选项信息。以上截图不全，我在表格4-1中...

[大牛翻译系列]Hadoop（22）附录D.2 复制连接框架【代码】【图】

附录D.2 复制连接框架复制连接是map端连接，得名于它的具体实现：连接中最小的数据集将会被复制到所有的map主机节点。复制连接的实现非常直接明了。更具体的内容可以参考Chunk Lam的《Hadoop in Action》。这个部分的目标是：创建一个可以支持任意类型的数据集的通用的复制连接框架。这个框架中提供了一个优化的小功能：动态监测分布式缓存内容和输入块的大小，并判断哪个更大。如果输入块较小，那么你就需要将map的输入块放到内...

[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架【代码】【图】

附录D.1 优化后的重分区框架Hadoop社区连接包需要将每个键的所有值都读取到内存中。如何才能在reduce端的连接减少内存开销呢？本文提供的优化中，只需要缓存较小的数据集，然后在连接中遍历较大数据集中的数据。这个方法中还包括针对map的输出数据的次排序，那么reducer先接收到较小的数据集，然后接收到较大的数据集。图D.1是这个过程的流程图。图D.2是实现的类图。类图中包含两个部分，一个通用框架和一些类的实现样例。连...

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

转自：http://blog.csdn.net/jsagnoy/article/details/41545883从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲时，便在看“Had...

Hadoop 新 MapReduce 框架 Yarn 详解

简介：本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架（Yarn) 原理，优势，运作机制和配置方法等；着重介绍新的 yarn 框架相对于原框架的差异及改进；并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序的方法。读者通过本文中新旧 hadoop map-reduce 框架的对比，更能深刻理解新的 yarn 框架的技术原理和设计思想，文中的 Demo 代码经过微小修改即可用于用户基于 hadoop 新框架的实际生产环境。 Ha...

安装关系型数据库MySQL和大数据处理框架Hadoop【图】

hdfsHadoop平台的起源：2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年2月被分离出来，成为一套完整独立的软件，起名为HadoopHadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩...

Hadoop学习第二次：HDFS的应用场景部署原理与基本框架【图】

1.HDFS的定义与特色以文件为基本存储单位的劣势：难以实现负载均衡——文件大小不同，负载均衡难实现；用户自己控制文件大小；难以实现并行化处理——只能利用一个节点资源处理一个文件，无法动用集群资源；HDFS的定义：易于扩展的分布式文件系统；运行在大量廉价机器上，提供容错机制；为大量用户提供性能不错的文件存储服务；优点：高容错性（数据自动保存多个副本，副本丢失后自动恢复...

C# Hadoop学习笔记（七）—C#的云计算框架借鉴（下）【图】

转自：http://blog.csdn.net/black0707/article/details/12853049 在上篇里，我们主要讨论了，这个系统怎样处理大数据的“读”操作，当然还有一些细节没有讲述。下篇，我们将主要讲述，“写”操作是如何被处理的。我们都知道，如果只有“读”，那几乎是不用做任何数据同步的，也不会有并发安全问题，之所以，会产生这样那样的问题，会导致缓存和数据库的数据不一致，其实根源就在于“写”操作的存在。下面，让我们看一看，当系统需...

LinkedIn开源TonY：在Hadoop上运行TensorFlow的框架

LinkedIn 严重依赖人工智能为其超过 5.75 亿会员提供内容和创造经济机会。随着深度学习技术的迅速发展，人工智能工程师已经开始在 LinkedIn 的关联驱动产品中采用深度神经网络，包括反馈和智能回复。这些用例中的许多都构建在由谷歌编写的深度学习框架 TensorFlow 上。一开始，我们内部的 TensorFlow 用户在小型的、非托管的“裸机”集群上运行框架。但我们很快意识到需要将 TensorFlow 与基于 Hadoop 的大数据平台的庞大计算和存储...

Hadoop的Python框架指南

最近，我加入了Cloudera，在这之前，我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但Apache Hadoop的生态系统大部分都是用Java来实现的，也是为Java准备的，这让我很恼火。所以，我的头最近，我加入了Cloudera，在这之前，我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但Apache Hadoop的生...

将HadoopRPC框架应用于多节点任务调度

在hadoop中，主从节点之间保持着心跳通信，用于传输节点状态信息、任务调度信息以及节点动作信息等等。 hdfs的namenode与datanode，mapreduce的jobtracker与tasktracker，hbase的hmaster与 regionserver之间的通信，都是基于hadoop RPC。Hadoop RPC是hadoop在hadoop中，主从节点之间保持着心跳通信，用于传输节点状态信息、任务调度信息以及节点动作信息等等。 hdfs的namenode与datanode，mapreduce的jobtracker与tasktracker，hba...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / hadoop之mr框架的源码理解注意点

hadoop之mr框架的源码理解注意点

内容导读

内容图文

内容总结

内容备注

内容手机端

【hadoop之mr框架的源码理解注意点】教程文章相关的互联网学习教程文章

HADOOP - 最新教程

HADOOP - 最热教程