首页 / MYSQL / 深入解析MapReduce架构设计与实现原理–读书笔记(1)概述

深入解析MapReduce架构设计与实现原理–读书笔记(1)概述

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了深入解析MapReduce架构设计与实现原理–读书笔记(1)概述，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3296字，纯文字阅读大概需要5分钟。

内容图文

董西成的书，非常不错。买了有一段时间了，最近才有时间好好观摩一下，而且我们的hadoop集群也是在0.20的版本，还是比较适合的，而且这本书也介绍了部分1.0和2.0的MR框架，是很不错的学习资料。买本书吧，支持一下董大侠。也不贵，打完折页才40多吧。尤其最

董西成的书，非常不错。买了有一段时间了，最近才有时间好好观摩一下，而且我们的hadoop集群也是在0.20的版本，还是比较适合的，而且这本书也介绍了部分1.0和2.0的MR框架，是很不错的学习资料。买本书吧，支持一下董大侠。也不贵，打完折页才40多吧。尤其最近当当，京东都有活动，还是超级实惠的。知识无价！
这本书深入的解析了MR的原理实现，对于我们这些平时只具体应用的，有很好的提纲挈领的作用，可以指导我们把code写的更好，更全。

分布式编程方法

1.迭代(iteration)。遍历输入数据，并将之解析成key/value对。
2.将输入key/value对映射(map)成另外一些key/value对。
3.依据key对中间数据进行分组(grouping)。
4.以组为单位对数据进行归约(reduce)。
5.迭代。将最终产生的key/value对保存到输出文件中。

编程模型分层

编程模型位于应用程序层和MapReduce执行器之间，可以分为两层。
第一层是最基本的JavaAPI，主要有5个可编程组件。
InputFormat，Mapper，Partitioner，Reducer，OutputFormat。
第二层是工具层，位于基本Java API之上，主要是为了方便用户编写复杂的MapReduce程序和利用其它编程语言增加MapReduce计算平台的兼容性而提出的。
JobControl：
方便用户编写有依赖关系的作业，作业构成一个有向图。DAG(directed Acyclic Graph)作业。
ChainMapper/ChainReducer：
方便用户编写链式作业，即在Map或Reduce阶段存在多个Mapper (MAPPER + REDUCER MAPPER*)
Hadoop Streaming：
方便用户采用非JAVA语言编写作业，允许用户指定可执行文件或者脚本作为Mapper/Reducer
Hadoop Pipes:
专门为C/C++程序员编写的MapReduce程序提供的工具包。

新旧MapReduceAPI比较

1.存放位置：新版API存放在org.apache.hadoop.mapreduce包及其子包中。
2.接口变为抽象类：
抽象类是一种较宽松的约束协议，它可以为某些方法提供默认实现。而继承类则可选择是否重新实现这些方法。
新API将InputStream,OutputStream,Mapper,Reducer,Partitioner由接口变为抽象类。
3.上下文封装：
新版API将变量和函数封装成各种上下文(Context)类。使得API具有更好的易用性和扩展性。
JobContext： Job的基本信息
TaskAttemptContext：Task的基本信息
TaskInputOutputContext：封装了Task的各种输入输出操作
MapContext和ReduceContext：分别封装了Mapper和Reducer对外的公共接口

基本概念

1.序列化

结构化对象转变为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。
MR中序列化的主要作用为：永久存储和进程间通信。
Writable，Comparable，WritableComparable

2.Reporter参数

Reporter是MR提供给应用程序的工具。应用程序可使用Reporter中的方法报告完成进度(progress),设定状态消息(setStatus)以及更新计数器(incrCounter)。
Reporter是一个基础参数。MR对外提供的大部分组件，均在其主要方法中添加了该参数。
Interface:Progressable,Reporter

3.回调机制

回调机制是一种常见的设计模式。它将工作流内的某个功能按照约定的接口暴露给外部使用者，为外部使用者提供数据，或要求外部使用者提供数据。
例如：
MapReduce给用户保留了接口Mapper，当用户按照自己的应用程序实现了MyMapper后，Hadoop MapReduce运行时环境会将输入数据解析成key/value对，并调用map()函数迭代处理。
Hadoop MapReduce Runtime
MapTask

this.mapper = ReflectionUtils.newInstance(job.getMapperClass(),jobs);迭代处理while(input.next(key,value)){mapper.map(key,value,output,reporter);}结束

原文地址：深入解析MapReduce架构设计与实现原理–读书笔记(1)概述, 感谢原作者分享。

内容总结

以上是互联网集市为您收集整理的深入解析MapReduce架构设计与实现原理–读书笔记(1)概述全部内容，希望文章能够帮你解决深入解析MapReduce架构设计与实现原理–读书笔记(1)概述所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/556412.html

来源：【匿名】

【上一篇】深入解析MapReduce架构设计与实现原理–读书笔记(2)作业配置及In 【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【深入解析MapReduce架构设计与实现原理–读书笔记(1)概述】教程文章相关的互联网学习教程文章

MySQL索引底层实现原理【代码】【图】

优秀博文：MySQL索引背后的数据结构及算法原理B树、B-树、B+树、B*树【转】,mysql索引MySQL 和 B 树的那些事索引的本质MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就可以得到索引的本质：索引是数据结构。我们知道，数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找...

读书笔记-MySQL运维内参08-索引实现原理1【图】

B树和B+树的区别1，B树的叶子节点和内节点存在的都是数据行的所有信息，B+树的内节点值存放键（索引）信息，数据都在叶子节点上。2，由于B树键和值的所有信息，所以每页的存储的数据行相对较少，随数据发展，该树发成为一个高瘦的树；相反，B+树的内节点只存放键值，所以会成为一个矮胖的树。所以就搜索而言，B+树的效率比B树的效率要高。3，B树的查询效率和所查的键在B树种的位置有关；而B+树的复杂度对于某个B+树来说是固定的。4...

mysqldump的实现原理【代码】【图】

我们可以通过打开general log，查看mysqldump全库备份时执行的命令来了解mysqldump背后的原理。打开general logmysql> set global general_log=on;其中，general log的存放路径可通过以下命令查看mysql> show variables like ‘%general_log_file%‘; 执行全库备份# mysqldump --master-data=2 -R --single-transaction -A -phello > 3306_20160518.sql其中--master-data指定为2指的是会在备份文件中生成CHANGE MASTER的注释。具...

深入解析MapReduce架构设计与实现原理–读书笔记(8)hadoopNIO

J2SE1.4以后， java 发布了新的IO类库，简称NIO。引入了全新的高效的IO机制，同时引入了基于Reactor设计模式的多路复用异步模式。包含以下几种抽象数据类型 Channel(管道) NIO把它支持的IO对象抽象为channel。它模拟了通信连接，类似于IO中的stream。用户可J2SE1.4以后，java发布了新的IO类库，简称NIO。引入了全新的高效的IO机制，同时引入了基于Reactor设计模式的多路复用异步模式。包含以下几种抽象数据类型 Channel(管道) NI...

深入解析MapReduce架构设计与实现原理–读书笔记(7)hadoop网络

Java 网络编程建立在TCP/IP协议基础上，致力于实现应用层。传输层向应用层提供了套接字Socket接口，它封装了下层的数据传输细节；应用层的程序通过Socket与远程主机建立连接和进行数据传输。 TCP TCP是Tranfer Control Protocol的简称，是一种面向连接的保Java网络编程建立在TCP/IP协议基础上，致力于实现应用层。传输层向应用层提供了套接字Socket接口，它封装了下层的数据传输细节；应用层的程序通过Socket与远程主机建立连接和...

深入解析MapReduce架构设计与实现原理–读书笔记(5)hadoop工作流

用户编写的作业比较复杂，相互之间存在依赖关系，这种依赖关系可以用有向图表示，我们称之为工作流。 1.JobControl实现原理：传统做法：为每个作业创建相应的JobConf对象，并按照依赖关系依次(串行)提交各个作业。 //创建Job对象JobConf extractJobConf =用户编写的作业比较复杂，相互之间存在依赖关系，这种依赖关系可以用有向图表示，我们称之为工作流。 1.JobControl实现原理：传统做法：为每个作业创建相应的JobConf对象，...

深入解析MapReduce架构设计与实现原理–读书笔记(7)hadoopRPC反

hadoop RPC 中用到的JDK开发工具包中的一些类。主要包括java.lang. reflect 反射机制和动态代理相关类。java.net网络编程库,java.nio（NIO） 1.java反射机制和动态代理反射机制是java语言的一个重要特性，它允许用户动态获取类的信息和动态调用对象的方法hadoop RPC中用到的JDK开发工具包中的一些类。主要包括java.lang.reflect反射机制和动态代理相关类。java.net网络编程库,java.nio（NIO） 1.java反射机制和动态代理反射机制...

深入解析MapReduce架构设计与实现原理–读书笔记(6)HadoopRPC概

网络通信模块是分布式系统中最底层的模块。直接支撑了上层分布式环境下复杂的进程间通信（IPC）。是所有分布式系统的基网络通信模块是分布式系统中最底层的模块。直接支撑了上层分布式环境下复杂的进程间通信（IPC）。是所有分布式系统的基础。远程过程调用RPC是一种常用的分布式网络通信协议。它允许运行于一台计算机的程序调用另外一台计算机的子程序，同时将网络的通信细节隐藏起来。 hadoop RPC特点 1.透明性当用户在一台计算...

mysql查询指定日期时间内sql语句实现原理与代码_PHP教程

在数据库教程设计时必须注意时间字段为int(11)这样，保存在数据库的是一个数字型日期时间戳，我们可以用mktime函数求出当前日期的时间戳进行加减就OK了，下面看实例 //一个月代码如下:$lastMonth = mktime(date(‘h),date(‘i),date(‘s),date(‘m)-1,date(‘d),date(‘y)); $where .= ” dtime > $lastMonth”; //三个月代码如下:$lastThreeMonth = mktime(date(‘h),date(‘i),date(‘s),date(‘m)-3,date(‘d),date(‘y));...

mysql查询指定日期时间内sql语句实现原理与代码_php技巧

mysql 查询指定日期时间内sql语句实现原理与代码

MySQL 5.7 并行复制实现原理与调优【代码】

，coordinator线程主要负责以前两部分的内容：若判断可以并行执行，那么选择worker线程执行事务的二进制日志若判断不可以并行执行，如该操作是DDL，亦或者是事务跨schema操作，则等待所有的worker线程执行完成之后，再执行当前的日志这意味着 coordinator线程并不是仅将日志发送给worker线程，自己也可以回放日志，但是所有可以并行的操作交付由worker线程完成。coordinator线程与worker是典型的生产者与消费者模型。（疑问：这里...

mysql 5.6 binlog组提交实现原理【图】

mysql 5.6 binlog组提交实现原理http://blog.itpub.net/15480802/viewspace-1411356 Redo组提交 Redo提交流程大致如下 lock log->mutex write redo log buffer to disk unlock log->mutex fsync Fsync写磁盘耗时较长且不占用log->mutex，也就是其执行期间其他线程可以write log buffer；假定一次fsync需要10ms，而写buffer只需要1ms，则fsync执行期间最多可以有10条redo record写入buffer，则下次调用fsync时可一次性写10条记录...

Mysql 索引实现原理. 聚集索引, 非聚集索引【图】

Mysql索引实现：B-tree，B是balance，一般用于数据库的索引。使用B-tree结构可以显著减少定位记录时所经历的中间过程，从而加快存取速度。而B+tree是B-tree的一个变种，MySQL就普遍使用B+tree实现其索引结构。　　一般来说，索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以评价一个数据结构...

MySQL学习笔记——复制的实现原理【图】

1、三个线程 MYSQL复制是从主服务器复制到一个或多个从服务器的异步过程，在主服务器与从服务器之间实现整个复制过程主要由三个线程来实现，其中一个线程I\O在主服务器器端，另两个线程（SQL线程和I\O线程）在从服务器端 2、实现过程首先要在主服务器上打开MySQL的Binary Log（产生二进制日志文件），因为整个复制过程实际上就是从服务器从主服务器端获取该日志，然后在自身上将二进制文件解析为SQL语句并完全顺序地执行SQL语句所...

首页 / MYSQL / 深入解析MapReduce架构设计与实现原理–读书笔记(1)概述

深入解析MapReduce架构设计与实现原理–读书笔记(1)概述

内容导读

内容图文

分布式编程方法

编程模型分层

新旧MapReduceAPI比较

基本概念

1.序列化

2.Reporter参数

3.回调机制

内容总结

内容备注

内容手机端

【深入解析MapReduce架构设计与实现原理–读书笔记(1)概述】教程文章相关的互联网学习教程文章

架构 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程