首页 / MYSQL / 深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio

深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3131字，纯文字阅读大概需要5分钟。

内容图文

深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio

MR解析 Mapper/Reducer封装了应用程序的数据处理逻辑。所有存储在底层分布式文件系统上的数据均要解释成key/value的形式。并交给MR中的map/reduce函数处理，产生另外一些key/value。 Mapper 1)初始化 Mapper继承了JobConfigurable接口。该config方法允许通

MR解析

Mapper/Reducer封装了应用程序的数据处理逻辑。
所有存储在底层分布式文件系统上的数据均要解释成key/value的形式。并交给MR中的map/reduce函数处理，产生另外一些key/value。

Mapper

1)初始化

Mapper继承了JobConfigurable接口。该config方法允许通过JobConf参数对Mapper进行初始化。

2)Map操作

MapReduce会通过InputFormat中RecordReader从InputSplit获取一个key/value对，并交给map()函数处理：
void map(K1 key,V2 value,OutputCollector output,Reporter reporter) throws IOException;

3)清理

Mapper通过继承Colseable获得close方法，用户可通过实现该方法对Mapper进行清理。

Mapper类型

ChainMapper 链式作业；IdentityMapper对于输入不进行任何处理，直接输出；InvertMapper 交换key/value位置；
RegexMapper 正则表达式字符串分割；TokenMapper 将字符串分割成若干个token，可用作wordCount的Mapper；
LongSumReducer：以key为组，对long类型的value求累加和。
新的Mapper由接口变为抽象类；不再继承JobConfigurable和Closeable，而是直接在类中添加了setup和cleanup两个方法进行初始化和清理工作。
将参数封装到Context对象中，接口具有良好扩展性。
去掉MapRunnable接口，在Mapper中添加run方法，以方便用户定制map()函数的调用方法。
新API中，Reducer遍历value的迭代器类型变为Iterable

void reduce(KEYIN key,Iteratable values,Context context) throws IOException,InterrupteException{for(VALUEIN value:values){	context.write((KEYOUT) key,(VALUEOUT) value);}}

Partitioner接口的设计与实现

Partitioner的作用是对Mapper产生的中间结果进行分片，以便将同一分组的数据交给同一个Reducer处理，它直接影响Reduce阶段的负载均衡。
只包含一个待实现的方法getPartition。该方法包含3个参数，均由框架自传入，前面2个参数是key/value,第三个参数numPartitions表示每个Mapper的分片数，
也就是Reducer的个数。

HashPartitioner和TotalOrderPartitioner。其中HashPartitioner是默认实现：public int getPartition(K2 key,V2 value,int numReduceTasks){return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks ;}

TotalOrderPartitioner提供了一种基于区间的分片方法，通常用在数据全排序中，归并排序。
在Map阶段，每个MapTask进行局部排序；在Reduce阶段，启动一个ReduceTask进行全局排序。由于作业只能有一个ReduceTask，因此会产生瓶颈。
TotalOrderPartitioner按照大小将数据分成若干个区间，并保证后一个区间的所有数据均大于前一个区间数据。

步骤1：数据采样。

在client端通过采样获取分片的分割点。
采样数据：b,abc,abd,bcd,abcd,efg,hii,afd,rrr,mnk
排序后:abc,abcd,abd,afd,b,bcd,efg,hii,mnk,rrr
如果有4个Reduce Task，则采样数据的四等分点为abd,bcd,mnk

步骤2：Map阶段。

Mapper可采用IdentityMapper直接将输入数据输出，TotalOrderPartitioner将步骤1中获取的分割点保存到trie树中以便快速定位任意一个记录所在的区间，这样每个
Map Task产生R个区间，且区间中间有序。

步骤3：Reduce阶段。

每个Reducer对分配到的区间数据进行局部排序，最终得到全排序数据。
TotalOrderPartitioner有2个典型应用实例；TeraSort和HBase。
HBase内部数据有序，Region之间也有序。

原文地址：深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitioner, 感谢原作者分享。

内容总结

以上是互联网集市为您收集整理的深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio全部内容，希望文章能够帮你解决深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/556383.html

来源：【匿名】

【上一篇】《构建高性能Web站点》学习笔记【下一篇】用IE远程创建Mysql数据库的简易程序

更多 ►

【深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio】教程文章相关的互联网学习教程文章

MySQL索引底层实现原理【代码】【图】

优秀博文：MySQL索引背后的数据结构及算法原理B树、B-树、B+树、B*树【转】,mysql索引MySQL 和 B 树的那些事索引的本质MySQL官方对索引的定义为：索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就可以得到索引的本质：索引是数据结构。我们知道，数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找...

读书笔记-MySQL运维内参08-索引实现原理1【图】

B树和B+树的区别1，B树的叶子节点和内节点存在的都是数据行的所有信息，B+树的内节点值存放键（索引）信息，数据都在叶子节点上。2，由于B树键和值的所有信息，所以每页的存储的数据行相对较少，随数据发展，该树发成为一个高瘦的树；相反，B+树的内节点只存放键值，所以会成为一个矮胖的树。所以就搜索而言，B+树的效率比B树的效率要高。3，B树的查询效率和所查的键在B树种的位置有关；而B+树的复杂度对于某个B+树来说是固定的。4...

mysqldump的实现原理【代码】【图】

我们可以通过打开general log，查看mysqldump全库备份时执行的命令来了解mysqldump背后的原理。打开general logmysql> set global general_log=on;其中，general log的存放路径可通过以下命令查看mysql> show variables like ‘%general_log_file%‘; 执行全库备份# mysqldump --master-data=2 -R --single-transaction -A -phello > 3306_20160518.sql其中--master-data指定为2指的是会在备份文件中生成CHANGE MASTER的注释。具...

深入解析MapReduce架构设计与实现原理–读书笔记(8)hadoopNIO

J2SE1.4以后， java 发布了新的IO类库，简称NIO。引入了全新的高效的IO机制，同时引入了基于Reactor设计模式的多路复用异步模式。包含以下几种抽象数据类型 Channel(管道) NIO把它支持的IO对象抽象为channel。它模拟了通信连接，类似于IO中的stream。用户可J2SE1.4以后，java发布了新的IO类库，简称NIO。引入了全新的高效的IO机制，同时引入了基于Reactor设计模式的多路复用异步模式。包含以下几种抽象数据类型 Channel(管道) NI...

深入解析MapReduce架构设计与实现原理–读书笔记(7)hadoop网络

Java 网络编程建立在TCP/IP协议基础上，致力于实现应用层。传输层向应用层提供了套接字Socket接口，它封装了下层的数据传输细节；应用层的程序通过Socket与远程主机建立连接和进行数据传输。 TCP TCP是Tranfer Control Protocol的简称，是一种面向连接的保Java网络编程建立在TCP/IP协议基础上，致力于实现应用层。传输层向应用层提供了套接字Socket接口，它封装了下层的数据传输细节；应用层的程序通过Socket与远程主机建立连接和...

深入解析MapReduce架构设计与实现原理–读书笔记(5)hadoop工作流

用户编写的作业比较复杂，相互之间存在依赖关系，这种依赖关系可以用有向图表示，我们称之为工作流。 1.JobControl实现原理：传统做法：为每个作业创建相应的JobConf对象，并按照依赖关系依次(串行)提交各个作业。 //创建Job对象JobConf extractJobConf =用户编写的作业比较复杂，相互之间存在依赖关系，这种依赖关系可以用有向图表示，我们称之为工作流。 1.JobControl实现原理：传统做法：为每个作业创建相应的JobConf对象，...

深入解析MapReduce架构设计与实现原理–读书笔记(7)hadoopRPC反

hadoop RPC 中用到的JDK开发工具包中的一些类。主要包括java.lang. reflect 反射机制和动态代理相关类。java.net网络编程库,java.nio（NIO） 1.java反射机制和动态代理反射机制是java语言的一个重要特性，它允许用户动态获取类的信息和动态调用对象的方法hadoop RPC中用到的JDK开发工具包中的一些类。主要包括java.lang.reflect反射机制和动态代理相关类。java.net网络编程库,java.nio（NIO） 1.java反射机制和动态代理反射机制...

深入解析MapReduce架构设计与实现原理–读书笔记(6)HadoopRPC概

网络通信模块是分布式系统中最底层的模块。直接支撑了上层分布式环境下复杂的进程间通信（IPC）。是所有分布式系统的基网络通信模块是分布式系统中最底层的模块。直接支撑了上层分布式环境下复杂的进程间通信（IPC）。是所有分布式系统的基础。远程过程调用RPC是一种常用的分布式网络通信协议。它允许运行于一台计算机的程序调用另外一台计算机的子程序，同时将网络的通信细节隐藏起来。 hadoop RPC特点 1.透明性当用户在一台计算...

mysql查询指定日期时间内sql语句实现原理与代码_PHP教程

在数据库教程设计时必须注意时间字段为int(11)这样，保存在数据库的是一个数字型日期时间戳，我们可以用mktime函数求出当前日期的时间戳进行加减就OK了，下面看实例 //一个月代码如下:$lastMonth = mktime(date(‘h),date(‘i),date(‘s),date(‘m)-1,date(‘d),date(‘y)); $where .= ” dtime > $lastMonth”; //三个月代码如下:$lastThreeMonth = mktime(date(‘h),date(‘i),date(‘s),date(‘m)-3,date(‘d),date(‘y));...

mysql查询指定日期时间内sql语句实现原理与代码_php技巧

mysql 查询指定日期时间内sql语句实现原理与代码

MySQL 5.7 并行复制实现原理与调优【代码】

，coordinator线程主要负责以前两部分的内容：若判断可以并行执行，那么选择worker线程执行事务的二进制日志若判断不可以并行执行，如该操作是DDL，亦或者是事务跨schema操作，则等待所有的worker线程执行完成之后，再执行当前的日志这意味着 coordinator线程并不是仅将日志发送给worker线程，自己也可以回放日志，但是所有可以并行的操作交付由worker线程完成。coordinator线程与worker是典型的生产者与消费者模型。（疑问：这里...

mysql 5.6 binlog组提交实现原理【图】

mysql 5.6 binlog组提交实现原理http://blog.itpub.net/15480802/viewspace-1411356 Redo组提交 Redo提交流程大致如下 lock log->mutex write redo log buffer to disk unlock log->mutex fsync Fsync写磁盘耗时较长且不占用log->mutex，也就是其执行期间其他线程可以write log buffer；假定一次fsync需要10ms，而写buffer只需要1ms，则fsync执行期间最多可以有10条redo record写入buffer，则下次调用fsync时可一次性写10条记录...

Mysql 索引实现原理. 聚集索引, 非聚集索引【图】

Mysql索引实现：B-tree，B是balance，一般用于数据库的索引。使用B-tree结构可以显著减少定位记录时所经历的中间过程，从而加快存取速度。而B+tree是B-tree的一个变种，MySQL就普遍使用B+tree实现其索引结构。　　一般来说，索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以评价一个数据结构...

MySQL学习笔记——复制的实现原理【图】

1、三个线程 MYSQL复制是从主服务器复制到一个或多个从服务器的异步过程，在主服务器与从服务器之间实现整个复制过程主要由三个线程来实现，其中一个线程I\O在主服务器器端，另两个线程（SQL线程和I\O线程）在从服务器端 2、实现过程首先要在主服务器上打开MySQL的Binary Log（产生二进制日志文件），因为整个复制过程实际上就是从服务器从主服务器端获取该日志，然后在自身上将二进制文件解析为SQL语句并完全顺序地执行SQL语句所...

首页 / MYSQL / 深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio

深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio

内容导读

内容图文

MR解析

Mapper

1)初始化

2)Map操作

3)清理

Mapper类型

Partitioner接口的设计与实现

步骤1：数据采样。

步骤2：Map阶段。

步骤3：Reduce阶段。

内容总结

内容备注

内容手机端

【深入解析MapReduce架构设计与实现原理–读书笔记(4)MR及Partitio】教程文章相关的互联网学习教程文章

架构 - 相关标签

MYSQL - 技术教程分类

MYSQL - 最新教程

MYSQL - 最热教程