首页 / HADOOP / Hadoop中TeraSort算法分析

Hadoop中TeraSort算法分析

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop中TeraSort算法分析，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含3008字，纯文字阅读大概需要5分钟。

内容图文

1、概述

1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业，在2008年，Hadoop在1TB排序基准评估中赢得第一名，耗时209秒。那么Terasort在Hadoop中是怎样实现的呢？本文主要从算法设计角度分析Terasort作业。

2、算法思想

实际上，当我们要把传统的串行排序算法设计成并行的排序算法时，通常会想到分而治之的策略，即：把要排序的数据划成M个数据块（可以用Hash的方法做到），然后每个map task对一个数据块进行局部排序，之后，一个reduce task对所有数据进行全排序。这种设计思路可以保证在map阶段并行度很高，但在reduce阶段完全没有并行。

Hadoop中TeraSort算法分析 - 文章图片

为了提高reduce阶段的并行度，TeraSort作业对以上算法进行改进：在map阶段，每个map task都会将数据划分成R个数据块（R为reduce task个数），其中第i（i>0）个数据块的所有数据都会比第i+1个中的数据大；在reduce阶段，第i个reduce task处理（进行排序）所有map task的第i块，这样第i个reduce task产生的结果均会比第i+1个大，最后将1~R个reduce task的排序结果顺序输出，即为最终的排序结果。这种设计思路很明显比第一种高效，但实现难度较大，它需要解决以下两个技术难点：第一，如何确定每个map task数据的R个数据块的范围？第二，对于某条数据，如果快速的确定它属于哪个数据块？答案分别为【采样】和【trie树】。

Hadoop中TeraSort算法分析 - 文章图片

3、Terasort算法

3.1 Terasort算法流程

对于Hadoop的Terasort排序算法，主要由3步组成：采样 –>> map task对于数据记录做标记 –>> reduce task进行局部排序。

数据采样在JobClient端进行，首先从输入数据中抽取一部分数据，将这些数据进行排序，然后将它们划分成R个数据块，找出每个数据块的数据上限和下线（称为“分割点”），并将这些分割点保存到分布式缓存中。

在map阶段，每个map task首先从分布式缓存中读取分割点，并对这些分割点建立trie树（两层trie树，树的叶子节点上保存有该节点对应的reduce task编号）。然后正式开始处理数据，对于每条数据，在trie树中查找它属于的reduce task的编号，并保存起来。

在reduce阶段，每个reduce task从每个map task中读取其对应的数据进行局部排序，最后将reduce task处理后结果按reduce task编号依次输出即可。

3.2 Terasort算法关键点

（1）采样

Hadoop自带了很多数据采样工具，包括IntercalSmapler，RandomSampler，SplitSampler等（具体见org.apache.hadoop.mapred.lib）。

采样数据条数：sampleSize = conf.getLong(“terasort.partitions.sample”, 100000);

选取的split个数：samples = Math.min(10, splits.length); splits是所有split组成的数组。

每个split提取的数据条数：recordsPerSample = sampleSize / samples;

对采样的数据进行全排序，将获取的“分割点”写到文件_partition.lst中，并将它存放到分布式缓存区中。

举例说明：比如采样数据为b，abc，abd，bcd，abcd，efg，hii，afd，rrr，mnk

经排序后，得到：abc，abcd，abd，afd，b，bcd，efg，hii，mnk，rrr

如果reduce task个数为4，则分割点为：abd，bcd，mnk

（2）map task对数据记录做标记

每个map task从文件_partition.lst读取分割点，并创建trie树（假设是2-trie，即组织利用前两个字节）。

Map task从split中一条一条读取数据，并通过trie树查找每条记录所对应的reduce task编号。比如：abg对应第二个reduce task， mnz对应第四个reduce task。

（3）reduce task进行局部排序

每个reduce task进行局部排序，依次输出结果即可。

4、参考资料

(1) hadoop的1TB排序terasort：

http://hi.baidu.com/dtzw/blog/item/cffc8e1830f908b94bedbc12.html

(2)Hadoop-0.20.2代码

(3)http://sortbenchmark.org/

内容总结

以上是互联网集市为您收集整理的Hadoop中TeraSort算法分析全部内容，希望文章能够帮你解决Hadoop中TeraSort算法分析所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/629467.html

来源：【匿名】

【上一篇】hadoop两个namenode都是standby问题【下一篇】php能用hadoop吗

更多 ►

【Hadoop中TeraSort算法分析】教程文章相关的互联网学习教程文章

Hadoop HA高可用性架构和演进分析（转）【图】

1.概况截至目前，Apache Hadoop版本分为两代，我们将第一代Hadoop称为Hadoop 1.0，第二代Hadoop称为Hadoop 2.0。前者主要有如下几种实现方式：1）社区版本基于Secondary namenode机制来定时备份HDFS metadata元数据信息；2）Avatar在Secondarynamenode的基础上实现了基于NFS共享存储方式的热备方案。3)Backup Node通过提供备用节点同步Namenode中的Matadata数据实现。后者基于NFS或者Journalnode实现HA同步两个namenode节...

使用hadoop mapreduce分析mongodb数据：（2）【代码】

在上一篇使用hadoop mapreduce分析mongodb数据：（１）中，介绍了如何使用Hadoop MapReduce连接MongoDB数据库以及如何处理数据库，本文结合一个案例来进一步说明Hadoop MapReduce处理MongoDB的细节原始数据> db.stackin.find({}) { "_id" : ObjectId("575ce909aa02c3b21f1be0bb"), "summary" : "good good day", "url" : "url_1" } { "_id" : ObjectId("575ce909aa02c3b21f1be0bc"), "summary" : "hello world good world", "url"...

Hadoop多目录输入，join，进入reduce，数据流分析

前言在做需求时，经常遇到多个目录，也就是多个维度进行join，这里分析一下，数据是怎么流动的。1、多目录输入使用MultipleInputs.addInputPath() 对多目录制定格式和map2、数据流分析map按行读入数据，需要对不同的输入目录，打上不同的标记（这个方法又叫reduce端连接），map在输出后会进行partition和sort，按照key进行排序，然后输出到reduce进行处理。例子三个输入文件：a.txt：500 501 b.txt:500 501 600 505 c.txt:501 500...

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

NameNodeHttpServer启动源码剖析，这一部分主要按以下步骤进行：　　一、源码调用分析　　二、伪代码调用流程梳理　　三、http server服务流程图解第一步，源码调用分析　　前一篇文章已经锁定到了NameNode.java类文件，搜索找到main()，可以看到代码只有寥寥几行，再筛除掉一些参数校验以及try-catch逻辑代码，　　剩下的核心的代码甚至只有两行，如下： 1publicstaticvoid main(String argv[]) throws Exception {2if (DFSUtil.p...

Hadoop项目实战－用户行为分析之应用概述（一）【图】

1.概述本课程的视频教程地址：《Hadoop 回顾》　　如果本教程能帮助到您，希望您能点击进去观看一下，而且现在注册成为极客学院的会员，验证手机号码和邮箱号码会赠送三天的会员时间，手机端首次也可以领取五天的会员时间哦（即使是购买年会员目前也仅仅是年费260），成为极客学院学习会员可以无限制的下载和观看所有的学院网站的视频，谢谢您的支持！　　好的，下面就开始本篇教程的内容分享，本篇教程我为大家介绍我们要做一个什...

Hadoop之RPC Server源码分析【图】

好了，让我们先来看看RPC的基础Server类的具体实现，很多设计思想和实践方式值的学习。重点不是看过源码，而是从源码中学习到了什么。尤其是其中，wait和notify的使用很好的学习范例，当然还有反射...Server start()方法是入口类，基本线程都是Daemon方式让我们来看看run里面执行了什么，主要是建立socket读取客户度请求。并将客户度请求并封装为call放入队列，提醒消费者使用。下面就是Handler，主要是处理，connection接受的对象...

Hadoop源代码分析（MapTask辅助类，III）【图】

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmark，用于标记记录的结尾。返部分代码需要bufmark，是因为key戒value的输出是变长的，（前面元信息记录大小是...

hadoop MR 统计分析日志脚本一例

#! /bin/sh#############################split today and yesterdayfor i in $(seq 10)do echo " " >> /u1/hadoop-stat/stat.logdoneecho "begin["`date "+%Y-%m-%d" -d "-1 days"`"]" >> /u1/hadoop-stat/stat.log#############################remove filefunction removeFilepathNotCurrentMonth(){month=`date "+%Y-%m" -d "-1 days"`for file in ` ls $1 `doif [ "$month" != "$file" ]; thenrm -rf $1"/"$filefidone}GYLOG...

hadoop日志数据分析开发步骤及代码【代码】【图】

日志数据分析：1.背景1.1 hm论坛日志，数据分为两部分组成，原来是一个大文件，是56GB；以后每天生成一个文件，大约是150-200MB之间；1.2 日志格式是apache common日志格式；每行记录有5部分组成：访问ip、访问时间、访问资源、访问状态、本次流量；27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 11271.3 分析一些核心指标，供运营决策者使用；1.4 开发该系统的目的是分了获取一...

Mapreduce执行过程分析(基于Hadoop2.4)——(一)【代码】【图】

1 概述该瞅瞅MapReduce的内部运行原理了，以前只知道个皮毛，再不搞搞，不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点，一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce，是一种模式，适合解决并行计算的问题，比如TopN、贝叶斯分类等。注意，是并行计算，而非迭代计算，像涉及到层次聚类的问题就不太适合了。从名字可以看出，这种模式有两个步骤，Map和Reduce。Map即数据...

Hadoop HDFS源码分析读取命名空间镜像和编辑日志数据【代码】

读取命名空间镜像和编辑日志数据1.读取命名空间镜像类FSImage是命名空间镜像的java实现，在源码中，英文注释为，/*** FSImage handles checkpointing and logging of the namespace edits.**/FSImage.loadFSImage(FSNamesystem, StartupOption, MetaRecoveryContext) 读取命名空间镜像。 1privateboolean loadFSImage(FSNamesystem target, StartupOption startOpt,2 MetaRecoveryContext recove...

Hadoop CombineFileInputFormat原理及源码分析【代码】

引言引用《Hadoop权威指南》原文如下： Hadoop works better with a small number of large files than a large number of small files. One reason for this is that FileInputFormat generates splits in such a way that each split is all or part of a single file. If the file is very small (“small” means significantly smaller than an HDFS block) and there are a lot of them, each map task will process very l...

基于Hadoop大数据分析应用场景与实战【图】

一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和...

Hadoop HDFS元数据目录分析【代码】

元数据目录分析在第一次部署好Hadoop集群的时候，我们需要在NameNode（NN）节点上格式化磁盘：$HADOOP_HOME/bin/hdfs namenode -format格式化完成之后，将会在$dfs.namenode.name.dir/current目录下如下的文件结构current/|-- VERSION|-- edits_*|-- fsimage_0000000000008547077|-- fsimage_0000000000008547077.md5`-- seen_txid其中的dfs.name.dir是在hdfs-site.xml文件中配置的，默认值如下：<property> <name>dfs.name.dir<...

hadoop本地目录相关代码分析

最近hadoop本地磁盘总是坏，伴随着有些hadoop job失败，阅读了一些相关的代码。本地磁盘健康检查 NodeManager默认会每两分钟检查本地磁盘（local-dirs），找出那些目录可以使用。注意这里如果判定这个磁盘不可用，则在重启NodeManager之前，就算磁盘好了，最近hadoop本地磁盘总是坏，伴随着有些hadoop job失败，阅读了一些相关的代码。本地磁盘健康检查 NodeManager默认会每两分钟检查本地磁盘（local-dirs），找出那些目录可以使...

算法分析 - 相关标签

算法分析算法分析与设计

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop中TeraSort算法分析

Hadoop中TeraSort算法分析

内容导读

内容图文

内容总结

内容备注

内容手机端

【Hadoop中TeraSort算法分析】教程文章相关的互联网学习教程文章

Hadoop HA高可用性架构和演进分析（转）【图】

使用hadoop mapreduce分析mongodb数据：（2）【代码】

Hadoop多目录输入，join，进入reduce，数据流分析

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

Hadoop项目实战－用户行为分析之应用概述（一）【图】

Hadoop之RPC Server源码分析【图】

Hadoop源代码分析（MapTask辅助类，III）【图】

hadoop MR 统计分析日志脚本一例

hadoop日志数据分析开发步骤及代码【代码】【图】

Mapreduce执行过程分析(基于Hadoop2.4)——(一)【代码】【图】

Hadoop HDFS源码分析读取命名空间镜像和编辑日志数据【代码】

Hadoop CombineFileInputFormat原理及源码分析【代码】

基于Hadoop大数据分析应用场景与实战【图】

Hadoop HDFS元数据目录分析【代码】

hadoop本地目录相关代码分析

HADOOP - 相关标签

算法分析 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程