首页 / HADOOP / Hadoop 系列（一）文件读写过程及MR过程

Hadoop 系列（一）文件读写过程及MR过程

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop 系列（一）文件读写过程及MR过程，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含5784字，纯文字阅读大概需要9分钟。

内容图文

最近把自己学习到的知识捋一捋，发现现在除了spark和hive别的没有能拿的出手的，虽然java也会但是只是限制于能写东西。
想把知识体系好好补充一下，就开始hadoop系列的文章，好好的把hadoop从头到尾学习一下。

一：文件IO流程

文件读流程

技术分享图片

1.client打开DistributesFileSystem API(集群文件系统的API) open方法

2.调用API的get块信息的方法（拿到所有的块信息）

3.打开FSDataInputStream API（读取数据的API），一个块三个副本（三台机器），（就近）找一个的机器去根据块信息读取对应的数据

4.一个块读取完成之后，在元数据里面找到下一个块最近的datanode

5.将所有的块拿过来之后，在客户端进行拼接成一个完成的文件

6.关闭链接（资源）

文件写流程

技术分享图片

1.client打开DistributesFileSystem API(集群文件系统的API) create方法

2.传入文件的相关信息（文件名称，文件大小，文件拥有者）返回文件切成几个块，哪一个块放在哪一个文件上。

3.打开FSDataOutputStream API（写取数据的API），将一个块写到一个机器上，这个机器在同步到其他机器上

4.文件总体完成之后在告诉Namenode 写文件成功

5.关闭链接（资源）

MR 过程

技术分享图片

1.将每个文件存为不同的block，将block进行切分操作操作（影响map数）

2.有可能有多个maptask线程并发执行，具体执行看代码怎么去写。（输出和输入必须是键值对的形式）

3.将相同的数据shuffle到同一个节点里面去执行reduce。（reduce个数决定于map的输出）

4.将结果输出到output

Shuffle 过程

技术分享图片

1.Input--map(read in memory )--partation(决定reduce个数)--sort--split to disk---fetch（将一个机器上的map合并成一个文件）

2.fetch（key相同的数据合并成一个文件）--merge --reduce（+1操作）--输出数据

　备注：内存缓存区约为100M，缓存区快满的时候（split.percent 0.8约80M）需要有一个线程将数据刷到磁盘，这个过程叫溢写。该线程会对这些数据作排序操作。

MR详细流程(Shuffle过程在其中蕴涵)

1.（map--split阶段）将输入文件进行切割操作，最大块（64M）成为一个文件，大于的文件要切成两个。决定map个数

2.（map--map阶段）将文件读取进来，进行自定义的map操作

3.（map--溢写阶段）读文件进内存快满了的时候，进行partation（决定reduce个数）、sort（可以执行Combiner map端聚合数值value成为2或者文件）、split to disk 。

4.（map--merge阶段）将map输出的多个文件进行merge操作。（将value写成一个数组）

5.（reduce--读取数据阶段）将文件读取进来，进行merge操作（value写成一个数组）写到临时文件里面

6.（reduce--reduce阶段）临时文件里面的数据进行自定义reduce操作

MR Helloworld

代码

                import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;


                class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    @Override
    protectedvoid map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] words = line.split("");
        //将单词输出为<单词，1>for(String word:words){
            //相同的单词分发给相同的reduce
            context.write(new Text(word),new IntWritable(1));
        }
    }
}
class WordcountReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
    @Override
    protectedvoid reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        /*
         * key--一组相同单词kv对的key
         * */int count =0;

        for(IntWritable value:values){
            count += value.get();
        }
        context.write(key,new IntWritable(count));
    }
}
publicclass WordcountDriver {
    publicstaticvoid main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "file:///");
        FileSystem fs= FileSystem.get(conf);
        String outputPath = "/software/java/data/output/";
        fs.delete(new Path(outputPath),true);

        Job job = Job.getInstance(conf);
        job.setJarByClass(WordcountDriver.class);
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);


        FileInputFormat.setInputPaths(job, new Path("/software/java/data/input/"));
        FileOutputFormat.setOutputPath(job, new Path(outputPath));

        //将job配置的参数，以及job所用的java类所在的jar包提交给yarn去运行
        //job.submit();
        boolean res = job.waitForCompletion(true);
    }

}

pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>org.example</groupId>
  <artifactId>BigData</artifactId>
  <version>1.0-SNAPSHOT</version>
  <inceptionYear>2008</inceptionYear>
  <properties>
    <scala.version>2.7.0</scala.version>
    <hadoop.version>2.7.7</hadoop.version>
  </properties>


  <dependencies>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-mapreduce-client-app</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-mapreduce-client-core</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-mapreduce-client-hs</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-mapreduce-examples</artifactId>
      <version>${hadoop.version}</version>
    </dependency>
  </dependencies>

  <build>
    <sourceDirectory>src/main/scala</sourceDirectory>
    <testSourceDirectory>src/test/scala</testSourceDirectory>
  </build>
</project>

原文：https://www.cnblogs.com/wuxiaolong4/p/12649836.html

内容总结

以上是互联网集市为您收集整理的Hadoop 系列（一）文件读写过程及MR过程全部内容，希望文章能够帮你解决Hadoop 系列（一）文件读写过程及MR过程所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1301637.html

来源：【匿名】

【下一篇】php能用hadoop吗

更多 ►

【Hadoop 系列（一）文件读写过程及MR过程】教程文章相关的互联网学习教程文章

Hadoop 系列（一）文件读写过程及MR过程【代码】【图】

最近把自己学习到的知识捋一捋，发现现在除了spark和hive别的没有能拿的出手的，虽然java也会但是只是限制于能写东西。想把知识体系好好补充一下，就开始hadoop系列的文章，好好的把hadoop从头到尾学习一下。一：文件IO流程文件读流程 1.client打开DistributesFileSystem API(集群文件系统的API) open方法 2.调用API的get块信息的方法（拿到所有的块信息） 3.打开FSDataInputStream API（读取数据的API），一个块三个...

Hadoop系列：（一）hdfs文件系统的基本操作【代码】

可以执行所有常用的Linux文件操作命令（读取文件，新建文件，移动文件，删除文件，列表文件等）1.help命令获取没个命令的帮助[cloudera@quickstart ~]$ hadoop fs -help Usage: hadoop fs [generic options][-appendToFile <localsrc> ... <dst>][-cat [-ignoreCrc] <src> ...][-checksum <src> ...][-chgrp [-R] GROUP PATH...][-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...][-chown [-R] [OWNER][:[GROUP]] PATH...][-copy...

安装Hadoop系列 — 安装SSH免密码登录

配置ssh免密码登录 1) 验证是否安装ssh：ssh -version显示如下的话则成功安装了OpenSSH_6.2p2 Ubuntu-6ubuntu0.1, OpenSSL 1.0.1e 11 Feb 2013Bad escape character ‘rsion‘.否则安装ssh：sudo apt-get install ssh2）ssh-keygen -t dsa -P ‘‘ -f ~/.ssh/id_dsa解释一下，ssh-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思，即密钥类型;-P用于提供密语;-f指定生成的密钥文件。(关于密...

hadoop1学习系列2-hadoop伪分布安装

1.hadoop的伪分布安装(采用Host-only模式)1.1 设置ip地址　　　1.1.1设置宿主机的VirtualBox Host-only Network网路设置　　　　 IP地址：192.168.56.1 　　　　　　子网掩码：255.255.255.0 　　　　　　默认网关：不填　　1.1.2设置VirtualBox虚拟机的网路连接　　　　网卡1：启用网路连接　　　　连接方式：仅主机(Host-Only)适配器　　　　高级：保持默认　　1.1.3启动linux系统，（使用centos6.4），以r...

大数据技术hadoop入门理论系列之二—HDFS架构简介【图】

HDFS简单介绍HDFS全称是Hadoop Distribute File System,是一个能运行在普通商用硬件上的分布式文件系统。与其他分布式文件系统显著不同的特点是：HDFS是一个高容错系统且能运行在各种低成本硬件上；提供高吞吐量，适合于存储大数据集； HDFS提供流式数据访问机制。 HDFS起源于Apache Nutch，现在是Apache Hadoop项目的核心子项目。 HDFS设计假设和目标硬件错误是常态在数据中心，硬件异常应被视作常态而非异常态。在一个大数...

Hadoop系列008-HDFS的数据流【代码】【图】

本人微信公众号，欢迎扫码关注！HDFS的数据流1 HDFS写数据流程1.1 剖析文件写入1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。2）namenode返回是否可以上传。3）客户端请求第一个 block上传到哪几个datanode服务器上。4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成6）dn1、dn2、dn3逐...

Hadoop学习笔记系列文章导航【图】

一、为何要学习Hadoop?　　这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚至超级计算机，成本无疑很高，有时即使是保存数据，也需要面对高成本的问题，因为具有海量数据容量的存储设备，价格往往也是...

Hadoop连载系列之四：数据收集分析系统Chukwa【代码】【图】

系列前三篇文章中介绍了分布式存储和计算系统Hadoop以及Hadoop集群的搭建、Zookeeper集群搭建、HBase分布式部署等。当Hadoop集群的数量达到1000+时，集群自身的信息将会大量增加。Apache开发出一个开源的数据收集和分析系统—Chukwa来处理Hadoop集群的数据。Chukwa有几个非常吸引人的特点：它架构清晰，部署简单；收集的数据类型广泛，具有很强的扩展性；与 Hadoop 无缝集成，能完成海量数据的收集与整理。1 Chukwa简介在Chukw...

ambari 搭建hadoop大数据平台系列1-概述【图】

最近要为第三方搭建一套大数据平台，中间先进行了虚拟机版本，测试通过后，进行了物理机版本的生产环境，网上关于ambari 的文章并不多，但好在ambari 官方文档质量略高，社区比较活跃，便整理该系列的文档，将埋掉的坑抛出来，帮助小伙伴们更加快速的搭建自己的hadoop 平台。分三个部分：1. 为什么选择ambari 来搭建说到ambari, 主要的对手cloudrea manager ，大家比较熟悉，至于各自长短，优势劣汰，大家自己斟酌选择啦。...

Hadoop系列教程<一>---Hadoop是什么呢？【图】

Hadoop适合应用于大数据存储和大数据分析的应用，适合于服务器几千台到几万台的集群运行，支持PB级的存储容量。Hadoop典型应用有：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。但是Hadoop的使用范围远小于SQL或Python之类的脚本语言，所以不要盲目使用Hadoop。不过作为一名钻研Java的物联网工程师，我觉得值得去学习了解，而且想和大数据打交道还没有那个没听过Hadoop的。 Hadoop是使用Java编写，允许分布...

Hadoop HDFS编程 API入门系列之简单综合版本1（四）【图】

不多说，直接上代码。代码package zhouls.bigdata.myWholeHadoop.HDFS.hdfs4;import java.io.IOException;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FileUtil;import org.apache.hadoop.fs.Path;import o...

【大数据系列】hadoop核心组件-MapReduce

原文：http://www.cnblogs.com/dream-to-pku/p/7192413.html

Hadoop 系列（二）Top N【代码】

一：流程分析Top N简介关系数据库中经常有Top n数据查询的大部分是以下四种需求 1.直接min或者max就可以取得最大或者最小的数据（top 1） 2.升级一点就再加上一个groupby取一个分组内的最大值，最小值（分组内的top1） 3.top 10需求，使用order函数取一个前10 4.分组内的top 10需求，使用window 函数生成一个虚拟列，虚拟列取< 11的数据就可以相同的我们在mapreduce中也可能需要实现...

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

1.1 Hadoop简介从Hadoop官网获得Hadoop的介绍：http://hadoop.apache.org/(1)What Is Apache Hadoop?TheApache Hadoop project develops open-source software for reliable, scalable, distributed computing.TheApache Hadoop software library is a framework that allows for the distributedprocessing of large data sets across clusters of computers using simpleprogramming models. It is designed to scale up from si...

Hadoop自学系列集(二) ---- CentOS下安装JDK【代码】【图】

上篇我们讲述了如何使用VMware安装CentOS系统，接下来就看如何安装我们最为熟悉的jdk吧！安装前先看看系统上有没有安装过jdk，输入java -version,如果查询出了其他版本的jdk版本，就先删除了，笔者这里使用jdk1.6。说开始就开始，下面开始说明安装步骤吧。1.我们去Oracle获取jdk1.6安装文件，地址分享:http://download.oracle.com/otn/java/jdk/6u45-b06/jdk-6u45-linux-i586.bin，这地址不能直接进行下载需要登录oracle；2.启动虚...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook Hadoop基础知识 windows部署hadoop-2.7.0 使用 Oracle Load For Hadoop（OLH）实...你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop 系列（一）文件读写过程及MR过程

Hadoop 系列（一）文件读写过程及MR过程

内容导读

内容图文

一：文件IO流程

文件读流程

文件写流程

MR 过程

Shuffle 过程

MR Helloworld

内容总结

内容备注

内容手机端

【Hadoop 系列（一）文件读写过程及MR过程】教程文章相关的互联网学习教程文章

Hadoop 系列（一）文件读写过程及MR过程【代码】【图】

Hadoop系列：（一）hdfs文件系统的基本操作【代码】

安装Hadoop系列 — 安装SSH免密码登录

hadoop1学习系列2-hadoop伪分布安装

大数据技术hadoop入门理论系列之二—HDFS架构简介【图】

Hadoop系列008-HDFS的数据流【代码】【图】

Hadoop学习笔记系列文章导航【图】

Hadoop连载系列之四：数据收集分析系统Chukwa【代码】【图】

ambari 搭建hadoop大数据平台系列1-概述【图】

Hadoop系列教程<一>---Hadoop是什么呢？【图】

Hadoop HDFS编程 API入门系列之简单综合版本1（四）【图】

【大数据系列】hadoop核心组件-MapReduce

Hadoop 系列（二）Top N【代码】

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

Hadoop自学系列集(二) ---- CentOS下安装JDK【代码】【图】

HADOOP - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程