首页 / HADOOP / Hadoop多目录输入，join，进入reduce，数据流分析

Hadoop多目录输入，join，进入reduce，数据流分析

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop多目录输入，join，进入reduce，数据流分析，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4093字，纯文字阅读大概需要6分钟。

内容图文

前言

在做需求时，经常遇到多个目录，也就是多个维度进行join，这里分析一下，数据是怎么流动的。

1、多目录输入

使用MultipleInputs.addInputPath() 对多目录制定格式和map

2、数据流分析

map按行读入数据，需要对不同的输入目录，打上不同的标记（这个方法又叫reduce端连接），map在输出后会进行partition和sort，按照key进行排序，然后输出到reduce进行处理。

例子

三个输入文件：

a.txt：

500
501

b.txt:

500	501
600 505

c.txt:

501	500
700 800

代码

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import util.TextPair;

import com.sina.hadoop.MultipleInputs;

public class Main extends Configured implements Tool
{

    public static void main(String[] args) throws Exception
    {
        int exitcode = ToolRunner.run(new Main(), args);
        System.exit(exitcode);
    }

    /**
     * 分区
     */
    static class TextPairKeyPartitioner extends Partitioner<TextPair, Text>
    {
        public int getPartition(TextPair key, Text value, int numPartitions)
        {
            return (key.getFirst().hashCode() & Integer.MAX_VALUE) % numPartitions;
        }

    }

    public int run(String[] arg0) throws Exception
    {
        int exitcode = 0;
        if (exitcode == 0)
        {
            Job job1 = new Job();
            job1.setJobName("testMultipleInputs");
            job1.setJarByClass(Main.class);

            MultipleInputs.addInputPath(job1, new Path("xx/testMultipleInputs/input/a/"),
                    TextInputFormat.class, AMapper.class);
            MultipleInputs.addInputPath(job1, new Path("xx/testMultipleInputs/input/b/"),
                    TextInputFormat.class, BMapper.class);
            MultipleInputs.addInputPath(job1, new Path("xx/testMultipleInputs/input/c/"),
                    TextInputFormat.class, CMapper.class);

            job1.setReducerClass(TestReducer.class);
            FileOutputFormat.setOutputPath(job1, new Path("xx/testMultipleInputs/output/"));
            job1.setOutputKeyClass(Text.class);
            job1.setOutputValueClass(Text.class);
            job1.setPartitionerClass(TextPairKeyPartitioner.class);
            job1.setGroupingComparatorClass(TextPair.FirstComparator.class);
            job1.setMapOutputKeyClass(TextPair.class);
            job1.setMapOutputValueClass(Text.class);

            job1.setNumReduceTasks(1);
            exitcode = job1.waitForCompletion(true) ? 0 : 1;
        }

        return exitcode;
    }

    public class AMapper extends Mapper<LongWritable, Text, TextPair, Text>
    {
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
        {
            String[] data = value.toString().split("\t", -1);
            String id = "";
            if (data.length >= 1)
            {
                id = data[0];
                if (!"".equals(id))
                {
                    context.write(new TextPair(id, "1"), new Text("0"));
                }
            }
        }
    }

    public class BMapper extends Mapper<LongWritable, Text, TextPair, Text>
    {
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
        {
            String[] data = value.toString().split("\t", -1);
            String id1 = "";
            String id2 = "";
            if (data.length >= 2)
            {
                id1 = data[0];
                id2 = data[1];
                if (!"".equals(id1))
                {
                    context.write(new TextPair(id1, "2"), new Text(id2));
                }
            }
        }
    }

    public class CMapper extends Mapper<LongWritable, Text, TextPair, Text>
    {
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException
        {
            String[] data = value.toString().split("\t", -1);
            String id1 = "";
            String id2 = "";
            if (data.length >= 2)
            {
                id1 = data[0];
                id2 = data[1];
                if (!"".equals(id1))
                {
                    context.write(new TextPair(id1, "3"), new Text(id2));
                }
            }
        }
    }

    public class TestReducer extends Reducer<TextPair, Text, Text, Text>
    {
        public void reduce(TextPair key, Iterable<Text> values, Context context) throws IOException, InterruptedException
        {
            String data = "";
            Iterator<Text> i = values.iterator();
            while (i.hasNext())
            {
                data = i.next().toString();
                context.write(key.getFirst(), new Text(data));
            }
        }

    }

}

原文：http://blog.csdn.net/smile0198/article/details/35573315

内容总结

以上是互联网集市为您收集整理的Hadoop多目录输入，join，进入reduce，数据流分析全部内容，希望文章能够帮你解决Hadoop多目录输入，join，进入reduce，数据流分析所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1198159.html

来源：【匿名】

【上一篇】Hadoop 自连接【下一篇】php能用hadoop吗

更多 ►

【Hadoop多目录输入，join，进入reduce，数据流分析】教程文章相关的互联网学习教程文章

使用hadoop mapreduce分析mongodb数据：（2）【代码】

在上一篇使用hadoop mapreduce分析mongodb数据：（１）中，介绍了如何使用Hadoop MapReduce连接MongoDB数据库以及如何处理数据库，本文结合一个案例来进一步说明Hadoop MapReduce处理MongoDB的细节原始数据> db.stackin.find({}) { "_id" : ObjectId("575ce909aa02c3b21f1be0bb"), "summary" : "good good day", "url" : "url_1" } { "_id" : ObjectId("575ce909aa02c3b21f1be0bc"), "summary" : "hello world good world", "url"...

Hadoop多目录输入，join，进入reduce，数据流分析

前言在做需求时，经常遇到多个目录，也就是多个维度进行join，这里分析一下，数据是怎么流动的。1、多目录输入使用MultipleInputs.addInputPath() 对多目录制定格式和map2、数据流分析map按行读入数据，需要对不同的输入目录，打上不同的标记（这个方法又叫reduce端连接），map在输出后会进行partition和sort，按照key进行排序，然后输出到reduce进行处理。例子三个输入文件：a.txt：500 501 b.txt:500 501 600 505 c.txt:501 500...

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

NameNodeHttpServer启动源码剖析，这一部分主要按以下步骤进行：　　一、源码调用分析　　二、伪代码调用流程梳理　　三、http server服务流程图解第一步，源码调用分析　　前一篇文章已经锁定到了NameNode.java类文件，搜索找到main()，可以看到代码只有寥寥几行，再筛除掉一些参数校验以及try-catch逻辑代码，　　剩下的核心的代码甚至只有两行，如下： 1publicstaticvoid main(String argv[]) throws Exception {2if (DFSUtil.p...

Hadoop项目实战－用户行为分析之应用概述（一）【图】

1.概述本课程的视频教程地址：《Hadoop 回顾》　　如果本教程能帮助到您，希望您能点击进去观看一下，而且现在注册成为极客学院的会员，验证手机号码和邮箱号码会赠送三天的会员时间，手机端首次也可以领取五天的会员时间哦（即使是购买年会员目前也仅仅是年费260），成为极客学院学习会员可以无限制的下载和观看所有的学院网站的视频，谢谢您的支持！　　好的，下面就开始本篇教程的内容分享，本篇教程我为大家介绍我们要做一个什...

Hadoop之RPC Server源码分析【图】

好了，让我们先来看看RPC的基础Server类的具体实现，很多设计思想和实践方式值的学习。重点不是看过源码，而是从源码中学习到了什么。尤其是其中，wait和notify的使用很好的学习范例，当然还有反射...Server start()方法是入口类，基本线程都是Daemon方式让我们来看看run里面执行了什么，主要是建立socket读取客户度请求。并将客户度请求并封装为call放入队列，提醒消费者使用。下面就是Handler，主要是处理，connection接受的对象...

Hadoop源代码分析（MapTask辅助类，III）【图】

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmark，用于标记记录的结尾。返部分代码需要bufmark，是因为key戒value的输出是变长的，（前面元信息记录大小是...

hadoop MR 统计分析日志脚本一例

#! /bin/sh#############################split today and yesterdayfor i in $(seq 10)do echo " " >> /u1/hadoop-stat/stat.logdoneecho "begin["`date "+%Y-%m-%d" -d "-1 days"`"]" >> /u1/hadoop-stat/stat.log#############################remove filefunction removeFilepathNotCurrentMonth(){month=`date "+%Y-%m" -d "-1 days"`for file in ` ls $1 `doif [ "$month" != "$file" ]; thenrm -rf $1"/"$filefidone}GYLOG...

hadoop日志数据分析开发步骤及代码【代码】【图】

日志数据分析：1.背景1.1 hm论坛日志，数据分为两部分组成，原来是一个大文件，是56GB；以后每天生成一个文件，大约是150-200MB之间；1.2 日志格式是apache common日志格式；每行记录有5部分组成：访问ip、访问时间、访问资源、访问状态、本次流量；27.19.74.143 - - [30/May/2013:17:38:20 +0800] "GET /static/image/common/faq.gif HTTP/1.1" 200 11271.3 分析一些核心指标，供运营决策者使用；1.4 开发该系统的目的是分了获取一...

Mapreduce执行过程分析(基于Hadoop2.4)——(一)【代码】【图】

1 概述该瞅瞅MapReduce的内部运行原理了，以前只知道个皮毛，再不搞搞，不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点，一步步来看里面到底是个什么情况。2 为什么要使用MapReduceMap/Reduce，是一种模式，适合解决并行计算的问题，比如TopN、贝叶斯分类等。注意，是并行计算，而非迭代计算，像涉及到层次聚类的问题就不太适合了。从名字可以看出，这种模式有两个步骤，Map和Reduce。Map即数据...

Hadoop HDFS源码分析读取命名空间镜像和编辑日志数据【代码】

读取命名空间镜像和编辑日志数据1.读取命名空间镜像类FSImage是命名空间镜像的java实现，在源码中，英文注释为，/*** FSImage handles checkpointing and logging of the namespace edits.**/FSImage.loadFSImage(FSNamesystem, StartupOption, MetaRecoveryContext) 读取命名空间镜像。 1privateboolean loadFSImage(FSNamesystem target, StartupOption startOpt,2 MetaRecoveryContext recove...

Hadoop CombineFileInputFormat原理及源码分析【代码】

引言引用《Hadoop权威指南》原文如下： Hadoop works better with a small number of large files than a large number of small files. One reason for this is that FileInputFormat generates splits in such a way that each split is all or part of a single file. If the file is very small (“small” means significantly smaller than an HDFS block) and there are a lot of them, each map task will process very l...

基于Hadoop大数据分析应用场景与实战【图】

一、Hadoop的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和...

Hadoop HDFS元数据目录分析【代码】

元数据目录分析在第一次部署好Hadoop集群的时候，我们需要在NameNode（NN）节点上格式化磁盘：$HADOOP_HOME/bin/hdfs namenode -format格式化完成之后，将会在$dfs.namenode.name.dir/current目录下如下的文件结构current/|-- VERSION|-- edits_*|-- fsimage_0000000000008547077|-- fsimage_0000000000008547077.md5`-- seen_txid其中的dfs.name.dir是在hdfs-site.xml文件中配置的，默认值如下：<property> <name>dfs.name.dir<...

hadoop本地目录相关代码分析

最近hadoop本地磁盘总是坏，伴随着有些hadoop job失败，阅读了一些相关的代码。本地磁盘健康检查 NodeManager默认会每两分钟检查本地磁盘（local-dirs），找出那些目录可以使用。注意这里如果判定这个磁盘不可用，则在重启NodeManager之前，就算磁盘好了，最近hadoop本地磁盘总是坏，伴随着有些hadoop job失败，阅读了一些相关的代码。本地磁盘健康检查 NodeManager默认会每两分钟检查本地磁盘（local-dirs），找出那些目录可以使...

超越Hadoop的大数据分析之前言【图】

本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者：吴京润校对：方腾飞我试图给人们学习大数据留下的一点深刻印象：尽管Apache Hadoop很有用，而且是一项非常成功的技术，但是这一观点的前提已经有些过时了。考虑一下这样一条时间线：由谷歌实现的MapR本文翻译自《BIG DATA ANALYTICS BEYOND HADOOP》译者：吴京润校对：方腾飞我试图给人们学习大数据留下的一点深刻印象：尽管Apache Hadoop很有用，而且是一项非常成功的技...

分析 - 相关标签

分析工具

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop多目录输入，join，进入reduce，数据流分析

Hadoop多目录输入，join，进入reduce，数据流分析

内容导读

内容图文

例子

代码

内容总结

内容备注

内容手机端

【Hadoop多目录输入，join，进入reduce，数据流分析】教程文章相关的互联网学习教程文章

使用hadoop mapreduce分析mongodb数据：（2）【代码】

Hadoop多目录输入，join，进入reduce，数据流分析

Hadoop源码学习笔记之NameNode启动流程分析二：http server启动源码剖析【代码】【图】

Hadoop项目实战－用户行为分析之应用概述（一）【图】

Hadoop之RPC Server源码分析【图】

Hadoop源代码分析（MapTask辅助类，III）【图】

hadoop MR 统计分析日志脚本一例

hadoop日志数据分析开发步骤及代码【代码】【图】

Mapreduce执行过程分析(基于Hadoop2.4)——(一)【代码】【图】

Hadoop HDFS源码分析读取命名空间镜像和编辑日志数据【代码】

Hadoop CombineFileInputFormat原理及源码分析【代码】

基于Hadoop大数据分析应用场景与实战【图】

Hadoop HDFS元数据目录分析【代码】

hadoop本地目录相关代码分析

超越Hadoop的大数据分析之前言【图】

HADOOP - 相关标签

分析 - 相关标签

数据 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程