首页 / HADOOP / Hadoop辅助排序样例二

Hadoop辅助排序样例二

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop辅助排序样例二，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6562字，纯文字阅读大概需要10分钟。

内容图文

1. 需求
求每年的最高温度

2. 样例数据

3. 思路、代码
将记录按年份分组并按温度降序排序，然后才将同一年份的所有记录送到一个 reducer 组，则各组的首条记录就是这一年的最高温度。实现此方案的要点是：
a. 定义包括自然键(年份)和自然值(温度)的组合键。
b. 根据组合键对记录进行排序。
c. 针对组合键进行分区和分组时均只考虑自然键。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.WritableComparable;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/**
 * 组合键，此例中用于辅助排序，包括年份和温度。
 */
public class IntPair implements WritableComparable<IntPair> {

    private IntWritable first;
    private IntWritable second;

    public IntPair() {
        this.first = new IntWritable();
        this.second = new IntWritable();
        //若注释掉上面两行，使用时会发生异常 java.lang.NullPointerException at IntPair.readFields
    }

    public IntPair(int first, int second) {
        set(new IntWritable(first), new IntWritable(second));
    }

    public IntPair(IntWritable first, IntWritable second) {
        set(first, second);
    }

    public void set(IntWritable first, IntWritable second) {
        this.first = first;
        this.second = second;
    }

    public IntWritable getFirst() {
        return first;
    }

    public IntWritable getSecond() {
        return second;
    }

    public void write(DataOutput out) throws IOException {
        first.write(out);
        second.write(out);
    }

    public void readFields(DataInput in) throws IOException {
        first.readFields(in);
        second.readFields(in);
    }

    @Override
    public int hashCode() {
        return first.hashCode() * 163 + second.hashCode();
    }

    @Override
    public boolean equals(Object obj) {
        if (obj instanceof IntPair) {
            IntPair ip = (IntPair) obj;
            return first.get() == ip.first.get() && second.get() == ip.second.get();
        }
        return false;
    }

    @Override
    public String toString() {
        return first + "\t" + second;
    }

    public int compareTo(IntPair o) {
        int cmp = first.compareTo(o.first);
        if (cmp == 0) {
            cmp = second.compareTo(o.second);
        }
        return cmp;
    }
}

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;
import org.apache.hadoop.io.WritableUtils;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;

public class MaxTemperatureUsingSecondarySort extends Configured implements Tool {

    static class MaxTemperatureMapper extends Mapper<LongWritable, Text, IntPair, NullWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            String[] val = value.toString().split("\\t");
            if (val.length == 2) {
                context.write(new IntPair(Integer.parseInt(val[0]), Integer.parseInt(val[1])), NullWritable.get());
            }
        }
    }

    static class MaxTemperatureReducer extends Reducer<IntPair, NullWritable, IntPair, NullWritable> {
        @Override
        protected void reduce(IntPair key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
            context.write(key, NullWritable.get()); //仅输出第一行
        }
    }

    //仅根据 first 分区
    public static class FirstPartitioner extends Partitioner<IntPair, NullWritable> {
        @Override
        public int getPartition(IntPair key, NullWritable value, int numPartitions) {
            return (key.getFirst().hashCode() & Integer.MAX_VALUE) % numPartitions;
        }
    }

    //仅根据 first 分组
    public static class GroupComparator extends WritableComparator {
        private static final IntWritable.Comparator INT_COMPARATOR = new IntWritable.Comparator();

        protected GroupComparator() {
            super(IntPair.class, true);
        }

        @Override
        public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
            try {
                int firstL1 = WritableUtils.decodeVIntSize(b1[s1]) + readVInt(b1, s1);
                int firstL2 = WritableUtils.decodeVIntSize(b2[s2]) + readVInt(b2, s2);
                return INT_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);
            } catch (IOException e) {
                throw new IllegalArgumentException(e);
            }
        }

        @Override
        public int compare(WritableComparable a, WritableComparable b) {
            if (a instanceof IntPair && b instanceof IntPair) {
                return ((IntPair) a).getFirst().compareTo(((IntPair) b).getFirst());
            }
            return super.compare(a, b);
        }
    }

    //根据组合键排序
    public static class KeyComparator extends WritableComparator {
        protected KeyComparator() {
            super(IntPair.class, true);
        }

        @Override
        public int compare(WritableComparable a, WritableComparable b) {
            if (a instanceof IntPair && b instanceof IntPair) {
                IntPair ip1 = (IntPair) a;
                IntPair ip2 = (IntPair) b;
                int cmp = ip1.getFirst().compareTo(ip2.getFirst()); //升序（年份）
                if (cmp != 0) {
                    return cmp;
                }
                return -ip1.getSecond().compareTo(ip2.getSecond()); //降序（温度）
            }
            return super.compare(a, b);
        }
    }

    public int run(String[] args) throws Exception {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
        if (otherArgs.length != 2) {
            System.err.println("Parameter number is wrong, please enter two parameters：<input> <output>");
            System.exit(-1);
        }

        Path inputPath = new Path(otherArgs[0]);
        Path outputPath = new Path(otherArgs[1]);

        //conf.set("fs.defaultFS", "hdfs://vmnode.zhch:9000");
        Job job = Job.getInstance(conf, "MaxTemperatureUsingSecondarySort");
        //job.setJar("F:/workspace/AssistRanking2/target/AssistRanking2-1.0-SNAPSHOT.jar");

        job.setMapperClass(MaxTemperatureMapper.class);
        job.setPartitionerClass(FirstPartitioner.class);
        job.setSortComparatorClass(KeyComparator.class); //默认根据 Key 的 compareTo 函数排序
        job.setGroupingComparatorClass(GroupComparator.class);
        job.setReducerClass(MaxTemperatureReducer.class);
        job.setMapOutputKeyClass(IntPair.class);
        job.setOutputKeyClass(IntPair.class);
        job.setOutputValueClass(NullWritable.class);

        FileInputFormat.addInputPath(job, inputPath);
        FileOutputFormat.setOutputPath(job, outputPath);

        return job.waitForCompletion(true) ? 0 : 1;
    }

    public static void main(String[] args) throws Exception {
        int exitCode = ToolRunner.run(new MaxTemperatureUsingSecondarySort(), args);
        System.exit(exitCode);
    }
}

4. 运行截图

注：本例源自《Hadoop权威指南》第三版 8.2.4

原文：http://my.oschina.net/zc741520/blog/528448

内容总结

以上是互联网集市为您收集整理的Hadoop辅助排序样例二全部内容，希望文章能够帮你解决Hadoop辅助排序样例二所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1171326.html

来源：【匿名】

【上一篇】Hadoop系列教程<一>---Hadoop是什么呢？【下一篇】php能用hadoop吗

更多 ►

【Hadoop辅助排序样例二】教程文章相关的互联网学习教程文章

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

摘自：http://blog.fens.me/mahout-recommendation-api/测试程序：RecommenderTest.java测试数据集：item.csv 1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.5 3,104,4.0 3,105,4.5 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest.java package org.conan.mymahout.recommendation.job;import java.io.IOException; import java.util.List;import org.apache.mahout.cf.tast...

Hadoop辅助排序样例二【代码】【图】

1. 需求求每年的最高温度 2. 样例数据 1995 10 1996 11 1995 16 1995 22 1996 26 1995 3 1996 7 1996 10 1996 20 1996 33 1995 21 1996 9 1995 31 1995 -13 1995 22 1997 -2 1997 28 1997 15 1995 8 3. 思路、代码将记录按年份分组并按温度降序排序，然后才将同一年份的所有记录送到一个 reducer 组，则各组的首条记录就是这一年的最高温度。实现此方案的要点是： a. 定义包括自然键(年份)和自然值(温度)的组合键。 b. 根据组合...

一起学Hadoop——二次排序算法的实现【代码】【图】

二次排序，从字面上可以理解为在对key排序的基础上对key所对应的值value排序，也叫辅助排序。一般情况下，MapReduce框架只对key排序，而不对key所对应的值排序，因此value的排序经常是不固定的。但是我们经常会遇到同时对key和value排序的需求，例如Hadoop权威指南中的求一年的高高气温，key为年份，value为最高气温，年份按照降序排列，气温按照降序排列。还有水果电商网站经常会有按天统计水果销售排行榜的需求等等，这些都是需要...

流量汇总（自定义jar包，在hadoop集群上统计，排序，分组）之统计【代码】【图】

小知识点：half：关机yarn端口：8088删除hdfs目录：hadoop fs -rm -r /wc/outputnamenode两个状态都是standby原因：zookeeper没有比hdfs先启动现在来做一个流量统计的例子：首先数据是这样一张表：见附件统计：（代码）1，flowbean：package cn.itcast.hadoop.mr.flowsum;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.Writable;import org.apache.hadoop.io.Writa...

hadoop 多目录输入，map到reduce如何排序

使用MultipleInputs.addInputPath 对多个路径输入现在假设有三个目录，并使用了三个mapper去处理，经过map处理后，输出的结果会根据key 进行join，如果使用TextPair，会根据第一个字段jion，第二个字段排序然后在作为reduce的输入，进行计算原文：http://blog.csdn.net/smile0198/article/details/34534241

python 实现Hadoop的partitioner和二次排序【代码】

我们知道，一个典型的Map-Reduce过程包括：Input->Map->Patition->Reduce->Output。Pation负责把Map任务输出的中间结果按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个非常实用的partitioner类KeyFieldBasedPartitioner，通过配置相应的参数就可以使用。通过 KeyFieldBasedPartitioner可以方便地实现二次排序。使用方法： -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 一般配合： ...

3.1.2 HADOOP框架（MapReduce编程框架，序列化Writeable接口，Maptask并行度，ReduceTadk并行度，shuffle机制，排序，join,自定义读取、输出）【图】

3.1.2 HADOOP框架文章目录 3.1.2 HADOOP框架六、MapReduce编程框架6.1 MapReduce思想6.2 官?WordCount案例源码解析6.3 MapReduce编程规范及示例编写6.3.1 Mapper类6.3.2 Reducer类6.3.3 Driver阶段6.3.4 WordCount代码实现6.3.4.1 需求6.3.4.2 具体步骤6.4 序列化Writable接口6.4.1 实现Writable序列化步骤如下6.4.2 Writable接口案例 6.5 MapReduce原理分析6.5.1 MapTask运行机制详解6.5.2 MapTask的并行度6.5.2.1 切片机制源码阅...

hadoopmapreduce数据排序

hadoop mapreduce数据排序有如下3个输入文件： file0 [plain] 2 32 654 32 15 756 65223 file1 [plain] 5956 22 650 92 file2 [plain] 26 54 6 由于reduce获得的key是按字典顺序排序的，利用默认的规则即可。 [java] // map将输入中的value化成IntWritablehadoop mapreduce数据排序有如下3个输入文件：file0[plain] 2 32 654 32 15 756 65223 file1 [plain] 5956 22 650 92 file2 [plain] 26 54 6 由...

Hadoop和Python：禁用排序

我已经意识到,当使用Python代码运行Hadoop时,无论是mapper还是reducer(不确定哪个)都会在reducer.py打印输出之前对我的输出进行排序.目前,它似乎是按字母数字排序的.我想知道是否有一种方法可以完全禁用此功能.我想要基于从mapper.py打印的顺序的程序输出.我在Java中找到了答案,但没有找到关于Python的答案.我需要修改mapper.py还是命令行参数？解决方法:您应该阅读有关MapReduce基本概念的更多信息.即使在某些情况下可能不需要排序...

Hadoop之Hive的排序

排序 - 相关标签

排序二叉树排序法排序方法排序函数排序算法的时间复杂度排序算法总结

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop辅助排序样例二

Hadoop辅助排序样例二

内容导读

内容图文

内容总结

内容备注

内容手机端

【Hadoop辅助排序样例二】教程文章相关的互联网学习教程文章

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储【代码】【图】

Hadoop辅助排序样例二【代码】【图】

一起学Hadoop——二次排序算法的实现【代码】【图】

流量汇总（自定义jar包，在hadoop集群上统计，排序，分组）之统计【代码】【图】

hadoop 多目录输入，map到reduce如何排序

python 实现Hadoop的partitioner和二次排序【代码】

3.1.2 HADOOP框架（MapReduce编程框架，序列化Writeable接口，Maptask并行度，ReduceTadk并行度，shuffle机制，排序，join,自定义读取、输出）【图】

hadoopmapreduce数据排序

Hadoop和Python：禁用排序

Hadoop之Hive的排序

HADOOP - 相关标签

排序 - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程