首页 / HADOOP / Hadoop 系列（二）Top N

Hadoop 系列（二）Top N

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Hadoop 系列（二）Top N，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含7473字，纯文字阅读大概需要11分钟。

内容图文

一：流程分析

Top N简介

关系数据库中经常有Top n数据查询的大部分是以下四种需求

1.直接min或者max就可以取得最大或者最小的数据（top 1）

2.升级一点就再加上一个groupby取一个分组内的最大值，最小值（分组内的top1）

3.top 10需求，使用order函数取一个前10

4.分组内的top 10需求，使用window 函数生成一个虚拟列，虚拟列取< 11的数据就可以

相同的我们在mapreduce中也可能需要实现这种需求：

1.key取相同的值，value取最大值，或者最小值就可以。（优化一点的就是在map阶段就聚合部分的数据，不然容易数据倾斜,其实就是Combiner，但是没有做过helloworld，自己先试试）

2.key取groupby的值，value取最大值，最小值。（优化方案：map阶段取出来组内的最大最小值）

3.key取相同的值，value取一个前10

4.key取groupby的值，value取一个前10

我们可以把这四种全部都实现一下：有一点需要谨记：所有的map函数和reduce函数都不是只执行一次的

代码

数据：

2020040112 1
2020040113 3
2020040114 4
2020040115 5
2020040116 6
2020040117 7
2020040118 8
2020040119 9
2020040312 1
2020040313 3
2020040314 4
2020040315 5
2020040316 6
2020040317 7
2020040318 8
2020040319 9
2020040412 1
2020040413 3
2020040414 4
2020040415 5
2020040416 6
2020040417 7
2020040418 8
2020040419 9

代码1 输出最高温度和最低温度：

package org.example;

                
                    
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private int max = 0;
    private int min = 0;
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line[] = value.toString().split(" ");
        if(Integer.valueOf(line[1]) > max){
            max = Integer.valueOf(line[1]);
        }
        if(Integer.valueOf(line[1]) < min){
            min = Integer.valueOf(line[1]);
        }
    }
    @Override
    protected void cleanup(Context context) throws IOException, InterruptedException {
        context.write(new Text("min"),new IntWritable(min));
        context.write(new Text("max"),new IntWritable(max));
    }
}
class WordcountReducer extends Reducer<Text,IntWritable,Text,IntWritable> {
    private int max = 0;
    private int min = 0;
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        for (IntWritable value : values) {
            if(value.get() > max){
                max = value.get();
            }
            if(value.get() < min){
                min = value.get();
            }
        }
    }
    @Override
    protected void cleanup(Context context) throws IOException, InterruptedException {
        context.write(new Text("min"),new IntWritable(min));
        context.write(new Text("max"),new IntWritable(max));
    }
}
public class WordcountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "file:///");
        FileSystem fs= FileSystem.get(conf);
        String outputPath = "/software/java/data/output/";
        if(fs.exists(new Path(outputPath))) fs.delete(new Path(outputPath),true);
        Job job = Job.getInstance(conf);
        job.setJarByClass(WordcountDriver.class);
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.setInputPaths(job, new Path("/software/java/data/input/"));
        FileOutputFormat.setOutputPath(job, new Path(outputPath));
        //将job配置的参数，以及job所用的java类所在的jar包提交给yarn去运行
        //job.submit();
        boolean res = job.waitForCompletion(true);
    }
}

代码2 分组内输出最高温度和最低温度：

                package org.example;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;


                class WordcountMapper extends Mapper<LongWritable, Text, Text, Text> {
    private Map<String,String> minmaxMap = new HashMap<String,String>();
    @Override
    protectedvoid map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line[] = value.toString().split("\\ ");
        String date = line[0].substring(0,line[0].length()-2);
        int temperature = Integer.parseInt(line[1]);
        if(minmaxMap.containsKey(date)){

            int max = Integer.parseInt(minmaxMap.get(date).split("\\:")[0]);
            int min = Integer.parseInt(minmaxMap.get(date).split("\\:")[1]);

            if(temperature > max){
                minmaxMap.put(date,temperature+":"+min);
            }
            if(temperature < min){
                minmaxMap.put(date,max+":"+temperature);
            }
        }
        else{
            minmaxMap.put(date,temperature+":"+temperature);
        }
    }

    @Override
    protectedvoid cleanup(Context context) throws IOException, InterruptedException {
        for (Map.Entry<String, String> dateTemperature :minmaxMap.entrySet()) {
            System.out.println("map"+dateTemperature.getKey() + "|"+dateTemperature.getValue());
            context.write(new Text(dateTemperature.getKey()),new Text(dateTemperature.getValue()));
        }
    }
}
class WordcountReducer extends Reducer<Text,Text,Text,Text> {
    private Map<String,String> minmaxMap = new HashMap<String,String>();

    @Override
    protectedvoid reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        for (Text value:values ) {
            String date = key.toString();
            if(minmaxMap.containsKey(date)){

                int existMax = Integer.parseInt(minmaxMap.get(date).split("\\:")[0]);
                int existMin = Integer.parseInt(minmaxMap.get(date).split("\\:")[1]);
                int max = Integer.parseInt(value.toString().split("\\:")[0]);
                int min = Integer.parseInt(value.toString().split("\\:")[1]);
                int finalMax = existMax > max ? existMax:max;
                int finalMin = existMin < min ? existMin:min;
                minmaxMap.put(date,finalMax+":"+finalMin);
            }
            else{
                minmaxMap.put(date,value.toString());
            }
        }
    }

    @Override
    protectedvoid cleanup(Context context) throws IOException, InterruptedException {
        for (Map.Entry<String, String> dateTemperature :minmaxMap.entrySet()) {
            System.out.println("reduce"+dateTemperature.getKey() + "|"+dateTemperature.getValue());
            context.write(new Text(dateTemperature.getKey()),new Text(dateTemperature.getValue()));
        }
    }
}
publicclass WordcountDriver {
    publicstaticvoid main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        Configuration conf = new Configuration();
        conf.set("fs.defaultFS", "file:///");
        FileSystem fs= FileSystem.get(conf);
        String outputPath = "/software/java/data/output/";
        if(fs.exists(new Path(outputPath))) fs.delete(new Path(outputPath),true);

        Job job = Job.getInstance(conf);
        job.setJarByClass(WordcountDriver.class);
        job.setMapperClass(WordcountMapper.class);
        job.setReducerClass(WordcountReducer.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);


        FileInputFormat.setInputPaths(job, new Path("/software/java/data/input/"));
        FileOutputFormat.setOutputPath(job, new Path(outputPath));

        //将job配置的参数，以及job所用的java类所在的jar包提交给yarn去运行
        //job.submit();
        boolean res = job.waitForCompletion(true);
    }

}

代码3和代码4就不写了，因为差不多。

原文：https://www.cnblogs.com/wuxiaolong4/p/12733518.html

内容总结

以上是互联网集市为您收集整理的Hadoop 系列（二）Top N全部内容，希望文章能够帮你解决Hadoop 系列（二）Top N所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1123837.html

来源：【匿名】

【上一篇】SQL on Hadoop 的真相（1）【下一篇】php能用hadoop吗

更多 ►

【Hadoop 系列（二）Top N】教程文章相关的互联网学习教程文章

Hadoop系列教程<一>---Hadoop是什么呢？【图】

Hadoop适合应用于大数据存储和大数据分析的应用，适合于服务器几千台到几万台的集群运行，支持PB级的存储容量。Hadoop典型应用有：搜索、日志处理、推荐系统、数据分析、视频图像分析、数据保存等。但是Hadoop的使用范围远小于SQL或Python之类的脚本语言，所以不要盲目使用Hadoop。不过作为一名钻研Java的物联网工程师，我觉得值得去学习了解，而且想和大数据打交道还没有那个没听过Hadoop的。 Hadoop是使用Java编写，允许分布...

Hadoop HDFS编程 API入门系列之简单综合版本1（四）【图】

不多说，直接上代码。代码package zhouls.bigdata.myWholeHadoop.HDFS.hdfs4;import java.io.IOException;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.FileUtil;import org.apache.hadoop.fs.Path;import o...

【大数据系列】hadoop核心组件-MapReduce

原文：http://www.cnblogs.com/dream-to-pku/p/7192413.html

Hadoop 系列（二）Top N【代码】

一：流程分析Top N简介关系数据库中经常有Top n数据查询的大部分是以下四种需求 1.直接min或者max就可以取得最大或者最小的数据（top 1） 2.升级一点就再加上一个groupby取一个分组内的最大值，最小值（分组内的top1） 3.top 10需求，使用order函数取一个前10 4.分组内的top 10需求，使用window 函数生成一个虚拟列，虚拟列取< 11的数据就可以相同的我们在mapreduce中也可能需要实现...

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

1.1 Hadoop简介从Hadoop官网获得Hadoop的介绍：http://hadoop.apache.org/(1)What Is Apache Hadoop?TheApache Hadoop project develops open-source software for reliable, scalable, distributed computing.TheApache Hadoop software library is a framework that allows for the distributedprocessing of large data sets across clusters of computers using simpleprogramming models. It is designed to scale up from si...

Hadoop自学系列集(二) ---- CentOS下安装JDK【代码】【图】

上篇我们讲述了如何使用VMware安装CentOS系统，接下来就看如何安装我们最为熟悉的jdk吧！安装前先看看系统上有没有安装过jdk，输入java -version,如果查询出了其他版本的jdk版本，就先删除了，笔者这里使用jdk1.6。说开始就开始，下面开始说明安装步骤吧。1.我们去Oracle获取jdk1.6安装文件，地址分享:http://download.oracle.com/otn/java/jdk/6u45-b06/jdk-6u45-linux-i586.bin，这地址不能直接进行下载需要登录oracle；2.启动虚...

[大牛翻译系列]Hadoop（22）附录D.2 复制连接框架【代码】【图】

附录D.2 复制连接框架复制连接是map端连接，得名于它的具体实现：连接中最小的数据集将会被复制到所有的map主机节点。复制连接的实现非常直接明了。更具体的内容可以参考Chunk Lam的《Hadoop in Action》。这个部分的目标是：创建一个可以支持任意类型的数据集的通用的复制连接框架。这个框架中提供了一个优化的小功能：动态监测分布式缓存内容和输入块的大小，并判断哪个更大。如果输入块较小，那么你就需要将map的输入块放到内...

[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架【代码】【图】

附录D.1 优化后的重分区框架Hadoop社区连接包需要将每个键的所有值都读取到内存中。如何才能在reduce端的连接减少内存开销呢？本文提供的优化中，只需要缓存较小的数据集，然后在连接中遍历较大数据集中的数据。这个方法中还包括针对map的输出数据的次排序，那么reducer先接收到较小的数据集，然后接收到较大的数据集。图D.1是这个过程的流程图。图D.2是实现的类图。类图中包含两个部分，一个通用框架和一些类的实现样例。连...

安装Hadoop系列 — eclipse plugin插件编译安装配置【图】

[一]、环境参数 eclipse-java-kepler-SR2-linux-gtk-x86_64.tar.gz //现在改为eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gzHadoop1.0.3Java 1.8.0Ubuntu 12.04 64bit[二]、安装配置1、复制生成的 hadoop-eclipse-plugin-1.0.3.jar 到 eclipse/plugins 路径下,重启eclipse即可。2、在eclipse菜单依次点击 windows → show view → other… ，选择“Show View”对话框打开，搜索框输入“map”，会找到项“Map/Reduce Locations...

Hadoop系列之实验环境搭建【图】

实验环境基本配置硬件：硬盘单节点50GB，1G内存，单核。操作系统：CentOS6.4 64bit Hadoop：2.20 64bit(已编译) JDK：jdk1.7 磁盘分区： /5GB/boot100MB/usr5GB/tmp500MBswap2GB/var1GB/home剩余空间 Linux系统安装配置无桌面（Minimal） Base SystemàBase, Compatibility libraries, Performance Tools, Perl Support Developmentà Development Tools LanguagesàChinese Support 创建Hadoop用户Useradd Hadoop Passwd Hadoop 网...

安装Hadoop系列 — 安装JDK-8u5

安装步骤如下：1）下载 JDK 8　　从http://www.oracle.com/technetwork/java/javasebusiness/downloads/ 选择下载JDK的最新版本 JDK 8。　　我选择的是：jdk-8u5-linux-x64.tar.gz 这个版本的JDK不需要安装，只需要解压，然后再配置环境变量即可。2）新建一个文件夹　　#sudo mkdir -p /usr/local/java 3）将下载好的JDK 复制到该目录下面　　#sudo cp /home/hadoop/Downloads/jdk-8u5-linux-x64.tar.gz /usr/local/java 4）解压JD...

Hadoop系列（三）Hadoop三大核心之HDFS shell常用命令【图】

目录HDFS常用命令help 查看所有命令查看路径文件创建文件夹创建多级文件夹查看指定目录下和子目录下所有文件上传文件下载文件合并下载复制移动删除查看文件内容显示文件大小testweb界面HDFS常用命令help 查看所有命令[172.23.7.9:hadoop]$ hadoop fs help查看路径文件[172.23.7.9:hadoop]$ hadoop fs -ls /创建文件夹[172.23.7.9:hadoop]$ hadoop fs -mkdir /test创建多级文件夹[172.23.7.9:hadoop]$ hadoop fs -mkdir -p /test/te...

Hadoop学习：Hadoop家族系列文章【图】

Hadoop家族系列文章 Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch,Hadoop家族系列文章Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目...

Hadoop新特性、改进、优化和Bug分析系列5：YARN-3

作者: Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-jira-yarn-3/ 本博客的文章集合:http://dongxicheng.org/recommend/ 重大消息：我的Hadoop新书作者:Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-jira-yarn-3/...

Hadoop新特性、改进、优化和Bug分析系列4：YARN-326,YARN-2

作者: Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-jira-yarn-326-yarn-2/ 本博客的文章集合:http://dongxicheng.org/recommend/ 重大消息：我的H 作者:Dong | 新浪微博：西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-jira-yarn-32...

HADOOP - 最热教程

Windows下在eclipse中使用和操作hadoop...windows下大数据开发环境搭建（1）——...Hadoop与Facebook 使用 Oracle Load For Hadoop（OLH）实...Hadoop基础知识 windows部署hadoop-2.7.0 你只知大数据的便利，却不知漏洞——ha...头歌Educoder——大数据Hadoop开发环境...WSL2+Ubuntu配置Java Maven Hadoop Spa...Hadoop之MapReduce单元测试

首页 / HADOOP / Hadoop 系列（二）Top N

Hadoop 系列（二）Top N

内容导读

内容图文

一：流程分析

Top N简介

代码

内容总结

内容备注

内容手机端

【Hadoop 系列（二）Top N】教程文章相关的互联网学习教程文章

Hadoop系列教程<一>---Hadoop是什么呢？【图】

Hadoop HDFS编程 API入门系列之简单综合版本1（四）【图】

【大数据系列】hadoop核心组件-MapReduce

Hadoop 系列（二）Top N【代码】

企业级Hadoop 2.x入门系列之一Apache Hadoop 2.x简介与版本_云帆大数据学院【图】

Hadoop自学系列集(二) ---- CentOS下安装JDK【代码】【图】

[大牛翻译系列]Hadoop（22）附录D.2 复制连接框架【代码】【图】

[大牛翻译系列]Hadoop（21）附录D.1 优化后的重分区框架【代码】【图】

安装Hadoop系列 — eclipse plugin插件编译安装配置【图】

Hadoop系列之实验环境搭建【图】

安装Hadoop系列 — 安装JDK-8u5

Hadoop系列（三）Hadoop三大核心之HDFS shell常用命令【图】

Hadoop学习：Hadoop家族系列文章【图】

Hadoop新特性、改进、优化和Bug分析系列5：YARN-3

Hadoop新特性、改进、优化和Bug分析系列4：YARN-326,YARN-2

HADOOP - 相关标签

HADOOP - 最新教程

HADOOP - 最热教程