首页 / JAVA / MapReduce学习总结之java版wordcount实现

MapReduce学习总结之java版wordcount实现

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了MapReduce学习总结之java版wordcount实现，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含2840字，纯文字阅读大概需要5分钟。

内容图文

一、代码实现：

package rdb.com.hadoop01.mapreduce;
 
import java.io.IOException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 
/**
 * mapreduce word count 应用
 * @author rdb
 *
 */
public class WordCountApp {
 
    /**
     * map读取输入文件
     * @author rdb
     *
     */
    public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
         
        LongWritable one = new LongWritable(1);
        @Override
        protected void map(LongWritable key, Text value,
                Mapper<LongWritable, Text, Text, LongWritable>.Context context)
                throws IOException, InterruptedException {
            //接收每一行数据
            String line = value.toString();
            //按空格进行分割 
            String[] words = line.split(" ");
            for(String word :words){
                //通过上下文把map处理结果输出
                context.write(new Text(word), one);
            }
        }
    }
     
    /**
     * reduce程序，归并统计
     * @author rdb
     *
     */
    public static class MyReduce extends Reducer<Text, LongWritable, Text, LongWritable>{
         
        @Override
        protected void reduce(Text key, Iterable<LongWritable> values,
                Reducer<Text, LongWritable, Text, LongWritable>.Context context)
                throws IOException, InterruptedException {
            long sum = 0;
            for (LongWritable value : values){
                //求单词次数
                sum += value.get();
            }
            //通过上下文把reduce处理结果输出
            context.write(key, new LongWritable(sum));
        }
    }
     
    /**
     * 自定义driver:封装mapreduce作业所有信息
     *@param args
     * @throws IOException 
     */
    public static void main(String[] args) throws Exception {
         
        //创建配置
        Configuration configuration = new Configuration();
         
        //清理已经存在的输出目录
        Path out = new Path(args[1]);
        FileSystem fileSystem = FileSystem.get(configuration);
        if(fileSystem.exists(out)){
            fileSystem.delete(out, true);
            System.out.println("output exists,but it has deleted");
        }
         
        //创建job
        Job job = Job.getInstance(configuration,"WordCount");
         
        //设置job的处理类
        job.setJarByClass(WordCountApp.class);
         
        //设置作业处理的输入路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
         
        //设置map相关的参数
        job.setMapperClass(MyMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
         
        //设置reduce相关参数
        job.setReducerClass(MyReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
         
        //设置作业处理的输出路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
         
        System.exit(job.waitForCompletion(true)? 0 : 1) ;
    }
}

二、运行结果：

调用：

hadoop jar ~/lib/hadoop01-0.0.1-SNAPSHOT.jar rdb.com.hadoop01.mapreduce.WordCountApp 
hdfs://hadoop01:8020/hello.txt  hdfs://hadoop01:8020/output/wc

输入的文件内容：

Deer Bear River
Car Car River
Deer Car Bear

输出的结果：

Bear    2
Car     3
Deer    2
River   2

内容总结

以上是互联网集市为您收集整理的MapReduce学习总结之java版wordcount实现全部内容，希望文章能够帮你解决MapReduce学习总结之java版wordcount实现所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/833358.html

来源：【匿名】

【上一篇】Java-Runoob-高级教程-实例-数组：07. Java 实例 – 数组合并【下一篇】JAVA/JSP学习系列之五

更多 ►

【MapReduce学习总结之java版wordcount实现】教程文章相关的互联网学习教程文章

java同步工具类之CountDownLatch

?? 在一些应用场合中，某段程序需要等待某个条件达到要求后才能执行，或者等待一定长的时间后此行，从jdk1.5开始就可以使用CountDownLatch实现， CountDownLatch类是一个同步倒数计数器,构造时传入int参数,该参数就是计数器的初始值，每调用一次countDown()方法，计数器减1,计数器大于0 时，await()方法会阻塞后面程序执行，直到计数器为0。public class CountdownLatchTest {public static void main(String[] args) ...

Java并发和多线程4：使用通用同步工具CountDownLatch实现线程等待

CountDownLatch，一个同步辅助类，在完成一组正在其他线程中执行的操作之前，它允许一个或多个线程一直等待。用给定的计数初始化 CountDownLatch。由于调用了 countDown() 方法，所以在当前计数到达零之前，await 方法会一直受阻塞。之后，会释放所有等待的线程，await 的所有后续调用都将立即返回。这种现象只出现一次——计数无法被重置。如果需要重置计数，请考虑使用 CyclicBarrier。 CountDownLatch 是一个通用同步工具，它...

Java并发（7）：CountDownLatch、CyclicBarrier、Callable、Future【代码】【图】

CountDownLatch、CyclicBarrier、Callable、Future 都位于java.util.concurrent包下，其中CountDownLatch和CyclicBarrier属于该包中的tools分支，Callable和Future属于该包中的executer分支。一.CountDownLatch　　CountDownLatch类位于java.util.concurrent包下，利用它可以实现类似计数器的功能。比如有一个任务A，它要等待其他4个任务执行完毕之后才能执行，此时就可以利用CountDownLatch来实现这种功能了。CountDownLatch类只...

Java笔记---Hadoop 2.7.1下WordCount程序详解【代码】【图】

一、前言在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境。既然环境已经搭建好了，那么现在我们就应该来干点正事嘛！比如来一个Hadoop世界的HelloWorld，也就是WordCount程序(一个简单的单词计数程序)二、WordCount 官方案例的运行2.1 程序简介WordCount程序是hadoop自带的案例，我们可以在 hadoop 解压目录下找到包含这个程序的 jar 文件(hadoop-mapreduce-examples-2.7.1.jar)，该文件所在路径为 hadoop/share/hadoo...

Java 并发专题：闭锁 CountDownLatch 之一家人一起吃个饭

最近一直整并发这块东西，顺便写点Java并发的例子，给大家做个分享，也强化下自己记忆。每天起早贪黑的上班，父母每天也要上班，话说今天定了个饭店，一家人一起吃个饭，通知大家下班去饭店集合。假设：3个人在不同的地方上班，必须等到3个人到场才能吃饭，用程序如何实现呢？作为一名资深屌丝程序猿，开始写代码实现：package com.zhy.concurrency.latch;public class Test1 {/*** 模拟爸爸去饭店*/public static void fatherToRe...

Java实现MapReduce Wordcount案例【代码】【图】

先改pom.xml：<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.mcq</groupId><artifactId>mr-1101</artifactId><version>0.0.1-SNAPSHOT</version><dependencies><dependency><groupId>jdk.tools</groupId><artif...

java5 CountDownLatch同步工具【代码】【图】

好像倒计时计数器，调用CountDownLatch对象的countDown方法就将计数器减1，当到达0时，所有等待者就开始执行。java.util.concurrent.CountDownLatch一个同步辅助类，在完成一组正在其他线程中执行的操作之前，它允许一个或多个线程一直等待。用给定的计数初始化CountDownLatch。由于调用了countDown()方法，所以在当前计数到达零之前，await方法会一直受阻塞。之后，会释放所有等待的线程，await的所有后续调用都将立即返回。这种现...

Java并发之CountDownLatch

正如每个Java文档所描述的那样，CountDownLatch是一个同步工具类，它允许一个或多个线程一直等待，直到其他线程的操作执行完后再执行。在Java并发中，countdownlatch的概念是一个常见的面试题，所以一定要确保你很好的理解了它。在这篇文章中，我将会涉及到在Java并发编程中跟CountDownLatch相关的以下几点：目录CountDownLatch是什么？CountDownLatch如何工作？在实时系统中的应用场景应用范例常见的面试题CountDownLatch是什么C...

Java—CountDownLatch使用详解【代码】【图】

CountDownLatch介绍CountDownLatch概述CountDownLatch一般用作多线程倒计时计数器，强制它们等待其他一组（CountDownLatch的初始化决定）任务执行完成。有一点要说明的是CountDownLatch初始化后计数器值递减到0的时候，不能再复原的，这一点区别于Semaphore，Semaphore是可以通过release操作恢复信号量的。CountDownLatch使用原理使用原理创建CountDownLatch并设置计数器值。启动多线程并且调用CountDownLatch实例的countDown()方法...

0006JavaSE简单的项目FamilyAccount家庭记账控制台应用程序【图】

效果如下实现代码public class test7FamilyAccount{ public static void main(String[]args){ java.util.Scanner input = new java.util.Scanner(System.in); boolean flag=true; int balance=10000;//基本金 String detail="收支\t\t 账户金额\t 收支金额\t 说明\n"; while(flag){ System.out.println("\t\t 1 收入明细"); System.out.println("\t\t 2 登记收入"); System.out.println("\t\t 3 登记支出"); Syste...

Java并发之CountDownLatch工具类【代码】

一、CountDownLatch工具类介绍 CountDownLatch类是Java并发工具常用的四大工具之一，CountDownLatch允许一个或者多个线程等待其他线程完成工作。假设我们有这样的一个需求，我们需要解析一个Excel里多个sheet的据，这个时候我们考虑使用多线程同时进行工作，每个线程解析一个sheet里的数据，等到所有的sheet都解析完之后，程序需要提示解析完成将数据返回。在这个需求中，要实现主线程等待所有线程完成sheet的解析操作。在...

Java的CountDownLatch和CyclicBarrier的理解和区别

CountDownLatch和CyclicBarrier的功能看起来很相似，不易区分，有一种谜之的神秘。本文将通过通俗的例子并结合代码讲解两者的使用方法和区别。 CountDownLatch和CyclicBarrier都是java.util.concurrent包下面的多线程工具类。从字面上理解，CountDown表示减法计数，Latch表示门闩的意思，计数为0的时候就可以打开门闩了。Cyclic Barrier表示循环的障碍物。两个类都含有这一个意思：对应的线程都完成工作之后再进行下一步动作，也就...

java 5线程中 Semaphore信号灯，CyclicBarrier类，CountDownLatch计数器以及Exchanger类使用【代码】

先来讲解一下Semaphore信号灯的作用: 可以维护当前访问自身的线程个数，并提供了同步机制，使用semaphore可以控制同时访问资源的线程个数例如，实现一个文件允许的并发访问数。请看下面的演示代码: 1publicclass SemaphoreTest2{3publicstaticvoid main(String[] args)4 {5//创建一个带有缓存的线程池 6 ExecutorService service = Executors.newCachedThreadPool();7//创建三个信号灯 8final Semaphore sp = new Sema...

hadoop第一个程序WordCount.java的编译运行过程

java是hadoop开发的标准官方语言，本文下载了官方的WordCount.java并对其进行了编译和打包，然后使用测试数据运行了该hadoop程序。这里假定已经装好了hadoop的环境，在Linux下运行hadoop命令能够正常执行；下载java版本的WordCount.java程序。将WordCountjava是hadoop开发的标准官方语言，本文下载了官方的WordCount.java并对其进行了编译和打包，然后使用测试数据运行了该hadoop程序。这里假定已经装好了hadoop的环境，在Linux...

Flink学习（四） Flink Table & SQL 实现wordcount Java版本【代码】

Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。一个完整的 Flink SQL 编写的程序包括如下三部分。 Source Operator：是对外部数据源的抽象, 目前 Apache Flink 内置了很多常用的数据源实现，比如 MySQL、Kafka 等。Transformation Operators：算子操作主要完成比如查询、聚合操作等，目前 Flink SQL 支持了 Union、Join、Projection、Difference、Intersection ...

首页 / JAVA / MapReduce学习总结之java版wordcount实现

MapReduce学习总结之java版wordcount实现

内容导读

内容图文

内容总结

内容备注

内容手机端

【MapReduce学习总结之java版wordcount实现】教程文章相关的互联网学习教程文章

java同步工具类之CountDownLatch

Java并发和多线程4：使用通用同步工具CountDownLatch实现线程等待

Java并发（7）：CountDownLatch、CyclicBarrier、Callable、Future【代码】【图】

Java笔记---Hadoop 2.7.1下WordCount程序详解【代码】【图】

Java 并发专题：闭锁 CountDownLatch 之一家人一起吃个饭

Java实现MapReduce Wordcount案例【代码】【图】

java5 CountDownLatch同步工具【代码】【图】

Java并发之CountDownLatch

Java—CountDownLatch使用详解【代码】【图】

0006JavaSE简单的项目FamilyAccount家庭记账控制台应用程序【图】

Java并发之CountDownLatch工具类【代码】

Java的CountDownLatch和CyclicBarrier的理解和区别

java 5线程中 Semaphore信号灯，CyclicBarrier类，CountDownLatch计数器以及Exchanger类使用【代码】

hadoop第一个程序WordCount.java的编译运行过程

Flink学习（四） Flink Table & SQL 实现wordcount Java版本【代码】

JAVA - 相关标签

WORD - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程