首页 / JAVA / Java实现MapReduce Wordcount案例

Java实现MapReduce Wordcount案例

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了Java实现MapReduce Wordcount案例，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含6464字，纯文字阅读大概需要10分钟。

内容图文

先改pom.xml：

<project xmlns="http://maven.apache.org/POM/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
	xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelVersion>4.0.0</modelVersion>
	<groupId>com.mcq</groupId>
	<artifactId>mr-1101</artifactId>
	<version>0.0.1-SNAPSHOT</version>
	<dependencies>
		<dependency>
			<groupId>jdk.tools</groupId>
			<artifactId>jdk.tools</artifactId>
			<version>1.8</version>
			<scope>system</scope>
			<systemPath>${JAVA_HOME}/lib/tools.jar</systemPath>
		</dependency>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
	</dependencies>
</project>

在resources文件夹下添加文件 log4j.properties：

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

WordcountDriver.java：

package com.mcq;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordcountDriver{
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		System.out.println("hello");
		Configuration conf=new Configuration();
		//1.获取Job对象
		Job job=Job.getInstance(conf);
		//2.设置jar存储位置
		job.setJarByClass(WordcountDriver.class);
		//3.关联Map和Reduce类
		job.setMapperClass(WordcountMapper.class);
		job.setReducerClass(WordcountReducer.class);
		//4.设置Mapper阶段输出数据的key和value类型
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		//5.设置最终输出的key和value类型
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		//6.设置输入路径和输出路径
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		//7.提交Job
//		job.submit();
		job.waitForCompletion(true);
//		boolean res=job.waitForCompletion(true);//true表示打印结果
//		System.exit(res?0:1);
	}
}

WordcountMapper.java：

package com.mcq;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//map阶段
//KEYIN:输入数据的key（偏移量，比如第一行是0~19，第二行是20~25），必须是LongWritable
//VALUEIN:输入数据的value（比如文本内容是字符串，那就填Text）
//KEYOUT:输出数据的key类型
//VALUEOUT:输出数据的值类型
public class WordcountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	IntWritable v=new IntWritable(1);
	Text k = new Text();
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		//1.获取一行
		String line=value.toString();
		//2.切割单词
		String[] words=line.split(" ");
		//3.循环写出
		for(String word:words) {
			k.set(word);
			context.write(k, v);
		}
	}
}

WordcountReducer.java：

package com.mcq;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

//KEYIN、VALUEIN：map阶段输出的key和value类型
public class WordcountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
	IntWritable v=new IntWritable();
	@Override
	protected void reduce(Text key, Iterable<IntWritable> values,
			Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		int sum=0;
		for(IntWritable value:values) {
			sum+=value.get();
		}
		v.set(sum);
		context.write(key, v);
	}
}

在run configuration里加上参数e:/mrtest/in.txt e:/mrtest/out.txt 技术分享图片

运行时遇到了个bug，参考https://blog.csdn.net/qq_40310148/article/details/86617512解决了

在集群上运行：

用maven打成jar包，需要添加一些打包依赖：

	<build>
		<plugins>
			<plugin>
				<artifactId>maven-compiler-plugin</artifactId>
				<version>2.3.2</version>
				<configuration>
					<source>1.8</source>
					<target>1.8</target>
				</configuration>
			</plugin>
			<plugin>
				<artifactId>maven-assembly-plugin </artifactId>
				<configuration>
					<descriptorRefs>
						<descriptorRef>jar-with-dependencies</descriptorRef>
					</descriptorRefs>
					<archive>
						<manifest>
							<mainClass>com.mcq.WordcountDriver</mainClass>
						</manifest>
					</archive>
				</configuration>
				<executions>
					<execution>
						<id>make-assembly</id>
						<phase>package</phase>
						<goals>
							<goal>single</goal>
						</goals>
					</execution>
				</executions>
			</plugin>
		</plugins>
	</build>

注意上面mainClass里要填驱动类的主类名，可以点击类名右键copy qualified name。

将程序打成jar包（具体操作：右键工程名run as maven install，然后target文件夹会产生两个jar包，我们把不用依赖的包拷贝到hadoop集群上，因为集群已经配好相关依赖了），上传到集群

输入以下命令运行

hadoop jar mr-1101-0.0.1-SNAPSHOT.jar com.mcq.WordcountDriver /xiaocao.txt /output

注意这里输入输出的路径是集群上的路径。

l>1111<![endif]--> l> <![endif]--> l> MicrosoftInternetExplorer402DocumentNotSpecified7.8 磅Normal0<![endif]--> l> <![endif]-->

原文：https://www.cnblogs.com/mcq1999/p/11780758.html

内容总结

以上是互联网集市为您收集整理的Java实现MapReduce Wordcount案例全部内容，希望文章能够帮你解决Java实现MapReduce Wordcount案例所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1124285.html

来源：【匿名】

【上一篇】《阿里巴巴Java开发手册》杨冠宝著高清pdf 【下一篇】JAVA/JSP学习系列之五

更多 ►

【Java实现MapReduce Wordcount案例】教程文章相关的互联网学习教程文章

Java并发和多线程4：使用通用同步工具CountDownLatch实现线程等待

CountDownLatch，一个同步辅助类，在完成一组正在其他线程中执行的操作之前，它允许一个或多个线程一直等待。用给定的计数初始化 CountDownLatch。由于调用了 countDown() 方法，所以在当前计数到达零之前，await 方法会一直受阻塞。之后，会释放所有等待的线程，await 的所有后续调用都将立即返回。这种现象只出现一次——计数无法被重置。如果需要重置计数，请考虑使用 CyclicBarrier。 CountDownLatch 是一个通用同步工具，它...

Java并发（7）：CountDownLatch、CyclicBarrier、Callable、Future【代码】【图】

CountDownLatch、CyclicBarrier、Callable、Future 都位于java.util.concurrent包下，其中CountDownLatch和CyclicBarrier属于该包中的tools分支，Callable和Future属于该包中的executer分支。一.CountDownLatch　　CountDownLatch类位于java.util.concurrent包下，利用它可以实现类似计数器的功能。比如有一个任务A，它要等待其他4个任务执行完毕之后才能执行，此时就可以利用CountDownLatch来实现这种功能了。CountDownLatch类只...

Java笔记---Hadoop 2.7.1下WordCount程序详解【代码】【图】

一、前言在之前我们已经在 CenOS6.5 下搭建好了 Hadoop2.x 的开发环境。既然环境已经搭建好了，那么现在我们就应该来干点正事嘛！比如来一个Hadoop世界的HelloWorld，也就是WordCount程序(一个简单的单词计数程序)二、WordCount 官方案例的运行2.1 程序简介WordCount程序是hadoop自带的案例，我们可以在 hadoop 解压目录下找到包含这个程序的 jar 文件(hadoop-mapreduce-examples-2.7.1.jar)，该文件所在路径为 hadoop/share/hadoo...

Java 并发专题：闭锁 CountDownLatch 之一家人一起吃个饭

最近一直整并发这块东西，顺便写点Java并发的例子，给大家做个分享，也强化下自己记忆。每天起早贪黑的上班，父母每天也要上班，话说今天定了个饭店，一家人一起吃个饭，通知大家下班去饭店集合。假设：3个人在不同的地方上班，必须等到3个人到场才能吃饭，用程序如何实现呢？作为一名资深屌丝程序猿，开始写代码实现：package com.zhy.concurrency.latch;public class Test1 {/*** 模拟爸爸去饭店*/public static void fatherToRe...

Java实现MapReduce Wordcount案例【代码】【图】

先改pom.xml：<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.mcq</groupId><artifactId>mr-1101</artifactId><version>0.0.1-SNAPSHOT</version><dependencies><dependency><groupId>jdk.tools</groupId><artif...

java5 CountDownLatch同步工具【代码】【图】

好像倒计时计数器，调用CountDownLatch对象的countDown方法就将计数器减1，当到达0时，所有等待者就开始执行。java.util.concurrent.CountDownLatch一个同步辅助类，在完成一组正在其他线程中执行的操作之前，它允许一个或多个线程一直等待。用给定的计数初始化CountDownLatch。由于调用了countDown()方法，所以在当前计数到达零之前，await方法会一直受阻塞。之后，会释放所有等待的线程，await的所有后续调用都将立即返回。这种现...

Java并发之CountDownLatch

正如每个Java文档所描述的那样，CountDownLatch是一个同步工具类，它允许一个或多个线程一直等待，直到其他线程的操作执行完后再执行。在Java并发中，countdownlatch的概念是一个常见的面试题，所以一定要确保你很好的理解了它。在这篇文章中，我将会涉及到在Java并发编程中跟CountDownLatch相关的以下几点：目录CountDownLatch是什么？CountDownLatch如何工作？在实时系统中的应用场景应用范例常见的面试题CountDownLatch是什么C...

Java—CountDownLatch使用详解【代码】【图】

CountDownLatch介绍CountDownLatch概述CountDownLatch一般用作多线程倒计时计数器，强制它们等待其他一组（CountDownLatch的初始化决定）任务执行完成。有一点要说明的是CountDownLatch初始化后计数器值递减到0的时候，不能再复原的，这一点区别于Semaphore，Semaphore是可以通过release操作恢复信号量的。CountDownLatch使用原理使用原理创建CountDownLatch并设置计数器值。启动多线程并且调用CountDownLatch实例的countDown()方法...

0006JavaSE简单的项目FamilyAccount家庭记账控制台应用程序【图】

效果如下实现代码public class test7FamilyAccount{ public static void main(String[]args){ java.util.Scanner input = new java.util.Scanner(System.in); boolean flag=true; int balance=10000;//基本金 String detail="收支\t\t 账户金额\t 收支金额\t 说明\n"; while(flag){ System.out.println("\t\t 1 收入明细"); System.out.println("\t\t 2 登记收入"); System.out.println("\t\t 3 登记支出"); Syste...

Java并发之CountDownLatch工具类【代码】

一、CountDownLatch工具类介绍 CountDownLatch类是Java并发工具常用的四大工具之一，CountDownLatch允许一个或者多个线程等待其他线程完成工作。假设我们有这样的一个需求，我们需要解析一个Excel里多个sheet的据，这个时候我们考虑使用多线程同时进行工作，每个线程解析一个sheet里的数据，等到所有的sheet都解析完之后，程序需要提示解析完成将数据返回。在这个需求中，要实现主线程等待所有线程完成sheet的解析操作。在...

Java的CountDownLatch和CyclicBarrier的理解和区别

CountDownLatch和CyclicBarrier的功能看起来很相似，不易区分，有一种谜之的神秘。本文将通过通俗的例子并结合代码讲解两者的使用方法和区别。 CountDownLatch和CyclicBarrier都是java.util.concurrent包下面的多线程工具类。从字面上理解，CountDown表示减法计数，Latch表示门闩的意思，计数为0的时候就可以打开门闩了。Cyclic Barrier表示循环的障碍物。两个类都含有这一个意思：对应的线程都完成工作之后再进行下一步动作，也就...

java 5线程中 Semaphore信号灯，CyclicBarrier类，CountDownLatch计数器以及Exchanger类使用【代码】

先来讲解一下Semaphore信号灯的作用: 可以维护当前访问自身的线程个数，并提供了同步机制，使用semaphore可以控制同时访问资源的线程个数例如，实现一个文件允许的并发访问数。请看下面的演示代码: 1publicclass SemaphoreTest2{3publicstaticvoid main(String[] args)4 {5//创建一个带有缓存的线程池 6 ExecutorService service = Executors.newCachedThreadPool();7//创建三个信号灯 8final Semaphore sp = new Sema...

hadoop第一个程序WordCount.java的编译运行过程

java是hadoop开发的标准官方语言，本文下载了官方的WordCount.java并对其进行了编译和打包，然后使用测试数据运行了该hadoop程序。这里假定已经装好了hadoop的环境，在Linux下运行hadoop命令能够正常执行；下载java版本的WordCount.java程序。将WordCountjava是hadoop开发的标准官方语言，本文下载了官方的WordCount.java并对其进行了编译和打包，然后使用测试数据运行了该hadoop程序。这里假定已经装好了hadoop的环境，在Linux...

Flink学习（四） Flink Table & SQL 实现wordcount Java版本【代码】

Flink SQL 是 Flink 实时计算为简化计算模型，降低用户使用实时计算门槛而设计的一套符合标准 SQL 语义的开发语言。一个完整的 Flink SQL 编写的程序包括如下三部分。 Source Operator：是对外部数据源的抽象, 目前 Apache Flink 内置了很多常用的数据源实现，比如 MySQL、Kafka 等。Transformation Operators：算子操作主要完成比如查询、聚合操作等，目前 Flink SQL 支持了 Union、Join、Projection、Difference、Intersection ...

Java连接Oracle报错：theaccountislocked【图】

用Java连接Oracle，运行一段时间后，程序报错，连接失败，ora-28000 the account is locked，出现这种原因，是因为用户被锁定了用Java连接Oracle，运行一段时间后，程序报错，连接失败，ora-28000 the account is locked，，出现这种原因，是因为用户被锁定了，一般出现这种情况，有几个原因：一、是因为程序连接数据库的数量大于配置的连接数；二、在线程中一直用错误的秘码去连接数据库，导致Oracle数据库认为是有人在破解...

首页 / JAVA / Java实现MapReduce Wordcount案例

Java实现MapReduce Wordcount案例

内容导读

内容图文

内容总结

内容备注

内容手机端

【Java实现MapReduce Wordcount案例】教程文章相关的互联网学习教程文章

Java并发和多线程4：使用通用同步工具CountDownLatch实现线程等待

Java并发（7）：CountDownLatch、CyclicBarrier、Callable、Future【代码】【图】

Java笔记---Hadoop 2.7.1下WordCount程序详解【代码】【图】

Java 并发专题：闭锁 CountDownLatch 之一家人一起吃个饭

Java实现MapReduce Wordcount案例【代码】【图】

java5 CountDownLatch同步工具【代码】【图】

Java并发之CountDownLatch

Java—CountDownLatch使用详解【代码】【图】

0006JavaSE简单的项目FamilyAccount家庭记账控制台应用程序【图】

Java并发之CountDownLatch工具类【代码】

Java的CountDownLatch和CyclicBarrier的理解和区别

java 5线程中 Semaphore信号灯，CyclicBarrier类，CountDownLatch计数器以及Exchanger类使用【代码】

hadoop第一个程序WordCount.java的编译运行过程

Flink学习（四） Flink Table & SQL 实现wordcount Java版本【代码】

Java连接Oracle报错：theaccountislocked【图】

COUNT - 相关标签

MAP - 相关标签

JAVA - 技术教程分类

JAVA - 最新教程

JAVA - 最热教程